最近有个项目要解析pdf,将pdf中的文本提取到txt文件中,PDF格式如下:
要解析出来的txt格式如下:
相当于把pdf中的空格替换为逗号(,),个人以为很简单,但是通过这两天的研究发现pdf超恶心的,是一种无规则的文档,解析很困难,有没有哪们大师做过这方面的东西,请求交流!pdf下载地址http://www.iteye.com/topic/1121097
要解析出来的txt格式如下:
相当于把pdf中的空格替换为逗号(,),个人以为很简单,但是通过这两天的研究发现pdf超恶心的,是一种无规则的文档,解析很困难,有没有哪们大师做过这方面的东西,请求交流!pdf下载地址http://www.iteye.com/topic/1121097
解决方案 »
免费领取超大流量手机卡,每月29元包185G流量+100分钟通话, 中国电信官方发货