最近有个项目要解析pdf,将pdf中的文本提取到txt文件中,PDF格式如下:
 
要解析出来的txt格式如下:
 
 
相当于把pdf中的空格替换为逗号(,),个人以为很简单,但是通过这两天的研究发现pdf超恶心的,是一种无规则的文档,解析很困难,有没有哪们大师做过这方面的东西,请求交流!pdf下载地址http://www.iteye.com/topic/1121097