我现在用的PDFBox
可以读取简单的纯文本pdf,但如果pdf里面有图片就会报错
还有没有什么好的办法读取pdf,图片读不到都无所谓,我只要字符串就可以
谢谢

解决方案 »

  1.   

    如果不要格式,网上搜搜PDF2Txt,然后读取txt文件
      

  2.   

    我试过了,这个只能读取类似纯文本的pdf,内容中要是有图片就会报错,不能满足我的要求
      

  3.   

    读PDF.你需要确定的内容是100%正确。99% 的正确.那也是不能用的.
      

  4.   

    准确率过的去就好了,我不要求90%的准确率,只要能识别出来所有pdf文件中的文本内容就好