pdf文件中带表格数据的抽取,表格中含有空数据,要求获取的数据对应到相应的属性上。采用pdfbox好像获取表格数据信息比较乱,不能完全匹配到相应的属性上。跪求哪位高人帮忙!!

解决方案 »

  1.   

    哪位高人有用纯java解析的代码吗,谢谢
      

  2.   

    一般使用开源的iText库来创建PDF文档,不过这个库也提供了解析已有pdf文档的API,本人没有用过,你可以参阅下官网http://itextpdf.com/
      

  3.   

    pdf的表格格式大小位置都不变的话,可以考虑用位置来获取值
    pdfbox有个demo是按位置提取text,
    另外还有一个demo帮助你找到每个字符的位置
    但如果pdf是扫描的,那得找ocr控件获取textpdf中也有个acroForm的东西,但至今没有遇到过pdf含有此单元,所以没做过,楼主也可以试着在document中找找有没有这个元素,如果有可能更简单如果楼主想先看一下pdf的结构,pdfbox有app版,之中有个debbuger可以查看pdf结构对于一些画上去的checkbox之类,我找到的办法是将pdf转为image然后判断特定位置上pixel值判定checkbox有没有被选中
    但由于pdfbox中toImage单元还处于beta阶段,不太稳定,有时候一些font的问题会导致程序崩溃,建议在转image之前清除所有文字