java获取pdf表格中的内容 pdf文件中带表格数据的抽取,表格中含有空数据,要求获取的数据对应到相应的属性上。采用pdfbox好像获取表格数据信息比较乱,不能完全匹配到相应的属性上。跪求哪位高人帮忙!! 解决方案 » 免费领取超大流量手机卡,每月29元包185G流量+100分钟通话, 中国电信官方发货 哪位高人有用纯java解析的代码吗,谢谢 一般使用开源的iText库来创建PDF文档,不过这个库也提供了解析已有pdf文档的API,本人没有用过,你可以参阅下官网http://itextpdf.com/ pdf的表格格式大小位置都不变的话,可以考虑用位置来获取值pdfbox有个demo是按位置提取text,另外还有一个demo帮助你找到每个字符的位置但如果pdf是扫描的,那得找ocr控件获取textpdf中也有个acroForm的东西,但至今没有遇到过pdf含有此单元,所以没做过,楼主也可以试着在document中找找有没有这个元素,如果有可能更简单如果楼主想先看一下pdf的结构,pdfbox有app版,之中有个debbuger可以查看pdf结构对于一些画上去的checkbox之类,我找到的办法是将pdf转为image然后判断特定位置上pixel值判定checkbox有没有被选中但由于pdfbox中toImage单元还处于beta阶段,不太稳定,有时候一些font的问题会导致程序崩溃,建议在转image之前清除所有文字 求算法 打印菱形三角 两个jtable怎样知道哪个jtable发生了改变? 关于砸金花的OOP编程 用JBuilder写了gui,打成jar包后运行效果差很多 多线程实现方法 为什么我的j2sdk-1_4_2_04-windows-i586-p.exe一直装不进去? 求JDK1.4的习题资料!非常感谢! applet疑问,急 现在无法设置属性??? 令人头痛的问题:如何判断数据库表中的字段已全部遍历 求教java学习的过程 自定义annotation属性可选问题
pdfbox有个demo是按位置提取text,
另外还有一个demo帮助你找到每个字符的位置
但如果pdf是扫描的,那得找ocr控件获取textpdf中也有个acroForm的东西,但至今没有遇到过pdf含有此单元,所以没做过,楼主也可以试着在document中找找有没有这个元素,如果有可能更简单如果楼主想先看一下pdf的结构,pdfbox有app版,之中有个debbuger可以查看pdf结构对于一些画上去的checkbox之类,我找到的办法是将pdf转为image然后判断特定位置上pixel值判定checkbox有没有被选中
但由于pdfbox中toImage单元还处于beta阶段,不太稳定,有时候一些font的问题会导致程序崩溃,建议在转image之前清除所有文字