java获取pdf表格中的内容

pdf文件中带表格数据的抽取，表格中含有空数据，要求获取的数据对应到相应的属性上。采用pdfbox好像获取表格数据信息比较乱，不能完全匹配到相应的属性上。跪求哪位高人帮忙！！

哪位高人有用纯java解析的代码吗，谢谢
一般使用开源的iText库来创建PDF文档，不过这个库也提供了解析已有pdf文档的API，本人没有用过，你可以参阅下官网http://itextpdf.com/
pdf的表格格式大小位置都不变的话，可以考虑用位置来获取值
pdfbox有个demo是按位置提取text，
另外还有一个demo帮助你找到每个字符的位置
但如果pdf是扫描的，那得找ocr控件获取textpdf中也有个acroForm的东西，但至今没有遇到过pdf含有此单元，所以没做过，楼主也可以试着在document中找找有没有这个元素，如果有可能更简单如果楼主想先看一下pdf的结构，pdfbox有app版，之中有个debbuger可以查看pdf结构对于一些画上去的checkbox之类，我找到的办法是将pdf转为image然后判断特定位置上pixel值判定checkbox有没有被选中
但由于pdfbox中toImage单元还处于beta阶段，不太稳定，有时候一些font的问题会导致程序崩溃，建议在转image之前清除所有文字