公司上面有些要求,是吧一份pdf文档转成xml格式的。 不过其中标签都是自定的,所以需要自己修改。我想要做的是给pdf文档中的标题行前面和后面都加上一些标签比如pdf文档如下:我是标题
我是内容我是内容我是内容我是内容我是内容,
我是内容我是内容我是内容我是内容我是内容,
我是内容我是内容我是内容我是内容我是内容。
于是我想读取pdf文件,然后生成的xml文档格式如下:<somecode>我是标题</soomcode>
我是内容我是内容我是内容我是内容我是内容,
我是内容我是内容我是内容我是内容我是内容,
我是内容我是内容我是内容我是内容我是内容。
我现在用过 PDFClown , PDFBox查阅了一下API,发现都是有转成txt格式的功能,可是一旦转成txt格式 就不存在什么标题不标题了。我查阅了一下关于Book方面的api,发现只能获取、添加、删除、修改 Book 好像没有从Book获得 该Book所在第几行方面的功能。因为我英语不是很好,所以API也不是特看的明白。 要是谁有什么方法弄,或者知道相关API的 麻烦告诉我一下 谢谢了。ps: 我的pdf文件里面已经建立好书签了,书签所对的位置就是文档的标题。希望能帮帮我,哪怕帮我顶一下呢 因为挺着急用的 谢谢了。

解决方案 »

  1.   

    此回复为自动发出,仅用于显示而已,并无任何其他特殊作用
    楼主【iamzealotwang】截止到2008-07-22 11:17:09的历史汇总数据(不包括此帖):
    发帖的总数量:23                       发帖的总分数:460                      每贴平均分数:20                       
    回帖的总数量:40                       得分贴总数量:7                        回帖的得分率:17%                      
    结贴的总数量:23                       结贴的总分数:460                      
    无满意结贴数:7                        无满意结贴分:130                      
    未结的帖子数:0                        未结的总分数:0                        
    结贴的百分比:100.00%               结分的百分比:100.00%                  
    无满意结贴率:30.43 %               无满意结分率:28.26 %                  
    敬礼!