本人现在正在处理一些pdf文件,需要将内容取出来放入数据库,现在只可以做到将内容取出放入字符串中,但是原来pdf中的内容中含有化学方程式,一些公式等,这些公式就不能规则的显示出来,请好心人帮忙,怎么样能拿到标准一点的公式?
目前的主要代码doc = PDDocument.load(new File(pdfpath));
stripper = new PDFTextStripper(); 
stripper.setSortByPosition(false);
// 设置起始页
stripper.setStartPage(i);
// 设置结束页
stripper.setEndPage(i);  
stripper.writeText(doc, output);  
contents = out.toByteArray(); 
content = new String(contents);
System.out.println(content);

解决方案 »

  1.   

    PDF Box1.将一个PDF文档转换输出为一个文本文件。
    2.通过java 的文件操作读取文本内存,截取你的公式
      

  2.   

    现在的问题是转换后输出的文本文件里的公式已经乱了,下标就会在下一行出现,怎么样能判断出哪些字符是这些是下标还是下标呢?在pdf中好像是通过坐标来定位的。