本人现在正在处理一些pdf文件,需要将内容取出来放入数据库,现在只可以做到将内容取出放入字符串中,但是原来pdf中的内容中含有化学方程式,一些公式等,这些公式就不能规则的显示出来,请好心人帮忙,怎么样能拿到标准一点的公式?
目前的主要代码doc = PDDocument.load(new File(pdfpath));
stripper = new PDFTextStripper();
stripper.setSortByPosition(false);
// 设置起始页
stripper.setStartPage(i);
// 设置结束页
stripper.setEndPage(i);
stripper.writeText(doc, output);
contents = out.toByteArray();
content = new String(contents);
System.out.println(content);
目前的主要代码doc = PDDocument.load(new File(pdfpath));
stripper = new PDFTextStripper();
stripper.setSortByPosition(false);
// 设置起始页
stripper.setStartPage(i);
// 设置结束页
stripper.setEndPage(i);
stripper.writeText(doc, output);
contents = out.toByteArray();
content = new String(contents);
System.out.println(content);
2.通过java 的文件操作读取文本内存,截取你的公式