如何从pdf文献里抽取 标题、作者、摘要和关键字等索引信息呢? 要建一个文献数据库,因为文献数目太大了,希望能实现自动提取文献标题、作者等索引信息入库,下载了pdfbox,但不知如何取提取这些信息,请高手们帮帮我!慷慨送分! 解决方案 » 免费领取超大流量手机卡,每月29元包185G流量+100分钟通话, 中国电信官方发货 在org.pdfbox.pdmodel这个包中有一个叫PDDocumentInformation的类.通过它可以取得:getAuthor() :取得作者名称getCreationDate() :取得创建日期getCreator() :取得创建者getKeywords() :取得密码getTitle() :取得标题... 也可以通过这样的方式来取得PDDocumentInformation...PDDocument doc=PDDocument.load("/res/hello.pdf");PDDocumentInformation pdfInfo=doc.getDocumentInformation(); 我也用到上面的这些方法了,但是得到的东西基本上是null。得到的值跟右键点击pdf文档,得到的文档信息的内容是一样的,但是这些文档的信息一般都是null。我指的是要从pdf文档里面提取文献信息的内容,与文档信息有一点的区别 当用鼠标右击PDF文件并且选择属性时,在弹出的对话框中有一个选项卡叫PDF,在那里就记录了PDF的这些信息,可以通过pdfbox的API来操作的 注意不是我们通常所说的文件的那些基本信息哟!PDF的那些信息是属于PDF文件自身的,而不是普通文件的,PDF的这些信息也可以通过Acrobat软件来查看 PDDocument doc=PDDocument.load("./res/hello.pdf");PDDocumentInformation pdfInfo=doc.getDocumentInformation();System.out.println(pdfInfo.getSubject()+" "+pdfInfo.getAuthor());我上面这段程序就正常读出了PDF的信息,而不是null 我需要的不是右键点击pdf文件可以查看到的信息,而是文件的相关内容,比如一篇论文,有标题、作者、摘要,从pdf文件内容进行这些信息的抽取 我又去查了一下PDFBOX的API,我想可以通过PDPage or PDPageNode这两个类的对象来获取内容,不过前提是你的这些PDF文献要有比较严格的格式,不然会出问题,取出来的文本不是你想要的 我们用java来解决实际问题。java技术交流,讨论java的技术细节和最新技术。欢迎中高级程序员以及渴望学习java技术的初学者加入讨论。QQ群:3001581 这里能帮你解决你的问题!来踩一下呀, http://bbs.oneedu.cn/bbs 急快解决 JAVA并发编程实践 菜鸟请教各位大侠 高分提问(Tcp的输出流一定要用PrintWrite或PrintStream吗? 一个Object中equals的问题,请前辈帮忙解答``` 请教递归问题,我有一个数组,里边保存着树结构 请教Applet数字签名问题 这中命名类方法会产生什么现象 Applet中包含Swing组件而不能正确绘画如何解决? i = i++与字节码指令 请问怎么去掉窗体最上面的那个最大化最小化的那个横条。。。 学JAVA上手快吗????想改了!!!
getAuthor() :取得作者名称
getCreationDate() :取得创建日期
getCreator() :取得创建者
getKeywords() :取得密码
getTitle() :取得标题
...
PDDocument doc=PDDocument.load("/res/hello.pdf");
PDDocumentInformation pdfInfo=doc.getDocumentInformation();
得到的值跟右键点击pdf文档,得到的文档信息的内容是一样的,
但是这些文档的信息一般都是null。
我指的是要从pdf文档里面提取文献信息的内容,与文档信息有一点的区别
PDDocumentInformation pdfInfo=doc.getDocumentInformation();
System.out.println(pdfInfo.getSubject()+" "+pdfInfo.getAuthor());我上面这段程序就正常读出了PDF的信息,而不是null
而是文件的相关内容,比如一篇论文,有标题、作者、摘要,从pdf文件内容进行这些信息的抽取
来踩一下呀,
http://bbs.oneedu.cn/bbs