要建一个文献数据库,
因为文献数目太大了,
希望能实现自动提取文献标题、作者等索引信息入库,
下载了pdfbox,但不知如何取提取这些信息,
请高手们帮帮我!
慷慨送分!

解决方案 »

  1.   

    在org.pdfbox.pdmodel这个包中有一个叫PDDocumentInformation的类.通过它可以取得:
    getAuthor() :取得作者名称
    getCreationDate() :取得创建日期
    getCreator() :取得创建者
    getKeywords() :取得密码
    getTitle() :取得标题
    ...
      

  2.   

    也可以通过这样的方式来取得PDDocumentInformation...
    PDDocument doc=PDDocument.load("/res/hello.pdf");
    PDDocumentInformation pdfInfo=doc.getDocumentInformation();
      

  3.   

    我也用到上面的这些方法了,但是得到的东西基本上是null。
    得到的值跟右键点击pdf文档,得到的文档信息的内容是一样的,
    但是这些文档的信息一般都是null。
    我指的是要从pdf文档里面提取文献信息的内容,与文档信息有一点的区别
      

  4.   

    当用鼠标右击PDF文件并且选择属性时,在弹出的对话框中有一个选项卡叫PDF,在那里就记录了PDF的这些信息,可以通过pdfbox的API来操作的
      

  5.   

    注意不是我们通常所说的文件的那些基本信息哟!PDF的那些信息是属于PDF文件自身的,而不是普通文件的,PDF的这些信息也可以通过Acrobat软件来查看
      

  6.   

    PDDocument doc=PDDocument.load("./res/hello.pdf");
    PDDocumentInformation pdfInfo=doc.getDocumentInformation();
    System.out.println(pdfInfo.getSubject()+" "+pdfInfo.getAuthor());我上面这段程序就正常读出了PDF的信息,而不是null
      

  7.   

    我需要的不是右键点击pdf文件可以查看到的信息,
    而是文件的相关内容,比如一篇论文,有标题、作者、摘要,从pdf文件内容进行这些信息的抽取
      

  8.   

    我又去查了一下PDFBOX的API,我想可以通过PDPage or PDPageNode这两个类的对象来获取内容,不过前提是你的这些PDF文献要有比较严格的格式,不然会出问题,取出来的文本不是你想要的
      

  9.   

    我们用java来解决实际问题。java技术交流,讨论java的技术细节和最新技术。欢迎中高级程序员以及渴望学习java技术的初学者加入讨论。QQ群:3001581
      

  10.   

    这里能帮你解决你的问题!
    来踩一下呀, 
    http://bbs.oneedu.cn/bbs