项目中用到 lucene 索引,
要求把pdf中的词语 句子拿出来 存到数据库中
使用过lucene 的朋友给点思路吧,最好有个demo什么的,谢谢了。

解决方案 »

  1.   

    http://www.blogjava.net/dreamstone/archive/2007/06/14/124286.html
      

  2.   


    使用pdfbox是个好方法,我用过了挺好的,
    现在我需要的思路是,如何把一个文本中的句子和单词取出来持久化到数据库中,
    文档中内容就像课文似的,有单词、单词解释,句子、句子解释、语法等等。。
      

  3.   

    我不懂了,这不就是lucene干的事情吗?你是想把lucene的索引文件保存到数据库中?
      

  4.   


    其实我也不太明白,我是刚看lucene,我理解这个东西就是跟书本索引一样,有了索引查东西就快,
    不知道我理解的对不?
    还有分词起到什么作用。现在的项目需求是把pdf中的东西拿出来存到数据库中。
    还有个功能就是查词典,词库是一个pdf文件。