大家帮我看看,有什么问题帮小弟说说。我现在在看倒排索引。我想把索引文件分为多个。文件内部组织形式:
(word)((文章id)(所在文件夹)(word在文章的具体位置,即单词在文章中的位置))
                                                                          注:后者是一个数组,有多少文档包含该word,数组就是这个大小
后面的做成一个类,将上面的内容放在TreeMap中,应用treemap的自动排序功能。
对于同一个word,如果有很多文件都包含这个word的时候,就用Vector存放
(word)((文章id)(所在文件夹)(word在文章的具体位置,即单词在文章中的位置))注:后面的是数组
(word)((文章id)(所在文件夹)(word在文章的具体位置,即单词在文章中的位置))注:后面的是数组

其他word
如果考虑优化的话,可以像lucene一样,存放word的时候用lucene的优化方法。

解决方案 »

  1.   

    你能把你具体要做什么说说
    你单纯的这么说我是没看到你要这么排的意思
    word 关键字?
      

  2.   

    你这样做性能太低了,浪费太多,我没有研究过LUCEENE的机制,但是这样只是达到了功能,性能上……不过练手的话建议先做出来,在面向对象的今天,以后要换种实现方式很简单。
      

  3.   

    word是关键字。我是想用这些结构作为索引文件的。我这是要作为毕业设计的。你看这样的缺点是什么呢,能提一些建议么,谢啦。