大家帮我看看,有什么问题帮小弟说说。我现在在看倒排索引。我想把索引文件分为多个。文件内部组织形式:
(word)((文章id)(所在文件夹)(word在文章的具体位置,即单词在文章中的位置))
注:后者是一个数组,有多少文档包含该word,数组就是这个大小
后面的做成一个类,将上面的内容放在TreeMap中,应用treemap的自动排序功能。
对于同一个word,如果有很多文件都包含这个word的时候,就用Vector存放
(word)((文章id)(所在文件夹)(word在文章的具体位置,即单词在文章中的位置))注:后面的是数组
(word)((文章id)(所在文件夹)(word在文章的具体位置,即单词在文章中的位置))注:后面的是数组
其他word
如果考虑优化的话,可以像lucene一样,存放word的时候用lucene的优化方法。
(word)((文章id)(所在文件夹)(word在文章的具体位置,即单词在文章中的位置))
注:后者是一个数组,有多少文档包含该word,数组就是这个大小
后面的做成一个类,将上面的内容放在TreeMap中,应用treemap的自动排序功能。
对于同一个word,如果有很多文件都包含这个word的时候,就用Vector存放
(word)((文章id)(所在文件夹)(word在文章的具体位置,即单词在文章中的位置))注:后面的是数组
(word)((文章id)(所在文件夹)(word在文章的具体位置,即单词在文章中的位置))注:后面的是数组
其他word
如果考虑优化的话,可以像lucene一样,存放word的时候用lucene的优化方法。
你单纯的这么说我是没看到你要这么排的意思
word 关键字?