现在有一个新词的txt,针对这些新词,怎么更新以前的Document对象?
我想的是 一个一个的读取新词 ,在不加入词典的情况下,查出该词匹配的所有的Document,
然后将词加入词典,因为每一个Document都有一个一个唯一标识, 我获取到这个唯一标识,然后把词加入词典;
更新回去就可以了,就是在 在新的词典的分词下更新索引。
但是问题是每加入一个新词,就需要重新读取词典,1000个词,就要加载1000次;我用的一个叫mmseg4j的词典,加载一次内存都溢出,更别提N次了。并且每个词匹配出来的Document的数目还是不确定的,如果过多,还要分页查,先查一次,获取匹配的totalHits,然后在根据这个数字 获取分页信息,重新匹配。
我说的明白吗?反正我的办法不行?
我查了一下,很多人都是 全部删除,然后重建的方法。除此以外有没有其他的方法?我的是不行啊。
请问各位有什么好办法吗?多谢啊