小弟在学习并自己开发搜索引擎, 现在做到了倒叙排列,网络爬虫。 但是在查询的时候如何根据 查询语句 找出相关文档呢? 在网上找了下, 有个叫 向量空间模型的,,但是解释不是很清楚。 权重如何赋值? 如何找到文档中的关键词?是根据词语出现的频率还是其他的? (明显“了”“的”这样的词出现频率会很多,但是不可能是关键词啊)请各位达人指点下。。

解决方案 »

  1.   

    就像lucene那样。有好多文档, d1, d2, d3.......d10000 词语 w1在d1中出现的次数很多,而在其他文9999个档中出现的的次数很少, 那么w1 就可以说是文档d1的关键词,反之w1 在任何文档中出现的次数都很多那就说明他不是关键词,,,,但是这个多少有没有一个定义?多少是多多少是少呢? 
      

  2.   

    如何查看两个string 的相似度啊?
      

  3.   

    问题解决了。。有关知识请自学vsm