http://tech.163.com/special/000915I8/importantMore.html
例如你对这个页面的新闻进行采集,但是他会经常的更新,比如,这次的100条,到了下次就是105条了.?我只要采集更新的这5条???

解决方案 »

  1.   

    然后再拿更新的记录来和这条标记的记录进行比较??????有点迷糊,能不能留个q或者msn请教一下.
      

  2.   

    我是把所有采集过的地址保存,然后新采集过程中将URL进行比对,没有的话才采集
      

  3.   

    pagecity的方法可行,不过数据多了之后可能会稍慢。
    建议将采集过的地址hash后保存,这样被查询内容是定长,而且长度也不会很长,索引效果会好很多。
      

  4.   

    如果数据源只有一个站,那么 只需要以数据源站的唯一ID做 hash.如果有多个数据源. 则要对文章特征部分进行分词. 再采用算法,进行文章相似度比较.. 达到一定相似度时,认为是两则相同的新闻..
      

  5.   

    1.根据新闻标题判断是否重复。
    2.在表里保存08/0219/05/451RVN7F000915BE 判断08/0219/05/451RVN7F000915BE是否采集过。
      

  6.   

    我是根据新闻标题判断是否重复的,不过这样如同zhys9 说的,在数据多了之后就慢下来.
    感谢大家提供的思路,呵呵,我再试试.