采集防重复有什么好的思路?
有人说根据标题来判断,如果存在就不采集了。
但个人感觉这样会不会效率不高呢,把标题计算成md5值保存到数据表,下次采集列表时,把标题也换算成md5值,到数据表中查找,是不是会好点? 

解决方案 »

  1.   

    那就看你采集什么东西了,url?内容?标题?不一定的
      

  2.   


    url不一样的文章,也可能内容一样
      

  3.   

    这个确实有难度但是你看谁家大网站文章有那么多重复的呢个人觉得还是url比较好采集的
      

  4.   

    把采集的内容放入数组,然后清理数组内值相同的项目
    http://www.w3school.com.cn/php/php_ref_array.asp
    这些函数你可能会用得到
      

  5.   

    url md5 存数据库  且记录页面最后的修改时间 这个从 header 头可以得到系统每采集一次 记录该链接的最后采集时间.访问的时候 先获取header  如果连接存在且最后生成时间小于等于上次采集时间 就忽略 其他的都要采集入库 并选择做更新还是做插入一个表 采集表是要的.