采集防重复有什么好的思路? 采集防重复有什么好的思路?有人说根据标题来判断,如果存在就不采集了。但个人感觉这样会不会效率不高呢,把标题计算成md5值保存到数据表,下次采集列表时,把标题也换算成md5值,到数据表中查找,是不是会好点? 解决方案 » 免费领取超大流量手机卡,每月29元包185G流量+100分钟通话, 中国电信官方发货 那就看你采集什么东西了,url?内容?标题?不一定的 url不一样的文章,也可能内容一样 这个确实有难度但是你看谁家大网站文章有那么多重复的呢个人觉得还是url比较好采集的 把采集的内容放入数组,然后清理数组内值相同的项目http://www.w3school.com.cn/php/php_ref_array.asp这些函数你可能会用得到 url md5 存数据库 且记录页面最后的修改时间 这个从 header 头可以得到系统每采集一次 记录该链接的最后采集时间.访问的时候 先获取header 如果连接存在且最后生成时间小于等于上次采集时间 就忽略 其他的都要采集入库 并选择做更新还是做插入一个表 采集表是要的. 正则替换link标签问题 php表单传递的问题 php正则表达式问题 正则 相关!有没有难度??! 求高手相助!!! 新手求救!都N天了,再发一贴。上传问题 在linux环境下 webroot目录下生成txt 在线等,正则问题:为什么匹配到了换行符 表单值联动的问题,请高手指点. 请教高手 如何访问数据库/// 为什么我的XML 有这个错误! 文件上传 规定JPG格式 上传时提示 格式不对呀.
url不一样的文章,也可能内容一样
http://www.w3school.com.cn/php/php_ref_array.asp
这些函数你可能会用得到