请教:php新闻文章采集如何防止重复? http://tech.163.com/special/000915I8/importantMore.html例如你对这个页面的新闻进行采集,但是他会经常的更新,比如,这次的100条,到了下次就是105条了.?我只要采集更新的这5条??? 解决方案 » 免费领取超大流量手机卡,每月29元包185G流量+100分钟通话, 中国电信官方发货 然后再拿更新的记录来和这条标记的记录进行比较??????有点迷糊,能不能留个q或者msn请教一下. 我是把所有采集过的地址保存,然后新采集过程中将URL进行比对,没有的话才采集 pagecity的方法可行,不过数据多了之后可能会稍慢。建议将采集过的地址hash后保存,这样被查询内容是定长,而且长度也不会很长,索引效果会好很多。 如果数据源只有一个站,那么 只需要以数据源站的唯一ID做 hash.如果有多个数据源. 则要对文章特征部分进行分词. 再采用算法,进行文章相似度比较.. 达到一定相似度时,认为是两则相同的新闻.. 1.根据新闻标题判断是否重复。2.在表里保存08/0219/05/451RVN7F000915BE 判断08/0219/05/451RVN7F000915BE是否采集过。 我是根据新闻标题判断是否重复的,不过这样如同zhys9 说的,在数据多了之后就慢下来.感谢大家提供的思路,呵呵,我再试试. 如何用curl获取超长url?? php调用C或C++ 动态链接库(dll)问题 请问如何设置php的限制访问 询问:掌握PHP是不是也要学会HTML? 新手PHP画图 imagecreateformjpeg和imagecreate区别是啥? PHP支持ado异步么? mai()函数的奇怪问题不知道大家碰到过没有 怎样随机生成一个汉子? PHPURL编码问题 实现当用户刷新本页面时跳转到xxx.php页面的代码,有点问题,请指教... 菜鸟问题 php获取动态变量 使用php webmail链接gmail的问题...
建议将采集过的地址hash后保存,这样被查询内容是定长,而且长度也不会很长,索引效果会好很多。
2.在表里保存08/0219/05/451RVN7F000915BE 判断08/0219/05/451RVN7F000915BE是否采集过。
感谢大家提供的思路,呵呵,我再试试.