蜘蛛程序怎么判断重复页面 - 调试易

蜘蛛程序怎么判断重复页面

像百度蜘蛛那样的程序，是怎么判断抓取了重复页面的呢？比如说一个登陆页面，可能有N个页面有这个链接，该怎么判断呢？一定要判断的话“登录”页面的链接，勉强还算可以写出个判断语句来的，但要是再复杂的链接，又该怎么判断呢？？麻烦高手指点下啊！！！

解决方案 »

免费领取超大流量手机卡，每月29元包185G流量+100分钟通话, 中国电信官方发货

网络爬虫对网页而言,重在采集内容
从一个网页入口，分析链接，一层一层的遍历，或者从一组网页入口，或者从一个rss源列表开始爬rss；
获取每个页面的源码保存在磁盘或者数据库里；
遍历抓下来的网页进行处理，比如提取正文，消重等；
根据用途把处理后的文本进行索引、分类、聚类等操作
http://kb.cnblogs.com/a/1236356/