我想在学校内部做一个爬虫专门爬校园网,但是问题是爬虫老是会爬出校园网的范围,爬到外网去了。网络情况:运行爬虫的电脑是一台使用校园网的 电脑,可以访问所有校内资源和所有外网资源。爬虫的目标是所有校园网内部的网页。这些网页有的是一级域名,而且一级域名还有很多,有的是二级域名,有的是二级域名下面的许多子目录的子目录,更多的仅仅是是一个ip。使用工具:使用的是 Snoopy php。问题:有什么办法只抓取校内网页,不会跑到外网上。

解决方案 »

  1.   

    php做爬虫哦?最简单的办法是做个白名单,,,
    每个地址分离出域名,解析出ip来比对
      

  2.   

    将fetchlinks方法返回的URL中属外网的过滤掉.这种整站爬的工作需要考虑的东西很多,简单的需要注意的大概有:限制深度,防止死循环;去重,等等.跟做镜像站差不多.
      

  3.   

    php调用exec或者system执行ping IP,然后分析是否是校内的