我想在学校内部做一个爬虫专门爬校园网,但是问题是爬虫老是会爬出校园网的范围,爬到外网去了。网络情况:运行爬虫的电脑是一台使用校园网的 电脑,可以访问所有校内资源和所有外网资源。爬虫的目标是所有校园网内部的网页。这些网页有的是一级域名,而且一级域名还有很多,有的是二级域名,有的是二级域名下面的许多子目录的子目录,更多的仅仅是是一个ip。使用工具:使用的是 Snoopy php。问题:有什么办法只抓取校内网页,不会跑到外网上。
调试欢乐多
每个地址分离出域名,解析出ip来比对