关于网络爬虫-------进来看看阿 小弟想开发一个网络爬虫,要求能及时获取网站上更新的网页,并且支持下载含有特定关键字的网页,还有要效率高、稳定性好请问各位,用什么语言好??用什么开发工具好??关于原理、设计、流程图以及其他的想法都可以交流 解决方案 » 免费领取超大流量手机卡,每月29元包185G流量+100分钟通话, 中国电信官方发货 java,perl都是不错的选择啊。开发工具无所谓。这玩意挺麻烦,原先给一个公司做过一个demo,主要是需要分析网页里面的链接,然后一层一层抓下去,还需要消除重复等等,麻烦死了。 举个例子:很多网站的网页都包含一个首页index.html你可能在a.html里面搜索到一个index同时在b.html里面也有一个index这个时候,你就要考虑,不能抓重复了。这个一般可以通过url来考虑,相通url的就不抓取。 另一方面,不同url也可能是相同内容如http://www.xxx.com/index.html这个网站对应的ip是111.111.111.111那么http://111.111.111.111/index.html和上面那个index就是相同的,这个时候如果你需要做到最好,也不能抓取重复了 还是很难。尤其是网页之间的层层递归。比如<a href='query?...'/>这种,链接到网页/图片/文件都有可能,需要判断。当然要考虑效率问题,我当时做出来也非常慢,但是因为只是一个demo,就无所谓了。线程数在5个左右的时候,在很破的pc下(xp1600+,512M,加上1M的网速,实际上没有1M),一秒种只能抓10个左右的网页。 面试求助,高手请进 java文本编辑器 初学JAVA 有道题目请教 JAVA串行化问题~~~ 对象保存在文件中怎么删除这个对象(请看代码) Java如何同步两个异地同构数据库中的部分表的数据 哪里能有 MMSLibrary.zip 下载啊 Applet的问题(Socket相关),高手帮忙 我在eclipse下输入中文注释,为什么都变成了乱码“方块”? 求jdk nio包的资料 主题:写BLOB字段出现问题,解决不了 请教一个Jbuilder的问题!!!! java调用存储过程CallableStatement问题
开发工具无所谓。这玩意挺麻烦,原先给一个公司做过一个demo,
主要是需要分析网页里面的链接,然后一层一层抓下去,
还需要消除重复等等,麻烦死了。
你可能在a.html里面搜索到一个index
同时在b.html里面也有一个index
这个时候,你就要考虑,不能抓重复了。
这个一般可以通过url来考虑,相通url的就不抓取。
这个网站对应的ip是111.111.111.111
那么http://111.111.111.111/index.html和上面那个index就是相同的,这个时候如果你需要做到最好,
也不能抓取重复了
比如
<a href='query?...'/>
这种,链接到网页/图片/文件都有可能,需要判断。当然要考虑效率问题,我当时做出来也非常慢,
但是因为只是一个demo,就无所谓了。
线程数在5个左右的时候,
在很破的pc下(xp1600+,512M,加上1M的网速,实际上没有1M),一秒种只能抓10个左右的网页。