java抓取网页程序的问题

最近需要对一个抓网页程序调优, 原本的程序是分布式的, 运行在hadoop上, 每天需要抓取的网页数量在1000万左右, 结果保存在mongodb中, hadoop集群中5台机器用于运行抓网页程序. 但是每天的网页都不能抓完, 程序运行比较慢, 平均计算, 每天大概抓取不到100万个页面.抓网页程序是利用apache的HttpClient包实现的, 没有设置连接超时, 我自己用URL类和HttpURLConnection类写了一个, 设置连接超时时间为1秒, 测试发现抓取网页的速度约为0.7秒每个页面, 不知道速度能不能再快点.另外测试过网页抓取后保存到mongodb中的性能问题, 发现保存到mongodb中比保存到文件中速度还快一点(可能是我写的保存到文件程序效率太低了).从网上看到了一些开源的爬虫程序, 不知道哪个比较快, 能不能做到一台机器0.1秒抓取一个网页呢?请有经验的给点建议, 谢谢.

解决方案 »

免费领取超大流量手机卡，每月29元包185G流量+100分钟通话, 中国电信官方发货

程序运行环境为10M带宽, 运维组同事说足够抓网页使用, 目前还是觉得程序可以再优化一些发现建立连接挺费时间, 不知道怎么做到对相同domain下的页面, 只建立一次连接?
我写的是多线程的, 设置了connect time out, 发现分别设置为1秒和300毫秒, 抓取1000个网页的总时间相差不太多.
这里有篇php的小偷本地化程序http://blog.csdn.net/y244360439/article/details/8098043