最近需要对一个抓网页程序调优, 原本的程序是分布式的, 运行在hadoop上, 每天需要抓取的网页数量在1000万左右, 结果保存在mongodb中, hadoop集群中5台机器用于运行抓网页程序. 但是每天的网页都不能抓完, 程序运行比较慢, 平均计算, 每天大概抓取不到100万个页面.抓网页程序是利用apache的HttpClient包实现的, 没有设置连接超时, 我自己用URL类和HttpURLConnection类写了一个, 设置连接超时时间为1秒, 测试发现抓取网页的速度约为0.7秒每个页面, 不知道速度能不能再快点.另外测试过网页抓取后保存到mongodb中的性能问题, 发现保存到mongodb中比保存到文件中速度还快一点(可能是我写的保存到文件程序效率太低了).从网上看到了一些开源的爬虫程序, 不知道哪个比较快, 能不能做到一台机器0.1秒抓取一个网页呢?请有经验的给点建议, 谢谢.