关于网络爬虫-------进来看看阿

小弟想开发一个网络爬虫，要求能及时获取网站上更新的网页，并且支持下载含有特定关键字的网页，还有要效率高、稳定性好
请问各位，用什么语言好？？用什么开发工具好？？
关于原理、设计、流程图以及其他的想法都可以交流

java，perl都是不错的选择啊。
开发工具无所谓。这玩意挺麻烦，原先给一个公司做过一个demo，
主要是需要分析网页里面的链接，然后一层一层抓下去，
还需要消除重复等等，麻烦死了。
举个例子：很多网站的网页都包含一个首页index.html
你可能在a.html里面搜索到一个index
同时在b.html里面也有一个index
这个时候，你就要考虑，不能抓重复了。
这个一般可以通过url来考虑，相通url的就不抓取。
另一方面，不同url也可能是相同内容如http://www.xxx.com/index.html
这个网站对应的ip是111.111.111.111
那么http://111.111.111.111/index.html和上面那个index就是相同的，这个时候如果你需要做到最好，
也不能抓取重复了
还是很难。尤其是网页之间的层层递归。
比如
<a href='query?...'/>
这种，链接到网页/图片/文件都有可能，需要判断。当然要考虑效率问题，我当时做出来也非常慢，
但是因为只是一个demo，就无所谓了。
线程数在5个左右的时候，
在很破的pc下（xp1600+,512M,加上1M的网速，实际上没有1M），一秒种只能抓10个左右的网页。