小弟想开发一个网络爬虫,要求能及时获取网站上更新的网页,并且支持下载含有特定关键字的网页,还有要效率高、稳定性好
请问各位,用什么语言好??用什么开发工具好??
关于原理、设计、流程图以及其他的想法都可以交流

解决方案 »

  1.   

    java,perl都是不错的选择啊。
    开发工具无所谓。这玩意挺麻烦,原先给一个公司做过一个demo,
    主要是需要分析网页里面的链接,然后一层一层抓下去,
    还需要消除重复等等,麻烦死了。
      

  2.   

    举个例子:很多网站的网页都包含一个首页index.html
    你可能在a.html里面搜索到一个index
    同时在b.html里面也有一个index
    这个时候,你就要考虑,不能抓重复了。
    这个一般可以通过url来考虑,相通url的就不抓取。
      

  3.   

    另一方面,不同url也可能是相同内容如http://www.xxx.com/index.html
    这个网站对应的ip是111.111.111.111
    那么http://111.111.111.111/index.html和上面那个index就是相同的,这个时候如果你需要做到最好,
    也不能抓取重复了
      

  4.   

    还是很难。尤其是网页之间的层层递归。
    比如
    <a href='query?...'/>
    这种,链接到网页/图片/文件都有可能,需要判断。当然要考虑效率问题,我当时做出来也非常慢,
    但是因为只是一个demo,就无所谓了。
    线程数在5个左右的时候,
    在很破的pc下(xp1600+,512M,加上1M的网速,实际上没有1M),一秒种只能抓10个左右的网页。