我觉得应该多线程:
一部分线程解析页面中,把所含的超级链接存进数据库。
一部分线程,按数据库中的url下载网页。value存储的是页面的信息,即使访问过了,保存下来也是有益的。大量的网页转帖,仅用url是无法判断的。

解决方案 »

  1.   

    天冷了,说大话容易删了舌头.
    也不想想百度是多少人花多长时间做的,到现在还在有各种优化.
    一看你说的话就是菜鸟,还从书里看到berkely db ,还用sql存储.
    抓取的话要涉及dns缓存,底层的数据存储,分布式的调度, 网页的去重,
    新网页的发现, 新网页的抓取策略, 页面内容的抽取,等等 
    自己做个玩玩还行.就别说大话丢人了.
      

  2.   

    关系数据库对付小规模数据还行,数据量一大,访问量一大性能就不行了。楼主试下apache的压力测试ab看看。