正独自做一个爬虫软件，想做的和百度一样强大。 - 调试易

正独自做一个爬虫软件，想做的和百度一样强大。

我觉得应该多线程：
一部分线程解析页面中，把所含的超级链接存进数据库。
一部分线程，按数据库中的url下载网页。value存储的是页面的信息，即使访问过了，保存下来也是有益的。大量的网页转帖，仅用url是无法判断的。

解决方案 »

免费领取超大流量手机卡，每月29元包185G流量+100分钟通话, 中国电信官方发货

天冷了,说大话容易删了舌头.
也不想想百度是多少人花多长时间做的,到现在还在有各种优化.
一看你说的话就是菜鸟,还从书里看到berkely db ,还用sql存储.
抓取的话要涉及dns缓存,底层的数据存储,分布式的调度, 网页的去重,
新网页的发现, 新网页的抓取策略, 页面内容的抽取,等等
自己做个玩玩还行.就别说大话丢人了.
关系数据库对付小规模数据还行，数据量一大，访问量一大性能就不行了。楼主试下apache的压力测试ab看看。