我觉得应该多线程:
一部分线程解析页面中,把所含的超级链接存进数据库。
一部分线程,按数据库中的url下载网页。value存储的是页面的信息,即使访问过了,保存下来也是有益的。大量的网页转帖,仅用url是无法判断的。
一部分线程解析页面中,把所含的超级链接存进数据库。
一部分线程,按数据库中的url下载网页。value存储的是页面的信息,即使访问过了,保存下来也是有益的。大量的网页转帖,仅用url是无法判断的。
也不想想百度是多少人花多长时间做的,到现在还在有各种优化.
一看你说的话就是菜鸟,还从书里看到berkely db ,还用sql存储.
抓取的话要涉及dns缓存,底层的数据存储,分布式的调度, 网页的去重,
新网页的发现, 新网页的抓取策略, 页面内容的抽取,等等
自己做个玩玩还行.就别说大话丢人了.