小弟最近写一个爬虫,挖掘web图中网页/网站的一些信息。对于一个网页(可以用一个url表示),需要记录它的出度,入度,有哪些url是指向它的,它指向那些url。在有限的时间内,基本是不可能爬完所有的网页的。但这个数据量还是很大。比如我抓了500W个url(去重后的),那么边最少也得有5000W条吧?
边需要保存源url,目标url。
这些信息写入后,在之后的查询中可能这样用到:查询某个url指向那些url。没怎么搞过项目,对于各种数据库不是很清楚。应该怎么样才能满足要求?在一本书上看到推荐用berkery DB实现爬虫,不过不知道效率怎么样。mySQL呢?