小弟最近写一个爬虫,挖掘web图中网页/网站的一些信息。对于一个网页(可以用一个url表示),需要记录它的出度,入度,有哪些url是指向它的,它指向那些url。在有限的时间内,基本是不可能爬完所有的网页的。但这个数据量还是很大。比如我抓了500W个url(去重后的),那么边最少也得有5000W条吧?
边需要保存源url,目标url。
这些信息写入后,在之后的查询中可能这样用到:查询某个url指向那些url。没怎么搞过项目,对于各种数据库不是很清楚。应该怎么样才能满足要求?在一本书上看到推荐用berkery DB实现爬虫,不过不知道效率怎么样。mySQL呢?
解决方案 »
- 求精典简历模板一份
- 如何比较多条日期记录值是否相等?
- 我在Tomcat6下运行struts2.0.6死活不成??
- 关于非数据库字段的查询问题
- 请教,在eclipse里开发j2ee的简单基本过程。
- log4j用DailyRollingFileAppender出现的诡异的问题
- 有没有这样一种Java参考资料?
- 如何在Tomcat4.1.27中使用Struts1.1开发时配置Ant?我这边老报错。在线。。。
- 紧急求救:EJB-QL支持嵌套吗?嵌套的SQL用EJB-QL怎么写呢,请大虾指点一二
- 求蔡世友老师的extjs视频代码!加连接mysql的代码
- SWT不规则透明图片显示问题!!急急急!!!!
- spring security 无法获取当前用户
这样的关系如果要存进数据库,哪个数据库都可以, 这个问题不是选什么数据库,只是数据库表如何设计的问题。
这样关系就是多对1对多的关系。
一般两个表就可以了。
一个表存多对1,另一个表存1对多。这么说不知道能听明白不?楼主可以看看书,一般书都有像图书馆管理程序这样的例子,里面会有数据库表的设计。