如何用java实现web的数据挖掘，请大家进来给点意见。 - 调试易

如何用java实现web的数据挖掘，请大家进来给点意见。

现在我做一个网站，想从其他网站上获取一些信息。但是我以前没做过这方面的东西。现在需要，但是不知道从何下手，请做过web数据挖掘的朋友给我提点意见，一些参考书籍之类的。或者有做过的留下你们的QQ，给点源码之类的。谢谢了，我会很感激大家的。急用啊。只要能重一个网站上拿到想要的书籍的实例就行。谢谢。

解决方案 »

免费领取超大流量手机卡，每月29元包185G流量+100分钟通话, 中国电信官方发货

在我的空间里面有一个tbs新闻下载工具。
当时我学日语时，每天去 news.tbs.co.jp 看新闻，所以就写了这么个工具，希望对你有些启发。
该工具的功能是：
1，下载news.tbs.co.jp主页。
2，分析改主页，把各个新闻链接加到list里面，同时和下载过的新闻的id进行比较。下载过的id存放在文件里面，下载不会重复下载。
3，进入各个新闻链接，分析网页，取出链接，把rstp协议转成http，再下载rm文件，存放在本地（按日期分目录）。
要满足我个人需要，上面的功能就够了。不足的地方：
1，10线程固定，没有容错，如果出错，没有retry功能。
2，html的parse没有用jarkata的包，就是简单的String检索（用不用正则表达式，我忘记了）。你如果只是想从固定的网站上，下载一点书籍，应该稍微改动一下就可以用了。