如何用java实现web的数据挖掘,请大家进来给点意见。 现在我做一个网站,想从其他网站上获取一些信息。但是我以前没做过这方面的东西。现在需要,但是不知道从何下手,请做过web数据挖掘的朋友给我提点意见,一些参考书籍之类的。或者有做过的留下你们的QQ,给点源码之类的。谢谢了,我会很感激大家的。急用啊。只要能重一个网站上拿到想要的书籍的实例就行。谢谢。 解决方案 » 免费领取超大流量手机卡,每月29元包185G流量+100分钟通话, 中国电信官方发货 在我的空间里面有一个tbs新闻下载工具。当时我学日语时,每天去 news.tbs.co.jp 看新闻,所以就写了这么个工具,希望对你有些启发。该工具的功能是:1,下载news.tbs.co.jp主页。2,分析改主页,把各个新闻链接加到list里面,同时和下载过的新闻的id进行比较。下载过的id存放在文件里面,下载不会重复下载。3,进入各个新闻链接,分析网页,取出链接,把rstp协议转成http,再下载rm文件,存放在本地(按日期分目录)。要满足我个人需要,上面的功能就够了。不足的地方:1,10线程固定,没有容错,如果出错,没有retry功能。2,html的parse没有用jarkata的包,就是简单的String检索(用不用正则表达式,我忘记了)。你如果只是想从固定的网站上,下载一点书籍,应该稍微改动一下就可以用了。 求THINKING IN JAVA 4 正则表达获取网页特定标签内容 请教字符串截断问题 crimson 在JRE1.5 中被移除了吗? 请问为什么? 我需要一个脚本....在线等.. JSP中数据库问题 关于java.util包中的Date类或Calendar类 告诉大家一个学习资料下载的地方 如何遍历jtree的所有节点????????——在线等! 三角形问题 谁能帮我运行出来? 字符串转换不出现异常
当时我学日语时,每天去 news.tbs.co.jp 看新闻,所以就写了这么个工具,希望对你有些启发。
该工具的功能是:
1,下载news.tbs.co.jp主页。
2,分析改主页,把各个新闻链接加到list里面,同时和下载过的新闻的id进行比较。下载过的id存放在文件里面,下载不会重复下载。
3,进入各个新闻链接,分析网页,取出链接,把rstp协议转成http,再下载rm文件,存放在本地(按日期分目录)。
要满足我个人需要,上面的功能就够了。不足的地方:
1,10线程固定,没有容错,如果出错,没有retry功能。
2,html的parse没有用jarkata的包,就是简单的String检索(用不用正则表达式,我忘记了)。你如果只是想从固定的网站上,下载一点书籍,应该稍微改动一下就可以用了。