现在我做一个网站,想从其他网站上获取一些信息。但是我以前没做过这方面的东西。现在需要,但是不知道从何下手,请做过web数据挖掘的朋友给我提点意见,一些参考书籍之类的。或者有做过的留下你们的QQ,给点源码之类的。谢谢了,我会很感激大家的。急用啊。只要能重一个网站上拿到想要的书籍的实例就行。谢谢。
解决方案 »
- 怎样对一个二维的字符串数组的某一指定列排序?
- slf4j-1.5.2定期清理日志文件问题
- 200分给一人,JAVA关于SQL2000 exec sp_cursorfetch 180150002, 16, ****, 1的问题
- 关于Applet初始化的问题,init()方法写了,为什么还说没有初始化?
- 再问包与javac
- ***高分!——求教JAVA绘图小程序!***
- 如何判断由Java程式呼叫的外在程式已经结束。(急,希望高手们能够指点一二,万分感谢!顶者有分!)
- 怎么使用.ico文件呀?
- 初学java 用JBuilder7做Applet小程序的问题??
- 那位大虾有AWT的滚动条的代码,一百分求救。
- 谁能帮我运行出来?
- 字符串转换不出现异常
当时我学日语时,每天去 news.tbs.co.jp 看新闻,所以就写了这么个工具,希望对你有些启发。
该工具的功能是:
1,下载news.tbs.co.jp主页。
2,分析改主页,把各个新闻链接加到list里面,同时和下载过的新闻的id进行比较。下载过的id存放在文件里面,下载不会重复下载。
3,进入各个新闻链接,分析网页,取出链接,把rstp协议转成http,再下载rm文件,存放在本地(按日期分目录)。
要满足我个人需要,上面的功能就够了。不足的地方:
1,10线程固定,没有容错,如果出错,没有retry功能。
2,html的parse没有用jarkata的包,就是简单的String检索(用不用正则表达式,我忘记了)。你如果只是想从固定的网站上,下载一点书籍,应该稍微改动一下就可以用了。