现在我做一个网站,想从其他网站上获取一些信息。但是我以前没做过这方面的东西。现在需要,但是不知道从何下手,请做过web数据挖掘的朋友给我提点意见,一些参考书籍之类的。或者有做过的留下你们的QQ,给点源码之类的。谢谢了,我会很感激大家的。急用啊。只要能重一个网站上拿到想要的书籍的实例就行。谢谢。

解决方案 »

  1.   

    在我的空间里面有一个tbs新闻下载工具。
    当时我学日语时,每天去 news.tbs.co.jp 看新闻,所以就写了这么个工具,希望对你有些启发。
    该工具的功能是:
    1,下载news.tbs.co.jp主页。
    2,分析改主页,把各个新闻链接加到list里面,同时和下载过的新闻的id进行比较。下载过的id存放在文件里面,下载不会重复下载。
    3,进入各个新闻链接,分析网页,取出链接,把rstp协议转成http,再下载rm文件,存放在本地(按日期分目录)。
    要满足我个人需要,上面的功能就够了。不足的地方:
    1,10线程固定,没有容错,如果出错,没有retry功能。
    2,html的parse没有用jarkata的包,就是简单的String检索(用不用正则表达式,我忘记了)。你如果只是想从固定的网站上,下载一点书籍,应该稍微改动一下就可以用了。