怎么抓取网页内容并存入mysql数据库,例如将http://www.122cn.com/的事故快讯里的内容,包括标题和内容抓取出来并存入数据库

解决方案 »

  1.   

    获取网页HTML文档内容后,再用正则获取自己想要的文本内容
    不建意整个网页内容都存数据库,太大
      

  2.   

    说白了就是写爬虫,这方面的逻辑和原理,(不论是什么语言,道理是相通的)可以参考我的:
    详解抓取网站,模拟登陆,抓取动态网页的原理和实现(Python,C#等)然后再用java代码实现,比如我刚弄的:
    【教程】模拟登陆百度之Java代码版之后,如何提取数据,可以用正则和其他工具解析。
    类似的,其他语言的,供参考:
    如何抓取静态网页并提取特定内容剩下的,就是你自己写java代码,实现数据存储了。
      

  3.   

    你可以去看看nutch,你貌似你这个想法如果是单独某个还可以,要是爬虫,还是算了吧