本帖最后由 baorenkun 于 2013-05-28 16:43:20 编辑

解决方案 »

  1.   

    1.获取新闻html
    2.正则分析你要的内容
    3.入库
    4.继续执行1
      

  2.   

    获取页面数据,然后正则匹配,参考:http://blog.csdn.net/joyhen/article/details/8814001
      

  3.   

    我之前做过一个天涯脱水版的小工具
    httprequest 抓取response 然后解析返回的内容 存储
      

  4.   

    http://www.cnblogs.com/ceachy/articles/CSharp_Retrive_Page_Document.html
      

  5.   

    根据路径抓取网页html,然后正则匹配需要的内容保存到数据库即可
      

  6.   

    直接模拟一个get请求,先观察对方新闻的url路径特点,然后随机生成地址,也可以找到对方新闻列表地址,然后分析标题的特点,比如他的标题是  <span class="newTitle">XXXX新闻标题</span>,这样你先get这个新闻列表页面,就得到了所有新闻标题和新闻正文的链接地址,同样的道理去get新闻正文地址,分析出新闻的正文,比如正文在 <div class="newContent"></div>里面,那就正则匹配出这些就可以了
      

  7.   

    webbrowser + DOM 解析 +正则
      

  8.   

    http://download.csdn.net/detail/qq289523052/4528063
      

  9.   

    http://download.csdn.net/detail/qq289523052/4528063