怎么抓取别的网站上面的新闻，然后存储到数据库当中，，急急急急急急

本帖最后由 baorenkun 于 2013-05-28 16:43:20 编辑

1.获取新闻html
2.正则分析你要的内容
3.入库
4.继续执行1
获取页面数据，然后正则匹配，参考：http://blog.csdn.net/joyhen/article/details/8814001
我之前做过一个天涯脱水版的小工具
httprequest 抓取response 然后解析返回的内容存储
http://www.cnblogs.com/ceachy/articles/CSharp_Retrive_Page_Document.html
根据路径抓取网页html，然后正则匹配需要的内容保存到数据库即可
直接模拟一个get请求，先观察对方新闻的url路径特点，然后随机生成地址，也可以找到对方新闻列表地址，然后分析标题的特点，比如他的标题是  <span class="newTitle">XXXX新闻标题</span>，这样你先get这个新闻列表页面，就得到了所有新闻标题和新闻正文的链接地址，同样的道理去get新闻正文地址，分析出新闻的正文，比如正文在 <div class="newContent"></div>里面，那就正则匹配出这些就可以了
webbrowser + DOM 解析 +正则
http://download.csdn.net/detail/qq289523052/4528063
http://download.csdn.net/detail/qq289523052/4528063