怎么抓取别的网站上面的新闻,然后存储到数据库当中,,急急急急急急 本帖最后由 baorenkun 于 2013-05-28 16:43:20 编辑 解决方案 » 免费领取超大流量手机卡,每月29元包185G流量+100分钟通话, 中国电信官方发货 1.获取新闻html2.正则分析你要的内容3.入库4.继续执行1 获取页面数据,然后正则匹配,参考:http://blog.csdn.net/joyhen/article/details/8814001 我之前做过一个天涯脱水版的小工具httprequest 抓取response 然后解析返回的内容 存储 http://www.cnblogs.com/ceachy/articles/CSharp_Retrive_Page_Document.html 根据路径抓取网页html,然后正则匹配需要的内容保存到数据库即可 直接模拟一个get请求,先观察对方新闻的url路径特点,然后随机生成地址,也可以找到对方新闻列表地址,然后分析标题的特点,比如他的标题是 <span class="newTitle">XXXX新闻标题</span>,这样你先get这个新闻列表页面,就得到了所有新闻标题和新闻正文的链接地址,同样的道理去get新闻正文地址,分析出新闻的正文,比如正文在 <div class="newContent"></div>里面,那就正则匹配出这些就可以了 webbrowser + DOM 解析 +正则 http://download.csdn.net/detail/qq289523052/4528063 http://download.csdn.net/detail/qq289523052/4528063 fck字体大小设置不了 web应用程序结合windowservice开发 asp关于页面跳回顶端的问题 textbox的一个简单问题 在线等~~ 无刷新问题?怎么改都是无效 接着问刚刚的引用 gridview中buttonfield的应用 大家看看这个效果怎么做的 GridView动态添加序号……重置后序号列显示为空!! 小小问题:下边的代码我真的不知道如何转换!请各位帮帮忙...(在线等待,及时结帖) 调用dsoframer.ocx出错 介绍一个 C# 实现的 大附件上传网络硬盘,支持断点续传
2.正则分析你要的内容
3.入库
4.继续执行1
httprequest 抓取response 然后解析返回的内容 存储