如何正确抓取新闻正文的内容!(提供好思路有分) 最近在研究一个C#抓取新闻的系统,主要是抓取的网站不固定,没有想到统一的抓取新闻正文的方式,请大家帮帮忙啊。!另外如何判定一也是新闻还是其他的连接?提供好的思路都可以给分。 解决方案 » 免费领取超大流量手机卡,每月29元包185G流量+100分钟通话, 中国电信官方发货 可以参考一下sina,sohu等他们的新闻链接都迹可遁,新浪的就是所有的http://news.sina.com.cn/...抓到后下载相应的新闻就好了。对了,今天刚帮一网友写了一个可以抓取任何形式超链接的正则,可以取得链接和标题,楼主要不? 是这样的,我做个抓取人家的天气预报。用XMLHTTP去请求一个页面,服务器会返回一个文本,你去分解这个文本,找出你需要的东西。格式相同的页面的话,文本里的html格式也就是固定的,这样很容易就分解出你要的信息,如果页面不固定,其返回的html文本的格式也不固定,那你的程序怎么写呢? 个人愚见相当于处理一个字符串,关键看格式,你怎么提取(你可以用正则,可以用程序等等都可以)这只是个例子,是asp的,但思路就是这个思路了http://www.cnblogs.com/hover/archive/2004/10/09/36212.aspx weisunding(鼎鼎) (发上来看看,或则发到 string p = @"<a\s+[^>]*href\s*=\s*(?:""(?<url>[^""]*)""|'(?<url>[^']*)'|(?<url>[^>^\s]+))[^/]*>(?<title>[^<>]*)<[/]?";返回两个组 url 和 title 请诸位高手求解?一道面试题。 一个关于AEF用法的问题 C#程序用什么软件调试 [C#]winform中如何实现“浏览”按钮 在 VS 2005 的数据设计器里,如何添加一个这样的查询? vs2005里的Team Architect怎么用? winform 的调用问题,大家来帮帮我 谁有全面点的API的资料啊,包括其中函数的参数说明和函数用途 为什么总是显示:未将对象引用设置到对象的实例 所有的人都进来看一下! 请问如何从一张图像中截取一个矩形图像并显示在picturebox里? 播放器
他们的新闻链接都迹可遁,新浪的就是所有的http://news.sina.com.cn/...
抓到后下载相应的新闻就好了。对了,今天刚帮一网友写了一个可以抓取任何形式超链接的正则,可以取得链接和标题,楼主要不?
用XMLHTTP去请求一个页面,服务器会返回一个文本,你去分解这个文本,找出你需要的东西。格式相同的页面的话,文本里的html格式也就是固定的,这样很容易就分解出你要的信息,如果页面不固定,其返回的html文本的格式也不固定,那你的程序怎么写呢?
相当于处理一个字符串,关键看格式,你怎么提取(你可以用正则,可以用程序等等都可以)
这只是个例子,是asp的,但思路就是这个思路了
http://www.cnblogs.com/hover/archive/2004/10/09/36212.aspx