请问下高手们如何过滤一篇新闻网页上的新闻信息 答得好可以给200分 唯一的共性就是HTML,若要找共性很难到,新闻抓取器多多少少都有针对性的,否则只能找出一堆垃圾。每个网站独立做一个类似“病毒库”的特征包就行 解决方案 » 免费领取超大流量手机卡,每月29元包185G流量+100分钟通话, 中国电信官方发货 我记得新浪的新闻页面上插广告那一段前后都有它服务器程序加的一段html注释。不知道其它的大站上有没有!楼上的说的特征包是有道理的。我在PHP上实现过偷新闻。而且是纯文本的程序,不过仅限新浪。 参考string url="http://www.sina.com.cn/news/200312120001.htm"WebRequest req=WebRequest.Create(url); //构造一个WEB请求HttpWebResponse hreq=(HttpWebResponse)req.GetResponse(); //构造一个WEB响应string html="";Stream s=hreq.GetResponseStream(); //获取WEB响应的数据StreamStreamReader reader=new StreamReader(s,System.Text.Encoding.GetEncoding("GB2312")); //对数据流作编码转换//string sline="";html=reader.ReadToEnd();txtResult.Text=html;以上代码获得HTML文本后在分析其格式,当然最好用正则表达式来分析!如果要做多个网站的通用分析,你可以为不同的网站做不同的规则,这样就可以了! 告诉新浪给你做一个WebService. 如何在自定义的类里面操作控件 自定义控件如何在设计时成为控件的容器? C#2005的DataGridView问题 如何復制DataGridView控件單元格中的數據 ADO.net数据集中中,如何统计一个表中元素的个数,或最后一个元素怎么得到 readonly和ref一起使用的问题 高分求助: 创建视图 向大家请教一个关于进程限制的方法 Xml内容提的格式化问题 c#的窗体控件为啥还没有vba的方便呢? |||||||||| 我是人吗?|||||||||||||||| 哪里有InstallShield DevStudio v9 下载?
WebRequest req=WebRequest.Create(url); //构造一个WEB请求
HttpWebResponse hreq=(HttpWebResponse)req.GetResponse(); //构造一个WEB响应
string html="";
Stream s=hreq.GetResponseStream(); //获取WEB响应的数据Stream
StreamReader reader=new StreamReader(s,System.Text.Encoding.GetEncoding("GB2312")); //对数据流作编码转换//string sline="";html=reader.ReadToEnd();
txtResult.Text=html;以上代码获得HTML文本后在分析其格式,当然最好用正则表达式来分析!
如果要做多个网站的通用分析,你可以为不同的网站做不同的规则,这样就可以了!