唯一的共性就是HTML,若要找共性很难到,新闻抓取器多多少少都有针对性的,否则只能找出一堆垃圾。每个网站独立做一个类似“病毒库”的特征包就行

解决方案 »

  1.   

    我记得新浪的新闻页面上插广告那一段前后都有它服务器程序加的一段html注释。不知道其它的大站上有没有!楼上的说的特征包是有道理的。我在PHP上实现过偷新闻。而且是纯文本的程序,不过仅限新浪。
      

  2.   

    参考string url="http://www.sina.com.cn/news/200312120001.htm"
    WebRequest req=WebRequest.Create(url); //构造一个WEB请求
    HttpWebResponse hreq=(HttpWebResponse)req.GetResponse();    //构造一个WEB响应
    string html="";
    Stream s=hreq.GetResponseStream();    //获取WEB响应的数据Stream
    StreamReader reader=new StreamReader(s,System.Text.Encoding.GetEncoding("GB2312"));   //对数据流作编码转换//string sline="";html=reader.ReadToEnd();
    txtResult.Text=html;以上代码获得HTML文本后在分析其格式,当然最好用正则表达式来分析!
    如果要做多个网站的通用分析,你可以为不同的网站做不同的规则,这样就可以了!
      

  3.   

    告诉新浪给你做一个WebService.