最近在研究一个C#抓取新闻的系统,主要是抓取的网站不固定,没有想到统一的抓取新闻正文的方式,请大家帮帮忙啊。!另外如何判定一也是新闻还是其他的连接?提供好的思路都可以给分。

解决方案 »

  1.   

    可以参考一下sina,sohu等
    他们的新闻链接都迹可遁,新浪的就是所有的http://news.sina.com.cn/...
    抓到后下载相应的新闻就好了。对了,今天刚帮一网友写了一个可以抓取任何形式超链接的正则,可以取得链接和标题,楼主要不?
      

  2.   

    是这样的,我做个抓取人家的天气预报。
    用XMLHTTP去请求一个页面,服务器会返回一个文本,你去分解这个文本,找出你需要的东西。格式相同的页面的话,文本里的html格式也就是固定的,这样很容易就分解出你要的信息,如果页面不固定,其返回的html文本的格式也不固定,那你的程序怎么写呢?
      

  3.   

    个人愚见
    相当于处理一个字符串,关键看格式,你怎么提取(你可以用正则,可以用程序等等都可以)
    这只是个例子,是asp的,但思路就是这个思路了
    http://www.cnblogs.com/hover/archive/2004/10/09/36212.aspx
      

  4.   

    weisunding(鼎鼎) (发上来看看,或则发到
      

  5.   

    string p = @"<a\s+[^>]*href\s*=\s*(?:""(?<url>[^""]*)""|'(?<url>[^']*)'|(?<url>[^>^\s]+))[^/]*>(?<title>[^<>]*)<[/]?";返回两个组 url 和 title