最近才做个RSS阅读器功能,遇到一个问题。
比方说新浪的这个http://rss.sina.com.cn/blog/index/cul.xml,里面的item节点下的description节点里的innerText显示的只是一部分,要点击下面的链接才能看到整篇文章,也就是item节点下的link节点。
现在我是打开这个link节点,怎么获取整篇正文呢?
因为不只是针对这个RSS地址。是所有的XML地址。
还有判断是否显示整篇文章,如果不是,则要打开link的链接地址,读取正文。
不知道谁有做过类似的功能,求点思路。

解决方案 »

  1.   

    通过httpwebrequest通过地址获取正文
    System.Net.HttpWebRequest request = (System.Net.HttpWebRequest)System.Net.WebRequest.Create(url); 
        request.UserAgent = "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; .NET CLR 2.0.50727; .NET CLR 3.0.04506.648; .NET CLR 3.5.21022)"; 
        System.Net.WebResponse response = request.GetResponse(); 
        System.IO.Stream resStream = response.GetResponseStream(); 
        System.IO.StreamReader sr = new System.IO.StreamReader(resStream, encoding); 
        string content= sr.ReadToEnd(); 
        resStream.Close(); 
        sr.Close(); 
      

  2.   


    这个是没问题。但是读了正文的内容之后
    给个刚才的链接给你看看。http://go.rss.sina.com.cn/redirect.php?url=http://blog.sina.com.cn/s/blog_4847721e0100k53u.html
    不紧包括正文,还包括很多其他内容。
      

  3.   

    我就是想有什么好的方法可以截取正文内容。
    不是说就截取上面这个链接。现在手上有2万多个XML地址。
    有的是不用点击链接就是所有正文都获取到了。
    而有的需要点击链接才可以看到所有正文。
      

  4.   

    "这个是没问题。但是读了正文的内容之后 
    给个刚才的链接给你看看。http://go.rss.sina.com.cn/redirect.php?url=http://blog.sina.com.cn/s/blog_4847721e0100k53u.html 
    不紧包括正文,还包括很多其他内容。"这样的话最好是正则来解析了.把正则作成可配置的,因为各大网站的的内容肯定是有固定格式的.所以用正则可以解析的出来.
      

  5.   

    你去看看。都是HTML标签,根本就没有一致的规格。
    网上找了很多,感觉这个还是个难点
      

  6.   

    不会正则就用 IndexOf() 和Substring()
      

  7.   

    正则取页面开始和结束HTML代码中间的内容
      

  8.   

    根本没规律可言。你正则怎么写。indexOF.suBstring怎么截取