最近才做个RSS阅读器功能,遇到一个问题。
比方说新浪的这个http://rss.sina.com.cn/blog/index/cul.xml,里面的item节点下的description节点里的innerText显示的只是一部分,要点击下面的链接才能看到整篇文章,也就是item节点下的link节点。
现在我是打开这个link节点,怎么获取整篇正文呢?
因为不只是针对这个RSS地址。是所有的XML地址。
还有判断是否显示整篇文章,如果不是,则要打开link的链接地址,读取正文。
不知道谁有做过类似的功能,求点思路。
比方说新浪的这个http://rss.sina.com.cn/blog/index/cul.xml,里面的item节点下的description节点里的innerText显示的只是一部分,要点击下面的链接才能看到整篇文章,也就是item节点下的link节点。
现在我是打开这个link节点,怎么获取整篇正文呢?
因为不只是针对这个RSS地址。是所有的XML地址。
还有判断是否显示整篇文章,如果不是,则要打开link的链接地址,读取正文。
不知道谁有做过类似的功能,求点思路。
System.Net.HttpWebRequest request = (System.Net.HttpWebRequest)System.Net.WebRequest.Create(url);
request.UserAgent = "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; .NET CLR 2.0.50727; .NET CLR 3.0.04506.648; .NET CLR 3.5.21022)";
System.Net.WebResponse response = request.GetResponse();
System.IO.Stream resStream = response.GetResponseStream();
System.IO.StreamReader sr = new System.IO.StreamReader(resStream, encoding);
string content= sr.ReadToEnd();
resStream.Close();
sr.Close();
这个是没问题。但是读了正文的内容之后
给个刚才的链接给你看看。http://go.rss.sina.com.cn/redirect.php?url=http://blog.sina.com.cn/s/blog_4847721e0100k53u.html
不紧包括正文,还包括很多其他内容。
不是说就截取上面这个链接。现在手上有2万多个XML地址。
有的是不用点击链接就是所有正文都获取到了。
而有的需要点击链接才可以看到所有正文。
给个刚才的链接给你看看。http://go.rss.sina.com.cn/redirect.php?url=http://blog.sina.com.cn/s/blog_4847721e0100k53u.html
不紧包括正文,还包括很多其他内容。"这样的话最好是正则来解析了.把正则作成可配置的,因为各大网站的的内容肯定是有固定格式的.所以用正则可以解析的出来.
网上找了很多,感觉这个还是个难点