如何正确抓取新闻正文的内容！(提供好思路有分)

最近在研究一个C#抓取新闻的系统，主要是抓取的网站不固定，没有想到统一的抓取新闻正文的方式，请大家帮帮忙啊。！另外如何判定一也是新闻还是其他的连接?提供好的思路都可以给分。

可以参考一下sina,sohu等
他们的新闻链接都迹可遁，新浪的就是所有的http://news.sina.com.cn/...
抓到后下载相应的新闻就好了。对了，今天刚帮一网友写了一个可以抓取任何形式超链接的正则，可以取得链接和标题，楼主要不？
是这样的，我做个抓取人家的天气预报。
用XMLHTTP去请求一个页面，服务器会返回一个文本，你去分解这个文本，找出你需要的东西。格式相同的页面的话，文本里的html格式也就是固定的，这样很容易就分解出你要的信息，如果页面不固定，其返回的html文本的格式也不固定，那你的程序怎么写呢？
个人愚见
相当于处理一个字符串，关键看格式，你怎么提取（你可以用正则，可以用程序等等都可以）
这只是个例子，是asp的，但思路就是这个思路了
http://www.cnblogs.com/hover/archive/2004/10/09/36212.aspx
weisunding(鼎鼎) (发上来看看，或则发到
string p = @"<a\s+[^>]*href\s*=\s*(?:""(?<url>[^""]*)""|'(?<url>[^']*)'|(?<url>[^>^\s]+))[^/]*>(?<title>[^<>]*)<[/]?";返回两个组 url 和 title