抓取网页正文内容有什么好的方法？

通过正则实现了抓取新闻列表的链接和新闻标题，但用同样的方法抓取内容的时候却怎么也抓不到，正则的是通过采用动网里http://www.xmlasp.net/n1446c52.aspx里采集规则生成。郁闷了半天

http://huobazi.cnblogs.com/archive/2004/02/23/1521.aspx
关注一下我想做一个这样的<<网络小偷>>程序
分析html代码,提炼正则,然后抓取.
html抓下来自己分析文本，取你想要的东西
如果 .net 是把枪能只哪打哪，那大家还吃什么，老板冲这电脑说做个xxx系统就好了
int countstart=indexof("text",html.length)
int countend=.....
string content=substring(countstart,countend)
int countstart=indexof("text",html.length)
int countend=.....
string content=substring(countstart,countend)
用这样可以抓取，不过感觉其他地方都用正则匹配，正文用这个就不和整体，郁闷