如何从一个html原代码中分析出所有的连接?

<a href="/product/9236/9236426.shtml"></a>比如能够分析出 /product/9236/9236426.shtml
可能连接有很多,我需要从中间找出我需要的,比如连接包含product,不包含dfs的.
然后将这个些分析后的连接放到TreeView中或者是ListBox中都可以.
我的目的是编写一个采集软件.
刚刚学习,大家多多帮忙.
如果谁有采集软件的代码(C#)那就太好了.

解决方案 »

免费领取超大流量手机卡，每月29元包185G流量+100分钟通话, 中国电信官方发货

System.Windows.Forms.WebBrowser webBrowser = new WebBrowser();
            webBrowser.Url = new Uri("网站地址"+"/product/9236/9236426.shtml");            ArrayList arWebListenValue = new ArrayList();
            ArrayList arWebListenText = new ArrayList();            for (int i = 0; i < this.webBrowser.Document.Links.Count; i++)
            {
                arWebListenValue.Add(this.webBrowser.Document.Links[i].Id);
                arWebListenText.Add(this.webBrowser.Document.Links[i].OuterText);
            }
getElementsByTagName('a');
没有试，不知道可以不。~_~!
muyanpeng_mail(穆彦鹏)的方法是比较简单。但是，如果页面含有frame，或者含有js调用的frame，还能获取link吗？
muyanpeng_mail(穆彦鹏）
写的这个东西，说句实话没有看懂他的意思。
谁能给注释下么？
今天才看到回复~如果没有看懂的话就研究下方法是可行的,这个我是自己研究过的-------------------------------如果还是看不懂的话只能说明我说的方法不适合你不是很难的东西可以找其它的路了-------------------------------
re:muyanpeng_mail(穆彦鹏)的方法是比较简单。但是，如果页面含有frame，或者含有js调用的frame，还能获取link吗？
-----------------------------------------------------------
只要是在最后一次的 documentcomplment 之后进行判断就不会有影响
-----------------------------------------------------------
MatchCollection matches = Regex.Matches(textBox1.Text, "/product/\\d+/\\d+\\.shtml", RegexOptions.IgnoreCase);
for (int i = 0; i < matches.Count; i++)
{
Match match = matches[i];
textBox2.Text += match.Value;
}
又是采集软件.对URL要求不高用正则就可以了.要想适用于脚本提交的连接相当困难.......