<a href="/product/9236/9236426.shtml"></a>比如能够分析出   /product/9236/9236426.shtml
可能连接有很多,我需要从中间找出我需要的,比如连接包含product,不包含dfs的.
然后将这个些分析后的连接放到TreeView中或者是ListBox中都可以.
我的目的是编写一个采集软件.
刚刚学习,大家多多帮忙.
如果谁有采集软件的代码(C#)那就太好了.

解决方案 »

  1.   

    System.Windows.Forms.WebBrowser webBrowser = new WebBrowser();
                webBrowser.Url = new Uri("网站地址"+"/product/9236/9236426.shtml");            ArrayList arWebListenValue = new ArrayList();
                ArrayList arWebListenText = new ArrayList();            for (int i = 0; i < this.webBrowser.Document.Links.Count; i++)
                {
                    arWebListenValue.Add(this.webBrowser.Document.Links[i].Id);
                    arWebListenText.Add(this.webBrowser.Document.Links[i].OuterText);
                }
      

  2.   

    getElementsByTagName('a');
    没有试,不知道可以不。~_~!
      

  3.   

    muyanpeng_mail(穆彦鹏)的方法是比较简单。但是,如果页面含有frame,或者含有js调用的frame,还能获取link吗?
      

  4.   

    muyanpeng_mail(穆彦鹏)
    写的这个东西,说句实话没有看懂他的意思。
    谁能给注释下么?
      

  5.   

    今天才看到回复~如果没有看懂的话 就研究下 方法是可行的,这个我是自己研究过的-------------------------------如果还是看不懂的话 只能说明我说的方法不适合你不是很难的东西 可以找其它的路了-------------------------------
    re:muyanpeng_mail(穆彦鹏)的方法是比较简单。但是,如果页面含有frame,或者含有js调用的frame,还能获取link吗?
    -----------------------------------------------------------
    只要是在最后一次的 documentcomplment 之后进行判断 就不会有影响
    -----------------------------------------------------------
      

  6.   

    MatchCollection matches = Regex.Matches(textBox1.Text, "/product/\\d+/\\d+\\.shtml", RegexOptions.IgnoreCase);
    for (int i = 0; i < matches.Count; i++)
    {
    Match match = matches[i];
    textBox2.Text += match.Value;
    }
      

  7.   

    又是采集软件.对URL要求不高用正则就可以了.要想适用于脚本提交的连接相当困难.......