如题如腾讯NBA页面http://sports.qq.com/nba/
我要获取该页面所有含有“/a/201301”的链接地址,存储到c:/sport_url.txt请问如何实现

解决方案 »

  1.   

    正则得写死吧?
    我要想实现的是给用户一个text输入框,用户可以自定义这个字符串,然后爬取含有此字符串的所有链接。
      

  2.   

      string url = "http://sports.qq.com/nba/";
                string html = GetHtml(url, Encoding.GetEncoding("gb2312"));
                string str = "/a/201301";
                string pattern = @"(?is)(?<=<a[^>]*?href=[""'])[^""']*?" + str + @"[^""']*[""'](?=[^>]*>)";
                var ary = Regex.Matches(html, pattern).OfType<Match>().Select(t => t.Value).ToArray();
               
      

  3.   

    先匹配出所有连接地址,然后IndexOf,如果用户输入的有些字符不太规范的话,拼接正则有可能会出现错误的表达式额~