我在做采集的,现在碰到这种情况,不知道怎么下手比如 某个网页内的连接都是这样的
<a href="/haha.html" />
我要取得他之前的完整路径
像 www.xxx.com/haha.html实在不懂怎么做
//取得html源码
public  string GetHtml(string url)
    {
        string result = "";
        try
        {
            WebRequest request = WebRequest.Create(url);
            WebResponse response = request.GetResponse();
            StreamReader reader = new StreamReader(response.GetResponseStream(), Encoding.GetEncoding("GBK"));
            result = reader.ReadToEnd();
        }
        catch
        {
            result = "";
        }
        return result;
    }

解决方案 »

  1.   

    //导入:using System.Text.RegularExpressions;
    //测试成功
    string   str   = "<a href=\"/z/q160049681.htm\" target=\"_blank\">";   
        
          Regex   re   =   new   Regex(@"<a[^>]+href=\s*(?:'(?<href>[^']+)'|""(?<href>[^""]+)""|(?<href>[^>\s]+))\s*[^>]*>",   RegexOptions.IgnoreCase   |   RegexOptions.Singleline);   
        
          MatchCollection   mc   =   re.Matches(str);   
          Console.WriteLine(mc.Count);
          foreach (Match m in mc)
              Response.Write(m.Groups["href"].Value);//输出结果为:/z/q160049681.htm 本文来自CSDN博客,转载请标明出处:http://blog.csdn.net/zhoukang0916/archive/2009/10/11/4654930.aspx
      

  2.   

    我是要把url补全,楼上的 怎么用啊??