太菜,请教怎么写正则表达式抓网页中的  <a href="xxx/xxx/xxxx.pdf">文化娱乐</a>
要分成"xxx/xxx/xxxx.pdf" 和 "文化娱乐"

解决方案 »

  1.   

    http://search.csdn.net/Expert/topic/949/949264.xml?temp=.1280481
      

  2.   

    Regex regex=new Regex("href\\s*=\\s*\"([^\"]*)\"\\s*>(*)<",RegexOptions.IgnoreCase);
    StreamReader reader=new StreamReader("*.html");for(string line=reader.ReadLine();line!=null;line=reader.ReaderLine())
    {
    MatchCollection matches=regex.Matches(line);
    foreach(Match match in matches)
    {Console.WriteLine(match.Group[1]);
    Console.WriteLine(match.Group[2]);
    }其中,match.Group[0]标示完整的匹配文本,Group[1]为xxx/xxx/xxxx.pdf,Group[2]为文化娱乐,*.html为要分析的网页文件名。
    }
      

  3.   

    表达式@"<a\s+href="([^>,"]*?)">([^>,<]*?)</a>"