太菜,请教怎么写正则表达式抓网页中的 <a href="xxxx.pdf">文化娱乐</a> - 调试易

太菜,请教怎么写正则表达式抓网页中的 <a href="xxxx.pdf">文化娱乐</a>

太菜,请教怎么写正则表达式抓网页中的 <a href="xxx/xxx/xxxx.pdf">文化娱乐</a>
要分成"xxx/xxx/xxxx.pdf" 和 "文化娱乐"

解决方案 »

免费领取超大流量手机卡，每月29元包185G流量+100分钟通话, 中国电信官方发货

http://search.csdn.net/Expert/topic/949/949264.xml?temp=.1280481
Regex regex=new Regex("href\\s*=\\s*\"([^\"]*)\"\\s*>(*)<",RegexOptions.IgnoreCase);
StreamReader reader=new StreamReader("*.html");for(string line=reader.ReadLine();line!=null;line=reader.ReaderLine())
{
MatchCollection matches=regex.Matches(line);
foreach(Match match in matches)
{Console.WriteLine(match.Group[1]);
Console.WriteLine(match.Group[2]);
}其中，match.Group[0]标示完整的匹配文本，Group[1]为xxx/xxx/xxxx.pdf，Group[2]为文化娱乐，*.html为要分析的网页文件名。
}
表达式@"<a\s+href="([^>,"]*?)">([^>,<]*?)</a>"