关于匹配A链接的正则.

<a href="www.example.com/News/123.html">这个a标签要</a>
<a href="/News/123123.html">这个a标签要</a>
<a href="/News/">这个a标签不要</a>
<a href="/News/123">这个a标签要</a>
<a href="http://www.test.com/News/123.html">这个a标签要</a>
<a href="http://www.test.com/News/123.aspx">这个a标签不要</a>
<a href="http://www.test.com/News/123.asp">这个a标签不要</a>大概意思就是一个可以匹配出 href属性里包含某个标识的A标签的href属性和text属性,注意是包含,
而且这个正则需要还需要一个结束的标识.比如如上面的例子包含的标识为/News/
结束的标识为 .html这个结束的标识是可给可不给的,如果有那么就href属性就必须以这个标识为结尾,没有的话就需包含给定的标识就行了.类似于这个正则
string regString = @"(?is)<a[^>]*href=(['""\s]?)(?<href>"/News/@"([^\.]*\".html@"|((?!"").)+?))\1[^>]*>(?<text>(?:(?!</?a\b).)*)</a>";但是这个正则是必须以/News/为开头的,现在是包含它就行.

解决方案 »

免费领取超大流量手机卡，每月29元包185G流量+100分钟通话, 中国电信官方发货

上面那个正则有点问题
重发一个
string regString = @"(?is)<a[^>]*href=(['""\s]?)(?<href>/News/([^\.]*\.html|((?!"").)+?))\1[^>]*>(?<text>(?:(?!</?a\b).)*)</a>";
<a href="/News/">这个a标签不要</a>这个为什么不要？
void Main()
{
   string html=@"
<a href=""www.example.com/News/123.html"">这个a标签要</a>
<a href=""/News/123123.html"">这个a标签要</a>
<a href=""/News/"">这个a标签不要</a>
<a href=""/News/123"">这个a标签要</a>
<a href=""http://www.test.com/News/123.html"">这个a标签要</a>
<a href=""http://www.test.com/News/123.aspx"">这个a标签不要</a>
<a href=""http://www.test.com/News/123.asp"">这个a标签不要</a>
"; foreach(Match m in  Regex.Matches(html,@"(?is)<a[^>]*href=(['""]?)[^'""]*/News/[^""'\.]+(\.html)?\1[^>]*>[^<]*</a>"))
{
  Console.WriteLine(m.Value);
}
}/*
<a href="www.example.com/News/123.html">这个a标签要</a>
<a href="/News/123123.html">这个a标签要</a>
<a href="/News/123">这个a标签要</a>
<a href="http://www.test.com/News/123.html">这个a标签要</a>
*/
            string str = "<a href=\"www.example.com/News/123.html\">这个a标签要</a>"
                + "<a href=\"/News/123123.html\">这个a标签要</a>"
                + "<a href=\"/News/\">这个a标签不要</a>"
                + "<a href=\"/News/123\">这个a标签要</a>"
                + "<a href=\"http://www.test.com/News/123.html\">这个a标签要</a>"
                + "<a href=\"http://www.test.com/News/123.aspx\">这个a标签不要</a>"
                + "<a href=\"http://www.test.com/News/123.asp\">这个a标签不要</a>";
            Regex reg = new Regex(@"<a[^>]*?href=(['""\s]?)([^'""\s]*?/News/[^'""\.]+(\.html)?)\1[^>]*?>");
            MatchCollection match = reg.Matches(str);
            foreach (Match m in match)
            {
                Response.Write(m.Groups[2].Value + "<br/>");
            }
/*
www.example.com/News/123.html
/News/123123.html
/News/123
http://www.test.com/News/123.html
*/
还是huangwenquan123的可以Tim的不知道你的怎么不行, 看了一下huangwenquan123的正则比你多了一些\s 这个是匹配空白字符的应该就是这个在影响吧.我测试的是这个页面
http://blog.youdao.com/search?q=%E5%82%A8%E6%B0%94%E7%BD%90&start=0&t=a&keyfrom=blog.page1匹配关键字是要包含 /blog/static/ 的a标签
http://download.csdn.net/source/2844387