希望使用正则表达式提取html标签符
输入
"<div>asdf<span>gsdag</span></div>asdf<html>asdfas</html><p/><html>asdfas</html>"
输出
div,span,html,既取得到所有html标签名的一个list
输入
"<div>asdf<span>gsdag</span></div>asdf<html>asdfas</html><p/><html>asdfas</html>"
输出
div,span,html,既取得到所有html标签名的一个list
Regex reg=new Regex(@"<(\w+)\b[^>]*((?!/)>[\s\S]*?</\1>|[^>]*/>)");
foreach(Match m in reg.Matches("你的网页代码"))
{
result+=m.Groups[1].Value+" ";
}
Regex reg=new Regex(@"<(\w+)\b[^>]*((?!/)>[\s\S]*?</\1>|/>)");
string s = " <div>asdf <span>gsdag </span> </div>asdf <html>asdfas </html> <p/> <html>asdfas </html>";
string sNew = System.Text.RegularExpressions.Regex.Replace(s,"<.*?>","");
哦,是有点问题,把正则表达式改成:
Regex reg=new Regex(@"<(\w+)(?=\b[^>]*(?:(?!/)>[\s\S]*?</\1>|/>))");
/*输出结果:
div span html p html
*/