求一匹配页面标签的正则表达式 - 调试易

求一匹配页面标签的正则表达式

我现在要解析一个HTML页面,页面的内容已经读取为字符串,
我想在页面的内容中,只保留<link ...>,<img...>,<inclue..>,url(..)这些标签中的内容.请问哪位高手帮忙写一下,小弟万分感激.谢谢

解决方案 »

免费领取超大流量手机卡，每月29元包185G流量+100分钟通话, 中国电信官方发货

URL标签是不是在<..>中的,如:url("jenny%20%20haha.files/header.htm")
import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class Test {
    public static void main(String[] args){
        String str="<link src=\"test1\">,<img src=\"test2.jpg\">,<inclued file=\"test3.jsp\">,url(\"jenny%20%20haha.files/header.htm\")";
        Pattern p=Pattern.compile("(<(link|img|inclued)\\s*([^<>]*)>)|url\\(([^\\(\\)]*)\\)");
      Matcher m=p.matcher(str);
      while(m.find()){
          if(m.group().startsWith("url")){
              System.out.println(m.group(4));
          }else
              System.out.println(m.group(3));
      }
    }
}