我现在要解析一个HTML页面,页面的内容已经读取为字符串,
我想在页面的内容中,只保留<link ...>,<img...>,<inclue..>,url(..)这些标签中的内容.请问哪位高手帮忙写一下,小弟万分感激.谢谢

解决方案 »

  1.   

    URL标签是不是在<..>中的,如:url("jenny%20%20haha.files/header.htm")
      

  2.   


    import java.util.regex.Matcher;
    import java.util.regex.Pattern;
    public class Test {
        public static void main(String[] args){
            String str="<link src=\"test1\">,<img src=\"test2.jpg\">,<inclued file=\"test3.jsp\">,url(\"jenny%20%20haha.files/header.htm\")";
            Pattern p=Pattern.compile("(<(link|img|inclued)\\s*([^<>]*)>)|url\\(([^\\(\\)]*)\\)");
          Matcher m=p.matcher(str);
          while(m.find()){
              if(m.group().startsWith("url")){
                  System.out.println(m.group(4));
              }else
                  System.out.println(m.group(3));
          }
        }
    }