我用URLConnection连接到一个网站上,然后取得了这个网站首页index.html的源代码,我怎么提取源代码中<a href="XXXXX">里面的XXXXX呢??具体怎么写?
String temp="^<\\s*a\\s+href=\"(.*)\">$";   可以么??谢谢啦

解决方案 »

  1.   

    XXXXX
    这个是变长的吗? 还有这里面都有可能是些什么?
      

  2.   

    String regEx="^<\\s*a\\s+href=\"([X]+)\">$";  
          String str="<a href=\"XXXXX\">";            
          Pattern pattern=Pattern.compile(regEx);
          Matcher m=pattern.matcher(str);
          while(m.find()){                  
             System.out.println(m.group(1));
          }
    这个应该可以了
    揭贴给分吧
      

  3.   

    楼上  我在一个页面里面有很多 这种表达式  <a href="www.sohu.com">之类  我要将href里面的所有网址取出来,存到一个字符串数组或者vector之中,望指点一二
      

  4.   

    String regEx="<\\s*a\\s+href=\"([\\S]+)\">";  
          String str="AFSDF<a href=\"XXXXX\">434<a href=\"bbbb\">ER<a href=\"aa\">43<a href=\"23w\">";            
          Vector<String> vector=new Vector<String>();
          Pattern pattern=Pattern.compile(regEx);
          Matcher m=pattern.matcher(str);
          while(m.find()){                  
             //System.out.println(m.group(1));
             vector.add(m.group(1));
          }
          int size=vector.size();
          for(int i=0;i<size;i++){
            System.out.println(vector.get(i));
          }