如题,一段html的字符串 <li><span>2011-08-29</span><a href="/article/ffbd/psjs/201108/1248932_1.html" target="_blank">揭秘网络诈骗:QQ视频看到的不一定为真</a></li> 想把里边的链接截取出来,听说正则比较简单,怎么写

解决方案 »

  1.   

    http://topic.csdn.net/u/20100915/09/9fa0efda-d3e7-4fda-9b0b-fc55f378a151.html
    这个应该能解决lz的问题,不过这种问题用dom的方式取就很方便吧
      

  2.   

    用 jsoup 直接提取 a标签内容即可
      

  3.   

    获取a标记的dom对象,然后去href属性的值,这样做挺简单的。
      

  4.   

    public static List<String> parser(String html, String rex) {
    int i = 0;
    List<String> l = new ArrayList<String>();
    Pattern p = Pattern.compile(rex);
    Matcher m = p.matcher(html);
    while (m.find()) { if (m.group(1)!=null){
    l.add(m.group(1));
    }
    i = 1;
    }
    if (i == 0) {
    l.add("");
    }
    return l;
    }
    List<String> hh=parse("你的页面内容","<li><span>.*?</span><a href="(.*?)" target=\"_blank\">");
    hh.get(0);
      

  5.   

    for exampleString s = "<li><span>2011-08-29</span><a href=\"/article/ffbd/psjs/201108/1248932_1.html\" target=\"_blank\">xxx</a></li>";
    String regex = "(?:.*?href=\")(.*?)(?:\".*)";
    String url = s.replaceAll(regex, "$1");
    System.out.println(url);