href="http://www.goodlrc.com/html/240.htm" target="_blank"><font size="3"><font color="#c60a00">一加一等于二</font> I Love You Boyz LRC歌词下载</font></a><br>只想获得
http://www.goodlrc.com/html/240.htm
这个地址和
一加一等于二I Love You Boyz LRC歌词下载
这几个文字,其他的都过滤掉,
然后 font 那个标签可能也是其他的东西,不过结束就是</a><br>
求助下,怎么写?

解决方案 »

  1.   

    保存成html然后拷贝下来不就行了
      

  2.   

    Pattern pattern = Pattern.compile("href=\"([^\\\"]*)\"\\starget=\"_blank\">([^]*)</a><br>", Pattern.MULTILINE);写成这样了,但是报错,郁闷,
    Unclosed character class near index 47
      

  3.   

    把所有的标签弄成<xxxx和</xxxx的形式
    组成一个长字符串,然后去匹配碰到就截到>
    不过这是最垃圾的办法了
    考的别人的,你上网搜一下
    String   regEx   =   "(&lt;.+?&gt;)|(&amp;nbsp;)";
    String   regEx   =   "(<;.+?>;)";
      

  4.   

    Pattern pattern = Pattern.compile("href=\"([^\"]*)\"\\starget=\"_blank\">([^]*)</a><br>", Pattern.MULTILINE);这个他怎么就报错了呢?晕,
    在正则编辑工具里面调试的都对着呢,结果就报错勒。
    java.util.regex.PatternSyntaxException: Unclosed character class near index 45
    href="([^"]*)"\starget="_blank">([^]*)</a><br>
                                                 ^
      

  5.   

    去apache网站下了个最新的正则表达包,那个包更好用。