java中有什么类或者方法可以鉴别 网页中的htm标签和其中的文字吗?就像这样的:<P><FONT color=#800000>新华时评</FONT> 
<P>&nbsp;&nbsp;&nbsp;&nbsp;新华社今天再次播发对审我想只获取其中的文字,除了自己写过滤器外有什么简洁的办法没有?各位高手多指教啊

解决方案 »

  1.   

    其实不用java也可以,可以用javascript得到文字数据,
      

  2.   

    请高人指教怎么用java解决
    javascript不熟悉
      

  3.   

    在csdn上问问题好辛苦啊,半天都没人来帮忙解决下.....自己顶
      

  4.   

    用正则表达式
    String content = "<P><FONT color=#800000>新华时评</FONT>";
    String sParrten = "<P><FONT color=#800000>(.*?)</FONT>";
    Pattern pattern = Pattern.compile(sParrten , Pattern.DOTALL
    | Pattern.CASE_INSENSITIVE); 
    Matcher matcher = pattern.matcher(content);
    if (matcher.find()){
        String sVal = matcher.group(1);
    }
      

  5.   

    好像是document的什么属性来者,好像是txt,忘了,就可以得到网页中的文本数据
      

  6.   

    好像是document的什么属性来者,好像是txt,忘了,就可以得到网页中的文本数据
    这个有谁清楚吗?