我想用java函数去掉html中的标记,也就是带<>符号的去掉,改html编辑状态为纯文本状态
用java函数而不能用javascript

解决方案 »

  1.   

    怎样去判断一字符串中是否有<号???
    字符串对象有这个功能的方法吧?你查一下javadoc
      

  2.   

    http://bbs.sqlserver.com.cn/oursite/servlet/SuperFace/forum/forum2.html?htokid=c0.0.2&id=26
      

  3.   

    html不也就是特殊的xml么
    用jdom parse一下
      

  4.   

    回复人: tx18(www.sqlserver.com.cn) 你提供的这个方法有一个确点就是要判断每一个html标记,那太多了!我现在找到一个在JDK1.4版本下的方法:就是用replaceALL("<([^<>]+)>","");但我们的websphere只支持JDK1.3,不能用replaceAll方法,所以只能写java函数实现,那位高手会!
      

  5.   

    不能用replaceAll就用reaplace循环一下
      

  6.   

    呵呵,就用java写个正则表达式嘛,一下就ok了,要么就手工写字符串处理函数,效率都应该挺高的。
      

  7.   

    public  String Html2Text(String str)
    {
    String sRet="";
    while(str.indexOf("<")>=0)
    {
    String str1 = "";
        String str2 = "";
        str1 = str.substring(0,str.indexOf("<"));
        str2 = str.substring(str.indexOf(">")+1);
        sRet = str1 + str2;
    }
    return sRet;
    }
    写了这样一个方法,测试通过,不知道还有没有不恰当的地方,有一点我知道,就是不能处理<script>....</script>和<style>...<style>的代码,,,但一般格式的html代码应该没问题吧
      

  8.   

    回楼主:
    我的程序是在一个全文检索系统用的初稿,要对大量的html文件进行过滤,有的文件有长达4、50M,除了普通的html标记间的文本外,script和style中的内容是不需要的,因为要保证过滤的速度,所我们采用了逐行分析的办法,每一行的结果中还要去掉&nbsp;。
    仅供参考!