字符串:
<table>
<!--abc-->
<table>
   <tr>
     <td>正文内容</td>
   </tr>
</table>
<!--abcdef-->
<!--afgafah-->
<table>
   <tr>
     <td>正文内容</td>
   </tr>
   <tr>
     <td>正文内容</td>
   </tr>
   <tr>
     <td>正文内容</td>
   </tr>
</table>
<!--afheyjm-->
<table>
   <tr>
     <td>正文内容</td>
   </tr>
   <tr>
     <td>正文内容</td>
   </tr>
</table>
</table>需去除的就是<!--长度变化的字符串-->
这是在httpclient和jsoup的使用过程中出现的问题。看看有没有高手能解决一下。类似注释一样的字符串很影响结果。

解决方案 »

  1.   

    你要自己解析字符串吗?
    还是用工具吧, 比如htmlparser
      

  2.   

    如果你使用jsoup来处理信息的话,没道理注释会影响结果啊,你程序逻辑有问题吧?不过非要处理可以试试看:
    html = html.replaceAll("<!--(.*?)-->", "$1");
      

  3.   


    有时候会影响一下,遇到过一两次,是影响了另一个判断:html.startWith()。这个“$1”是什么意思?不能直接转为空吗?
      

  4.   

    $1表示正则捕获到的第一组这里的$1就是注释的内容。
    例如<!--abcdef-->就会被替换为abcdef,<!--abc-->就会被替换为abc
    楼主是要把整个注释的去掉的话。可以用空