字符串:
<table>
<!--abc-->
<table>
<tr>
<td>正文内容</td>
</tr>
</table>
<!--abcdef-->
<!--afgafah-->
<table>
<tr>
<td>正文内容</td>
</tr>
<tr>
<td>正文内容</td>
</tr>
<tr>
<td>正文内容</td>
</tr>
</table>
<!--afheyjm-->
<table>
<tr>
<td>正文内容</td>
</tr>
<tr>
<td>正文内容</td>
</tr>
</table>
</table>需去除的就是<!--长度变化的字符串-->
这是在httpclient和jsoup的使用过程中出现的问题。看看有没有高手能解决一下。类似注释一样的字符串很影响结果。
<table>
<!--abc-->
<table>
<tr>
<td>正文内容</td>
</tr>
</table>
<!--abcdef-->
<!--afgafah-->
<table>
<tr>
<td>正文内容</td>
</tr>
<tr>
<td>正文内容</td>
</tr>
<tr>
<td>正文内容</td>
</tr>
</table>
<!--afheyjm-->
<table>
<tr>
<td>正文内容</td>
</tr>
<tr>
<td>正文内容</td>
</tr>
</table>
</table>需去除的就是<!--长度变化的字符串-->
这是在httpclient和jsoup的使用过程中出现的问题。看看有没有高手能解决一下。类似注释一样的字符串很影响结果。
还是用工具吧, 比如htmlparser
html = html.replaceAll("<!--(.*?)-->", "$1");
有时候会影响一下,遇到过一两次,是影响了另一个判断:html.startWith()。这个“$1”是什么意思?不能直接转为空吗?
例如<!--abcdef-->就会被替换为abcdef,<!--abc-->就会被替换为abc
楼主是要把整个注释的去掉的话。可以用空