在java 中使用htmlparser提取分析html文本的时候 发现有些标签分析不了 如<center> <strong> 之类的各位大虾们是怎么处理的?这是我的看法:
我用的htmlparser2.0的 通过调试发现它遇到 center之类的标签就会把这个标签当成两个Node即<CENTER>为一个 </CENTER>为另一个 去解的时候它又会把它做为不对称的标签丢掉。 但不晓怎么去解决 还是有高版本可以支持这些标签怎么地?
我用的htmlparser2.0的 通过调试发现它遇到 center之类的标签就会把这个标签当成两个Node即<CENTER>为一个 </CENTER>为另一个 去解的时候它又会把它做为不对称的标签丢掉。 但不晓怎么去解决 还是有高版本可以支持这些标签怎么地?
一些不规范的html写法也会是解析有问题,比如有些明明是子,却解析成兄弟.只能自己处理了.