我现在的项目要完成一个功能,就是需要分析一个html页面源代码是否有哪个标签没有结束的
比如<tr>缺少了<tr>.
可以给个思路或者第三方的工具,
不知道htmlparse能否解析,希望知道的大哥大姐帮忙?

解决方案 »

  1.   

    nekohtml吧,功能比较强大的!楼主看一下
      

  2.   

    我觉得你应该维护一个queue只有符合/的就移除,如果发现你上面的数据已经没有了,你又没有找到结束的,就自己补上。。不过这种处理比较复杂。
      

  3.   

    这个是一个栈的问题,你设计一个栈,检测所有的<..>入栈,遇见一个闭合的</..>就出栈一个,这样就很好的判断是否闭合