有人对解析HTML字符串有过研究的吗 
我先做一个比较全面的解析html字符串的功能
能达到浏览器解析html这种程度 有一定容错度的 
需要用到哪方面的技术呢目前我的情况是我已经用正则做到能获取任何一个符合XHTML规格的页面的DOM元素,
但现在问题是如何这个页面有些不符合规范的结构就会有问题,当然有些问题我能过滤,可比如:<span>...这里没有反闭合的话就很难判断,后面可能还会碰到其它问题
有过研究的希望指点下,正在研究也可以交流下正则,HTML解析,浏览器