关于解析html成tag树的讨论

记得同学买了本Lecene in Action做毕业设计，对这个没什么研究，就当给你充充人气

解决方案 »

免费领取超大流量手机卡，每月29元包185G流量+100分钟通话, 中国电信官方发货

至少有两份代码可以做对比，Gecko和webkit。
呵呵，被推荐了，高兴，我的确希望能够有我们“国产”的Html解析包，所以我考虑后续把这东西开源。先加分！先凑足200分
不错啊，我对分析HTML有兴趣。支持~
不错啊，我对分析HTML有兴趣。支持~
HtmlParser，说实际话，到目前我还没有看过这东西
HtmlDocument是一定不能用的，这个需要WebBrowser，对于多线程不好，并且这样不能很好地根据自己的需要来进行分析处理。
html解析成tag标签,我用的是正规则,也是分析成tag,但不是为tag树
如:
原html<html>
<body>
  第一
<div>
第二
</div>
第三
</body>
</html>
解析成tag为
<html>
<body>
<body> 第一<div>
<div>第二</div>
</div>第三</body>
<div>
</div>
<body>
</html>
等
像input,br 等不需要"</ "结束标记就可以使用的tag,不知道你打算怎么解决？我曾经尝试用正则表达式匹配出所有标签，再逐个进行处理的方式解析HTML，不过由于时间的原因，
还没有做出来。期待与大家的交流.
由于采用的辅助结构Stack，在发现</ABC>这样的结束标签之前，要在Stack中找到同名的Tag出库，所以对于没有结束标志的这些标签，最终都会处理的。比如<WWW><input></WWW>这种,input作为www的子节点。因为发现</WWW>的时候，先在Stack中进行查找，发现第一个input与WWW不匹配，所以先把input出栈，然后再继续查看，找到WWW，匹配了，然后把WWW出栈，并且把前面出栈的input作为其子节点
呵呵，你那个我已经再关注了。几年不来csdn了，蹭个分先：）至于页面抓取，呵呵，由于我以前写过一个页面采集的小程序，专门抓页面的，因为不需要进行标签数匹配，所以我也没有用htmlparser，直接正则完事。一般的垃圾网页，抓起来倒也还算正常，呵呵。不过和这个就不太一样了，我那个是只要数据，而这个则需要进行具体的解析，侧重面不一样。
html parse 的难点，保持树层次的正确。
very high!i'll study hard
http://topic.csdn.net/u/20080220/17/d60ec0a7-6263-4286-8d37-5438d21e0920.html
http://topic.csdn.net/u/20070627/11/df9b37c6-5a90-44c1-9fc0-9461e819b5dd.html很久很久以前我就已经做了一个HTML DOM Parser了……
就冲你这话我也掺和掺和。以前用过老外的dom解析包。
写接口中
呵呵，好象nec_8899先生发的所有贴都是这个样子。。