记得同学买了本Lecene in Action做毕业设计,对这个没什么研究,就当给你充充人气

解决方案 »

  1.   

    至少有两份代码可以做对比,Gecko和webkit。
      

  2.   

    呵呵,被推荐了,高兴,我的确希望能够有我们“国产”的Html解析包,所以我考虑后续把这东西开源。先加分!先凑足200分
      

  3.   

    不错啊,我对分析HTML有兴趣。支持~
      

  4.   

    不错啊,我对分析HTML有兴趣。支持~
      

  5.   


    HtmlParser,说实际话,到目前我还没有看过这东西
    HtmlDocument是一定不能用的,这个需要WebBrowser,对于多线程不好,并且这样不能很好地根据自己的需要来进行分析处理。
      

  6.   

    html解析成tag标签,我用的是正规则,也是分析成tag,但不是为tag树
    如:
    原html<html>
    <body>
      第一
    <div>
    第二
    </div>
    第三
    </body>
    </html>
    解析成tag为
    <html>
    <body>
    <body> 第一<div>
    <div>第二</div>
    </div>第三</body>
    <div>
    </div>
    <body>
    </html>

      

  7.   

    像input,br 等不需要"</ "结束标记就可以使用的tag,不知道你打算怎么解决?我曾经尝试用正则表达式匹配出所有标签,再逐个进行处理的方式解析HTML,不过由于时间的原因,
    还没有做出来。期待与大家的交流.
      

  8.   


    由于采用的辅助结构Stack,在发现</ABC>这样的结束标签之前,要在Stack中找到同名的Tag出库,所以对于没有结束标志的这些标签,最终都会处理的。比如<WWW><input></WWW>这种,input作为www的子节点。因为发现</WWW>的时候,先在Stack中进行查找,发现第一个input与WWW不匹配,所以先把input出栈,然后再继续查看,找到WWW,匹配了,然后把WWW出栈,并且把前面出栈的input作为其子节点
      

  9.   

    呵呵,你那个我已经再关注了。几年不来csdn了,蹭个分先:)至于页面抓取,呵呵,由于我以前写过一个页面采集的小程序,专门抓页面的,因为不需要进行标签数匹配,所以我也没有用htmlparser,直接正则完事。一般的垃圾网页,抓起来倒也还算正常,呵呵。不过和这个就不太一样了,我那个是只要数据,而这个则需要进行具体的解析,侧重面不一样。
      

  10.   

    html parse 的难点,保持树层次的正确。
      

  11.   

    very high!i'll study hard
      

  12.   

    http://topic.csdn.net/u/20080220/17/d60ec0a7-6263-4286-8d37-5438d21e0920.html
    http://topic.csdn.net/u/20070627/11/df9b37c6-5a90-44c1-9fc0-9461e819b5dd.html很久很久以前我就已经做了一个HTML DOM Parser了……
      

  13.   


    就冲你这话我也掺和掺和。以前用过老外的dom解析包。
    写接口中
      

  14.   

    呵呵,好象nec_8899先生发的所有贴都是这个样子。。