我看到了一篇论文利用关于提取网页主题信息的。里面说的了利用htmlparser解析html文档生成DOM树,我不理解是怎么个生成法?请问有没有人能帮我解答一下疑惑。

解决方案 »

  1.   

    html其实就是标记性语言,跟xml一样,当读取时将整个根叶元素读入到内存,然后进行增删改查。
      

  2.   

    同意一楼。就是解析xml,根据不同的标签获取相应的数据。
      

  3.   

    建议楼主去学习一下dom的知识 就明白了 加油
      

  4.   


    是不是我没说清楚呢,xml解析的到dom树我能知道怎么做,因为有确定的格式,但是我现在爬虫得到的网页代码没有确定的格式的,我怎么能和解析xml一样的去得到网页的html文档的dom树结构呢?