htmlparser解析html文档 - 调试易

htmlparser解析html文档

我看到了一篇论文利用关于提取网页主题信息的。里面说的了利用htmlparser解析html文档生成DOM树，我不理解是怎么个生成法？请问有没有人能帮我解答一下疑惑。

解决方案 »

免费领取超大流量手机卡，每月29元包185G流量+100分钟通话, 中国电信官方发货

html其实就是标记性语言，跟xml一样，当读取时将整个根叶元素读入到内存，然后进行增删改查。
同意一楼。就是解析xml，根据不同的标签获取相应的数据。
建议楼主去学习一下dom的知识就明白了加油
是不是我没说清楚呢，xml解析的到dom树我能知道怎么做，因为有确定的格式，但是我现在爬虫得到的网页代码没有确定的格式的，我怎么能和解析xml一样的去得到网页的html文档的dom树结构呢？