求教：html to txt - 调试易

求教：html to txt

看 lucene的demo吧，里面有个htmparser。

解决方案 »

免费领取超大流量手机卡，每月29元包185G流量+100分钟通话, 中国电信官方发货

你可以用类似于xml文件节点取值的方式来操作,应该可以直接定位到所需节点,就像xpath这样的东东
首先做一个数据结构，用来存储txt文件的内容，一般来说总是一棵树。然后扫描html文件，使用事件驱动模型，每碰到一个标记，就启动一段handler，然后把解析好的内容放到这个数据结构里面；最后再从这个数据结构里面把内容恢复出来，生成txt。