看 lucene的demo吧,里面有个htmparser。

解决方案 »

  1.   

    你可以用类似于xml文件节点取值的方式来操作,应该可以直接定位到所需节点,就像xpath这样的东东
      

  2.   

    首先做一个数据结构,用来存储txt文件的内容,一般来说总是一棵树。然后扫描html文件,使用事件驱动模型,每碰到一个标记,就启动一段handler,然后把解析好的内容放到这个数据结构里面;最后再从这个数据结构里面把内容恢复出来,生成txt。