[求助]小弟剩下的分都填上了，关于解析HTML文本的问题

前几天下了一个网站的所有文件，现在想把其中的HTML格式的文件中的相关内容分别存到数据库中，但是一开始就碰到难题了：如果要解析HTML文本，需要用到哪些类？比如说是不是要用到FILE类，或者是FILE什么什么STREAM的，请高手指教因为分不多，不要说我寒酸，只把分给第一个解决问题的人

不是没的人回答，只感觉你问的问题还不够清晰。就看字面意思。你使用jdom或dom4j都可以对html文件进行解析。
网上大都是jdom,dom4j对XML的解析，兄弟能不能帮我找篇关于HTML的，好让我有个起步，这40分就是你的了
HTML是一种不规范的xml
你可以用各种dom工具来解析,就象我曾经作国的一个项目一样,但是你要保证传过来的html是个合法(well-format)的xml.
建议你使用Xerces和nekohtml来解析HTML，具体用法网上搜吧，很详细！
htmlparser网上搜这个，用来解析HTML的。
谢谢大家热情的回复，不过jdom,dom4j,Xerces,nekohtml,htmlparser这几个里面哪个比较好呢？可以从性能，稳定性方面去衡量
我要解析的HTML都不是规范的XML，现在看来nekohtml,htmlparser这两个可以试试
这两个解析器我都用过，相对来说nekohtml用到了Xerces库，解析起来比较健壮，htmlparser有些标签如<b>,<i>,<font>,<center>这些都未实现，需要你自己添加这些标签类
谢谢楼上的兄弟，能提供个nekohtml的官方地址吗，网上怎么找不到？