前几天下了一个网站的所有文件,现在想把其中的HTML格式的文件中的相关内容分别存到数据库中,但是一开始就碰到难题了:如果要解析HTML文本,需要用到哪些类?比如说是不是要用到FILE类,或者是FILE什么什么STREAM的,请高手指教因为分不多,不要说我寒酸,只把分给第一个解决问题的人

解决方案 »

  1.   

    不是没的人回答,只感觉你问的问题还不够清晰。就看字面意思。你使用jdom或dom4j都可以对html文件进行解析。
      

  2.   

    网上大都是jdom,dom4j对XML的解析,兄弟能不能帮我找篇关于HTML的,好让我有个起步,这40分就是你的了
      

  3.   

    HTML是一种不规范的xml
    你可以用各种dom工具来解析,就象我曾经作国的一个项目一样,但是你要保证传过来的html是个合法(well-format)的xml.
      

  4.   

    建议你使用Xerces和nekohtml来解析HTML,具体用法网上搜吧,很详细!
      

  5.   

    htmlparser网上搜这个,用来解析HTML的。
      

  6.   

    谢谢大家热情的回复,不过jdom,dom4j,Xerces,nekohtml,htmlparser这几个里面哪个比较好呢?可以从性能,稳定性方面去衡量
      

  7.   

    我要解析的HTML都不是规范的XML,现在看来nekohtml,htmlparser这两个可以试试
      

  8.   

    这两个解析器我都用过,相对来说nekohtml用到了Xerces库,解析起来比较健壮,htmlparser有些标签如<b>,<i>,<font>,<center>这些都未实现,需要你自己添加这些标签类
      

  9.   

    谢谢楼上的兄弟,能提供个nekohtml的官方地址吗,网上怎么找不到?