我现在在做毕业设计,环境用的是VC6.0,做的过程中碰到很多问题,这个问题一定要解析HTML吗?
我自己试过一些方法,一种是用CString类的成员函数来处理HTML文件中字符串的方法,但是好像效率不高,并且转换后的TXT文件会出现乱码;我现在想用另外一种方法,就是先把HTML文件组织成树型结构,通过遍历各个节点来转换,怎么做呢?高手帮忙

解决方案 »

  1.   

    最好的办法就是用IE打开,再调用IE提供的IDocument2接口,再提取如innerText。
    简单的办法就直接解析字符串了,用CString当然会很慢,因为要频繁分配内存。直接用char *就好了。 
      

  2.   

    to:flyhigh
    我的HTML文件是浏览的本地文件,不是直接打开IE然后转换的,这样也可以用IE提供的IDocument2接口?
      

  3.   

    获得IHTMLDocument2,IHTMLDocument2.get_all()获得IHTMLElement集合,在循环
    IHTMLElement.get_outerText()获得输出字符。
      

  4.   

     我的HTML文件是浏览的本地文件,不是直接打开IE然后转换的,这样也可以用IE提供的IDocument2接口?
      

  5.   

    我想把html组织成树型结构之后再操作,谁告诉我怎么做?帮忙啊
      

  6.   

    怎么把html文档转换成对应的DOM树型结构啊?