请问怎么提取提取office2007文档的纯文本呢(docx/pptx/xlsx/),我用
                    reader = new EPocalipse.IFilter.FilterReader(strFileName);
                    using (reader)
                    {
                        a = reader.ReadToEnd();
                    } 是可以提取2010和2003的office文本的,可是07的不行 大家有很忙高见吗?!
 
 请大家帮帮忙!!!!感谢!!!!

解决方案 »

  1.   

    Office 2007以后,文件的内容都是压缩文件。纯文本与图片还有其他内容都以xml格式进行定义。如果想要取得纯文版,可以解压后解析xml,然后进行组合获得。这是在不使用第三方程序集的做法。
      

  2.   

    reader = new EPocalipse.IFilter.FilterReader(strFileName);
      using (reader)
      {
      a = reader.ReadToEnd();
      }我这样再试的时候又都可以抽取了03/07/10都行啦 
    呵呵 谢谢大家