几十兆的文档,分割成多个小于2M的小文档,包含图片信息请给些提示,谢谢。

解决方案 »

  1.   

    单纯分割做不到吧...毕竟是二进制信息你看看一个字符在word中大约占多大空间.
    然后用操作word的类库读体积大约接近2M的内容就写一个新word文档里
    遇到图片就判断图片+前面读的内容+word本身头信息是否大于2M,大于则图片在下一次读取时写新文档里没处理过word,只能想到这个
      

  2.   

    比较过WORD文档,即使2个全新空白的2进制代码也不一样。只按照大小切割,切割后的文件打不开,我估计DOC文档应该有固定的文件头、尾信息,特定的格式。但是自己去琢磨比较费力,所以希望高手提供点线索,谢谢
      

  3.   

    全新空白的怎么可能不一样,我刚用UltraCompare对比了一下也还是一样的,除非你比较的两个word版本不同...我说的切割不是让你按其二进制流直接分割...而是用诸如jacob一类的类库来操作word从旧word里读取内容,写入新word...而大小的控制就是按一个字符所占空间来推出,也可能那个类库里有提供判断内容大小的方法
      

  4.   

    没有处理过Word文档格式的,用WIn压缩,设置下 每个2M 看行不?
      

  5.   

    我用POI读word文档的,当文件很大的时候就outofmemory了,所以才想到切割,生成多个小word文档,然后处理。
    jacob没有用过,不知道大文件会不会同样有问题,不过它有使用限制不准备用它。