问题是这样的:  现在有大概100m的word文档,文档内容里有三种标点 , 。 、但不幸的是是图片形式,想再想改为普通汉字形式。如何做。

解决方案 »

  1.   

    有个叫什么光学识别软件,能够自动识别的吧,只是达不到100%,楼主可以google 一下
      

  2.   

    说句实在话,我也不动word中怎么嵌入图片的,但是,如果可以提取出来的图片那段的二进制的话,可以直接用二进制比较,
    将, 。 、的图片先分别找出来,作为样本,然后分解出word中的图片,分别跟这三个图片的二进制进行比较,
    个人不是很懂,只是介绍一个思路
      

  3.   

    我做山西移动的项目的时候,遇到了很楼主一样的问题,我需要从word中读取内容。但是只需要读出纯文本的内容
    也是遇到了里面有图片的情况,读出来。。就是乱码,或者是一个笑脸之类的怪异字符。。我是通过下面的方法搞定的:
    新建一个word文件,里面放一个图片,然后用java程序(我用的是poi),读取出来后。然后替换,其他的我们只需要文本的word文件。。用String的replace函数。就ok了我这里有源码可以进入我的QQ群(26572256)问我要