在Office 2007下,
用Microsoft Office Document Imaging进行OCR,如果使用MiLANGUAGES.miLANG_ENGLISH一切正常;如果换成md.OCR(MODI.MiLANGUAGES.miLANG_CHINESE_SIMPLIFIED, true, true);就出现异常了,请问如何解决这个问题?是不是类似SAPI还需要安装其它语言的引擎呢?

解决方案 »

  1.   

    可以,Office2003下就已经支持了,看About貌似是由一家叫ScanSoft, Inc.公司提供的产品,在它网站溜达了一圈没什么发现,只知道这个产品支持120种文字的识别,识别率99%
    安装Office过程中同时安装“Office工具”->“Microsoft Office Document Imaging”
    之后在COM列表里就出现一叫Microsoft Office Document Imaging 12.0 Type Library的组件,引用来工程中,代码如下:
    MODI.Document md = new MODI.Document();
    try
                    {
                        md.Create(Name);
                        md.OCR(MODI.MiLANGUAGES.miLANG_CHINESE_SIMPLIFIED, true, true);
                        string strText = String.Empty;                    MODI.Image image = (MODI.Image)md.Images[0];
                        MODI.Layout layout = image.Layout;                    for (int i = 0; i < layout.Words.Count; i++)
                        {
                            MODI.Word word = (MODI.Word)layout.Words[i];
                            if (strText.Length > 0)
                            {
                                strText += " ";
                            }
                            strText += word.Text;                    }
                        md.Close(false);
                        OutputText(strText);
                    }
                    catch (Exception ex)
                    {
                        MessageBox.Show(ex.Message);
                    }
    换个关键字找了下,最终用户也遇到和我一样的问题,有个MVP说加SP1可以解决这个问题,我正在下载SP2马上有结果……
      

  2.   

    问题解决了打补丁就可以fix这个trouble
      

  3.   

    http://support.microsoft.com/kb/926198/zh-cn
      

  4.   

    你好,我这边已经安装了Office2003,我这里也有Microsoft Office Document Imaging,我已经打开这个程序,然后我导入我要转成文字格式的PDF文件,但是弹出的窗口却说:请用创建他的文件打开该文件,然后使用Microsoft Office Document Imaging writer 打印该文件?我不知道是缺少什么,是需要安装什么才可以把PDF文件转成word文件,并且是识别文字。