我想在一张图片中进行文字识别,请问怎么做。最好有代码解释,如能实现,给500分,少了再给
解决方案 »
- DLL的问题
- 面试题目:如何将两张图片合并成一张,然后再分开?
- 如何访问通过路由器连接的电脑?
- 用VisualC++6.0创建DAO数据库,怎么连接?请您帮我指导一下,非常谢谢您!
- 羽化算法求救!!!!!高分求救!(分数不够可以再给)
- 程序中两个socket,如何判断哪个socket上有数据来了?
- 那位有PowerTCP SNMP Tool Suite,能否给我一份?
- 写一个带界面的DLL被DELPHI调用正常,但DELPHI退出时内存非法操作,请指点.
- 请问:那些情况(比较典型的)要造成程序运行过程中内存资源(系统资源)不断减少?
- 我想作汉化软件的工作?请高手带我入门!
- 网关是有什么用处。不指定还不行。
- ★★现在流行的数据库有许多,比如ACCESS、SQL、ORACLE等,它们各有什么优缺点,各自在什么领域用的比较多呢?★★
一、文字识别概述汉字是历史悠久的中华民族文化的重要结晶,闪烁着中国人民智慧的光芒。汉字数量众多,仅清朝编纂的《康熙字典》就包含了49,000多个汉字,其数量之大,构思之精,为世界文明史所仅有。由于汉字为非字母化、非拼音化的文字,所以在信息技术及计算机技术日益普及的今天,如何将汉字方便、快速地输入到计算机中已成为关系到计算机技术能否在我国真正普及的关键问题。 图1 文字识别的分类由于汉字数量众多,汉字识别问题属于超多类模式集合的分类问题。汉字识别技术可以分为印刷体识别及手写体识别技术。而手写体识别又可以分为联机(on-line)与脱机(off-line)两种。这种划分方法可以用图1来表示。从识别技术的难度来说,手写体识别的难度高于印刷体识别,而在手写体识别中,脱机手写体的难度又远远超过了联机手写体识别。到目前为止,除了脱机手写体数字的识别已有实际应用外,汉字等文字的脱机手写体识别还处在实验室阶段。联机手写体的输入,是依靠电磁式或压电式等手写输入板来完成的。在书写时,笔在板上的运动轨迹(在板上的坐标)被转化为一系列的电信号,电信号可以串行地进入到计算机中。从这些电信号我们可以比较容易地抽取笔划和笔顺的信息。从90年代以来,联机手写体的识别正逐步走向实用,方兴未艾。中国大陆及台湾地区的科研工作者推出了多个联机手写体汉字识别系统,国外的一些大公司也开始进入这一市场。这一技术也迎合了PDA(Personal Digital Assistant)的发展潮流。与脱机手写体和联机手写体识别相比,印刷体汉字识别已经实用化,而且在向更高的性能、更完善的用户界面的方向发展。因为它有着广泛的应用前景。目前,办公自动化已成为信息社会不可避免的发展趋势。虽然在计算机网络飞速发展的今天,许多信息已经电子化,世界各地出现了许多“电子版”的报纸、杂志等出版物。但是我们可以看到印刷材料的数量也大大地增加了,一些专业单位如新闻社、图书馆、古籍出版社、档案馆等所接触的印刷材料更是浩如烟海,毕竟阅读印刷材料更为符合人的自然阅读习惯;同时,网络信息资源的爆炸性增长以及网络传输容量的限制,都是方便、快速地获取这些信息的约束因素。电子化的与印刷文本材料如同一枚硬币的两面,互相补充、互相促进,在未来的十几年或更长的时间内将不会出现一者被另一者取代的情况。二、印刷体文字识别流程简介印刷体文字识别的过程如图2所示。原始图象是通过光电扫描仪,CCD器件或电子传真机等获得的二维图象信号,可以是灰度(Grayscale)或二值(Binary) 图象。为简单计,在本文以后的论述中,除非特别提及,图象输入的方式均指由扫描仪输入。 图2 印刷体文字识别的简单流程图预处理包括对原始图象的去噪、倾斜校正或各种滤波处理。版面分析完成对于文本图象的总体分析,区分出文本段落及排版顺序,图象、表格的区域;对于文本区域将进行识别处理,对于表格区域进行专用的表格分析及识别处理,对于图象区域进行压缩或简单存储。行字切分是将大幅的图象先切割为行,再从图象行中分离出单个字符的过程。特征提取是整个环节中最重要的一环,它是从单个字符图象上提取统计特征或结构特征的过程,包括为此而做的细化(Thinning)、归一化(Normalization)等步骤。提取的特征的稳定性及有效性,直接决定了识别的性能。文字识别即从学习得到的特征库中找到与待识字符相似度最高的字符类的过程。后处理则是利用词义、词频、语法规则或语料库等语言先验知识对识别结果进行校正的过程。由此可见,印刷汉字识别技术主要包括:(1) 扫描输入文本图象。(2) 图象的预处理,包括倾斜校正和滤除干扰噪声等。(3) 图象版面的分析和理解。(4) 图象的行切分和字切分。(5) 基于单字图象的特征选择和提取。(6) 基于单字图象特征的模式分类。(7) 将被分类的模式赋予识别结果。(8) 识别结果的编辑修改后处理。其中(4)、(5)和(6),也就是图2中的阴影部分,是印刷汉字识别中最为核心的技术。近几年来,印刷汉字识别系统的单字识别正确率已经超过95%,为了进一步提高系统的总体识别率,扫描图象、图象的预处理以及识别后处理等方面的技术,也都得到了深入的研究,并取得了长足的进展,有效地提高了印刷汉字识别系统的总体性能。三、印刷体文字识别的研究历程印刷体文字的识别可以说很早就成为人们的梦想,早在1929年,Taushek就在德国获得了一项有关OCR的专利。欧美国家为了将浩如烟海、与日俱增的大量报刊杂志、文件资料和单据报表等文字材料输入计算机进行信息处理,从50年代就开始了西文OCR(Optical Character Recognition,光学字符识别)技术的研究,以便代替人工键盘输入。印刷体汉字的识别最早可以追溯到60年代。1966年,IBM公司的Casey和Nagy发表了第一篇关于印刷体汉字识别的论文,在这篇论文中他们利用简单的模板匹配法识别了1,000个印刷体汉字。70年代以来,日本学者做了许多工作,其中有代表性的系统有1977年东芝综合研究所研制的可以识别2000汉字的单体印刷汉字识别系统;80年代初期,日本武藏野电气研究所研制的可以识别2300个多体汉字的印刷体汉字识别系统,代表了当时汉字识别的最高水平。此外,日本的三洋、松下、理光和富士等公司也有其研制的印刷汉字识别系统。这些系统在方法上,大都采用基于K-L数字变换的匹配方案,使用了大量专用硬件,其设备有的相当于小型机甚至大型机,价格极其昂贵,没有得到广泛应用。我国对印刷汉字识别的研究始于70年代末、80年代初,大致可以分为三大阶段:(1) 第一阶段从70年代末期到80年代末期,主要是算法和方案探索。(2) 第二阶段是90年代初期,中文OCR由实验室走向市场,初步实用。(3) 第三阶段也就是目前,主要是印刷汉字识别技术和系统性能的提高,包括汉英双语混排识别率的提高和稳健性的增强。同国外相比,我国的印刷体汉字识别研究起步较晚。但由于我国政府对汉字自动识别输入的研究从80年代开始给予了充分的重视和支持,经过科研人员十多年的辛勤努力,印刷体汉字识别技术的发展和应用,有了长足进步:从简单的单体识别发展到多种字体混排的多体识别,从中文印刷材料的识别发展到中英混排印刷材料的双语识别。各个系统可以支持简、繁体汉字的识别,解决了多体多字号混排文本的识别问题,对于简单的版面可以进行有效的定量分析,同时汉字识别率已达到了98%以上。清华大学电子工程系、中国科学院计算所智能中心、北京信息工程学院、沈阳自动化研究所等单位分别研制开发出实用化的印刷体汉字识别系统。尤其是由清华大学电子工程系研制的清华TH-OCR产品,始终处于技术与产品发展的最前沿,并占据着最大的市场份额,代表着中文OCR技术发展的潮流。这一成就,是对中华文化宝贵遗产的继承和发扬,在世界电脑发展史上,必将留下光辉的一页,同时,这也是造福子孙千秋万代的大事。国家高技术研究发展“863”计划、国家重点科技攻关计划、国家自然科学基金和军事基础研究基金都对这一研究课题予以极大的重视和大力的支持。四、印刷体文字识别研究方法简介识别方法是整个系统的核心。用于汉字识别的模式识别方法可以大致分为结构模式识别、统计模式识别及两者的结合。下面分别进行介绍。4.1 结构模式识别汉字是一种特殊的模式,其结构虽然比较复杂,但具有相当严格的规律性。换言之,汉字图形含有丰富的结构信息,可以设法提取含有这种信息的结构特征及其组字规律,作为识别汉字的依据,这就是结构模式识别。结构模式识别是早期汉字识别研究的主要方法。其主要出发点是汉字的组成结构。从汉字的构成上讲,汉字是由笔划(点横竖撇捺等)、偏旁部首构成的;还可以认为汉字是由更小的结构基元构成的。由这些结构基元及其相互关系完全可以精确地对汉字加以描述,就像一篇文章由单字、词、短语和句子按语法规律所组成一样。所以这种方法也叫句法模式识别。识别时,利用上述结构信息及句法分析的方法进行识别,类似一个逻辑推理器。用这种方法来描述汉字字形结构在理论上是比较恰当的,其主要优点在于对字体变化的适应性强,区分相似字能力强;但是,在实际应用中,面临的主要问题是抗干扰能力差,因为在实际得到的文本图象中存在着各种干扰,如倾斜,扭曲,断裂,粘连,纸张上的污点,对比度差等等。这些因素直接影响到结构基元的提取,假如结构基元不能准确地得到,后面的推理过程就成了无源之水。此外结构模式识别的描述比较复杂,匹配过程的复杂度因而也较高。所以在印刷体汉字识别领域中,纯结构模式识别方法已经逐渐衰落,句法识别的方法正日益受到挑战。4.2 统计模式识别统计决策论发展较早,理论也较成熟。其要点是提取待识别模式的的一组统计特征,然后按照一定准则所确定的决策函数进行分类判决。汉字的统计模式识别是将字符点阵看作一个整体,其所用的特征是从这个整体上经过大量的统计而得到的。统计特征的特点是抗干扰性强,匹配与分类的算法简单,易于实现。不足之处在于细分能力较弱,区分相似字的能力差一些。常见的统计模式识别方法有:(1) 模板匹配。模板匹配并不需要特征提取过程。字符的图象直接作为特征,与字典中的模板相比,相似度最高的模板类即为识别结果。这种方法简单易行,可以并行处理;但是一个模板只能识别同样大小、同种字体的字符,对于倾斜、笔划变粗变细均无良好的适应能力。(2)利用变换特征的方法。对字符图象进行二进制变换(如Walsh, Hardama变换)或更复杂的变换(如Karhunen-Loeve, Fourier,Cosine,Slant变换等),变换后的特征的维数大大降低。但是这些变换不是旋转不变的,因此对于倾斜变形的字符的识别会有较大的偏差。二进制变换的计算虽然简单,但变换后的特征没有明显的物理意义。K-L变换虽然从最小均方误差角度来说是最佳的,但是运算量太大,难以实用。总之,变换特征的运算复杂度较高
能不能发一份给我,[email protected],谢谢!!!
我现在正要做这个,还一点头绪都没有,能不能法一个道我的信箱里
[email protected], 万分感谢!!!!!!
是我做的
识别率97%