OCR(Optical Character Recognition/光学字符识别)

明亮 posted @ 2011年3月27日 11:34 in 【科学综合】 , 4212 阅读

本文发表于：http://fml927.is-programmer.com

miniOCR软件免费的图像文字识别软件：http://www.xdowns.com/soft/softdown.asp?softid=28674

GNU开源OCR系统：http://www.gnu.org/software/ocrad/ocrad.html

汉王 PDF OCR V8.1简体中文版：http://xiazai.zol.com.cn/detail/34/335364.shtml

OCR是英文Optical Character Recognition的缩写，意思是光学字符识别，也可简单地称为文字识别，是文字自动输入的一种方法。它通过扫描和摄像等光学输入方式获取纸张上的文字图像信息，利用各种模式识别算法分析文字形态特征，判断出汉字的标准编码，并按通用格式存储在文本文件中，所以，OCR是一种非常快捷、省力的文字输入方式，也是在文字量比较大的今天，很受人们欢迎的一种输入方式。
OCR的发展简况
OCR的概念是在1929年由德国科学家Tausheck最先提出来的，后来美国科学家Handel也提出了利用技术对文字进行识别的想法。而最早对印刷体汉字识别进行研究的是IBM公司的Casey和Nagy，1966年他们发表了第一篇关于汉字识别的文章，采用了模板匹配法识别了1000个印刷体汉字。
20世纪70年代初，日本的学者开始研究汉字识别，并做了大量的工作。我国研究汉字识别的起步比较晚，20世纪70年代末才开始进行OCR的研究工作。早期的OCR软件，由于识别率及产品化等多方面的因素，未能达到实际要求。同时，由于硬件设备成本高，运行速度慢，也没有达到实用的程度。只有个别部门，如信息部门、新闻出版单位等使用OCR软件。1986年以后我国的OCR研究有了很大进展，在汉字建模和识别方法上都有所创新，在系统研制和开发应用中都取得了丰硕的成果，不少单位相继推出了中文OCR产品。进入20世纪90年代以后，随着平台式扫描仪的广泛应用，以及我国信息自动化和办公自动化的普及，大大推动了OCR技术的进一步发展，使OCR的识别正确率、识别速度满足了广大用户的要求。
目前，比较流行的OCR软件很多，英文OCR主要有OmniPage，中文OCR主要有清华紫光OCR、清华文通OCR、汉王OCR、中晶尚书OCR、丹青OCR、蒙恬OCR等。尽管汉字字量大、字形复杂，但OCR技术已经走向成熟。许多OCR软件不仅能识别黑白印刷体汉字，还能识别灰度和彩色印刷体汉字，识别速度很快，识别正确率达到了99％以上；可识别宋体、黑体、楷体等多种字体的简、繁体；可对多种字体、不同字号的混排进行识别；有些OCR软件还能识别图像、表格。与此同时，对于手写体汉字识别的研究也取得了很大进展，正确识别率已达到了70％以上。
OCR软件的应用
在扫描仪市场上，许多类型的办公和家用扫描仪均配有OCR软件，如紫光的扫描仪配备了紫光OCR，中晶的扫描仪配备了尚书OCR，Mustek的扫描仪配备了丹青OCR等。扫描仪与OCR软件共同承担着从文稿的输入到文字识别的全过程。
文稿扫描在办公领域中经常用到，即将报纸、杂志等媒体上刊载的有关文稿通过扫描仪进行扫描，随后进行OCR识别，或存储成图像文件，留待以后进行OCR识别，将图像文件转换成文本文件或Word文件进行存储。
此外，数字化信息的存储、传输、不仅成本低、效率高，而且能够适应排版，网络传输等不断发展的需要。目前我国有很多历史遗留下来的大量图书、报刊、杂志等纸质珍品，急需将其转换成电子信息。如电子图书馆的建立，就需要将图书逐页扫描，加上OCR软件的识别，更替代了人工键入文字的工作，大大缩短了录入时间，减轻了劳动强度，节省了人力且降低了费用，提高了录入正确率、工作效率和现代办公自动化程度。
目前OCR软件与扫描仪的搭配已应用到信息化时代的多个领域，如数字化图书馆，各种报表的识别，以及银行、税务系统票据的识别等。随着网络化、信息化的发展与普及，其应用范围将越来越广泛。
OCR系统的组成
汉字识别软件OCR的功能是将各种录入汉字、印刷体或手写体中每个汉字的图形或图像通过计算机辨认出来，并标出汉字类别代码。因此，汉字识别归根结底是一个图像识别问题。由于汉字信息量很大，具有不同的字形、字体，而且结构复杂，因此汉字识别的过程极其复杂。
由于扫描仪的普及与广泛应用，OCR软件只需提供与扫描仪的接口，利用扫描仪驱动软件即可。因此，OCR软件主要是由图像处理模块、版面划分模块、文字识别模块和文字编辑模块等4部分组成。
1、图像处理模块
图像处理模块主要具有文稿扫描、图像缩放、图像旋转等功能。通过扫描仪输入后，文稿形成图像文件，图像处理模块可对图像进行放大，去除污点和划痕，如果图像放置不正，可以手工或自动旋转图像，目的是为文字识别创造更好的条件，使识别率更高。
2、版面划分模块
版面划分模块主要包括版面划分、更改划分，即对版面的理解、字切分、归一化等，可选择自动或手动两种版面划分方式。目的是告诉OCR软件将同一版面的文章、表格等分开，以便于分别处理，并按照怎样的顺序进行识别。
3、文字识别模块
文字识别模块是OCR软件的核心部分，文字识别模块主要对输入的汉字进行"阅读"，但不能一目多行，必须逐行切割，对于汉字通常也是一个字一个字地辨认，即单字识别，再进行归一化。文字识别模块通过对不同样本汉字的特征进行提取，完成识别，自动查找可疑字，具有前后联想等功能。
4、文字编辑模块
文字编辑模块主要对OCR识别后的文字进行修改、编辑，如系统识别认为有误，则文字会以醒目的红色或蓝色显示，并提供相似的文字供选择，选择编辑器供输出等。
OCR软件的使用方法
OCR软件的种类虽然很多，但其使用方法大同小异。首先要对文稿进行扫描，然后进行OCR识别。OCR软件的使用方法如下：
1、文稿扫描
为了利用OCR软件进行文字识别，可直接在OCR软件中扫描文稿。运行OCR软件后，会出现OCR软件界面。
将要扫描的文稿放在扫描仪的玻璃面上，使要扫描的一面朝向扫描仪的玻璃面并让文稿的上端朝下，与标尺边缘对齐，再将扫描仪盖上，即可准备扫描。点击视窗中的"扫描"键，即可进入扫描驱动软件进行扫描，有关扫描方法这里不再赘述。但应注意的是：分辨力可设置在200～400dpi，对于文本文档，调整亮度适中很关键。扫描后的文档图像出现在OCR软件视窗中。
2、OCR识别
为了便于操作，可从菜单中选择选项，各种图标出现在视窗的左边。
为了更好使用，首先从上到下介绍画面左边的图标：
"放大"工具：用于放大图像；"缩小"工具：用于缩小图像；"设定识别区域"工具：用于设定识别区域；"设定识别顺序"工具：用于设定识别顺序；"删除识别区域"工具：用于删除识别区域；"擦除图像杂点"工具：用于擦除图像中的杂点；"擦拭图像块"工具：用于擦除图像中的某一区域；"旋转图像"工具：用于将图像旋转90°、180°或270°；"倾斜校正"工具：用于手动图像倾斜校正。
OCR识别的一般步骤：
(1)文稿扫描后，刚开始出现在视窗中的要识别的文字画面很小，首先选择"放大"工具，对画面进行适当放大，以使画面看得更清楚。必要时还可以选择"缩小"工具，将画面适当缩小。
(2)如果画面需要旋转90°，180°或270°，可使用"旋转图像"工具旋转图像。如果文字画面倾斜，可选择"倾斜校正"工具，将画面调正。
(3)识别时选择"设定识别区域"工具，在文字画面上框出要识别的区域，这时也可根据画面情况框出多个区域。如果所框区域有误，则可使用"删除识别区域"工具，删除所选识别区域。
(4)为了提高识别率，如果所选识别区有杂点或有不能识别的图像，则可选择"擦除图像杂点"工具，将杂点一点一点地擦除。如果需要成片地擦除，则可选择"擦拭图像块"工具。
(5)点击"识别"图标，则OCR显示正在进行文字切分，然后转入"正在识别"画面，将识别的文字逐步显示出来，"文稿校对"窗口。
许多OCR软件都具有文字修改功能，被识别出可能有错误的文字，用比较鲜明的颜色显示出来，并且可以进行修改。
(6)将识别后的文件存储成文本(TXT)文件或Word的RTF文件。

      在最近几年中，OCR识别技术随着扫描仪的普及得到了飞速的发展，扫描、识别软件的性能不断强大并向智能化不断升级发展。 
      OCR是英文Optical Character Recognition的缩写，意思为光学字符识别，通称为文字识别，它的工作原理为通过扫描仪或数码相机等光学输入设备获取纸张上的文字图片信息，利用各种模式识别算法分析文字形态特征，判断出汉字的标准编码，并按通用格式存储在文本文件中，由此可以看出，OCR实际上是让计算机认字，实现文字自动输入。它是一种快捷、省力、高效的文字输入方法。 
       汉王OCR 是针对机关单位、企业及有文字录入需求的个人用户，在日常的工作中，快速的对书刊、报纸、公文、宣传页等印刷稿件中内容进行录入的应用需求而推出的。本产品集成了汉王科技顶尖的文字识别技术，对印刷文稿录入的识别率高达99.5%，能够识别百余种印刷字体和各种中英繁表图混排格式的文本，。是理想的文字、表格、图像录入系统。
      这样一来，就不用再手工输入大量的资料了，只要扫进去，像那种抓英文的工具一样，让软件自动地转成WORD文档。即可将图片变成可编辑的文挡格式。这是目前破解最完美的汉王OCR软件。
http://down.x6x8.com/soft/6/64/245.html

清华紫光文通 TH-OCR 9.0 光盘完全特别版
把破解补丁放到安装目录下，运行破解补丁，确定，OK！
TH-OCR简介 
　　OCR是英文Optical Character Recognition的缩写，意思为光学字符识别，通称为文字识别，它的工作原理为通过扫描仪或数码相机等光学输入设备获取纸张上的文字图片信息，利用各种模式识别算法分析文字形态特征，判断出汉字的标准编码，并按通用格式存储在文本文件中，由此可以看出，OCR实际上是让计算机认字，实现文字自动输入。它是一种快捷、省力、高效的文字输入方法。
　　TH-OCR是清华大学自1985年就开始研发的，TH是TsingHua（清华）的缩写，TH-OCR代表北京清华紫光文通信息技术有限公司开发的OCR软件。在国家“863”计划支持下，持续了十多年的科研成果，从1.0版本开始已经升级到现在的9.0版本。独家真正实现了汉英混排同时识别，在国际上首次突破了OCR产品只能处理汉字或英文单一文字的局限性，新增了东方文字（简繁汉、日文、韩文）识别功能，对日文和韩文与英文混排文档的识别水平甚至超过日本和韩国对本国文字的识别水平，在国内、外产生了重大的影响，并连续3年被中国软件行业协会评为优秀软件产品，成为汉字输入技术的一座里程碑。TH-OCR9.0版本已应用到了包括电子政务、电子出版物、报社、银行、邮政、税务、图书馆等多个领域，成为国内OCR市场的先锋。
　　本届两会代表的所有提案全部采用了我国自主知识产权的世界识别领域领先产品——清华紫光文通的TH-OCR9.0进行录入识别，它以准确的识别率、优异的识别速度博得了两会工作人员的交口称赞。而清华TH-OCR技术在两会上的成功应用更论证了我国也完全有实力拥有自己的卓越技术。

TH-OCR的突出特点：
◇ 汉英双语同时混排，识别率最高，居世界领先水平。　　
◇ 可以识别黑白、灰度、彩色图像，可以读取多种图像格式。
◇ 首创对识别结果进行电子文档版面复原功能，所见即所得。
◇ 首创日文、韩文、日英混排、韩英混排识别功能，识别率98%以上。

TH-OCR的六大优势： 
1. 是唯一可以识别２万多汉字的多体文字识别系统，汉字识别国内最优。
2. 汉字和英文混排、日文和英文混排、韩文和英文混排同时识别。
3. 汉字识别率最高。清华紫光文通TH-OCR经过"863"智能专家组对数十万字的指标评测和中国软件评测中心对产品的严格测试，识别正确率超过99.5％，代表了目前印刷体文字识别的最高水平。
4. 支持多种环境接口。清华紫光文通TH-OCR支持WINDOWS环境和GB、BIG5、GBK、JIS、 SHIFT-JIS和KSC等多种内码，可以用于 WINDOWS NT和WINDOWS 98/2000/XP，适合全球各个地区使用。TH-OCR还具有自学习功能，不论什么生僻字，都可以通过键盘输入进行学习，大大拓宽了OCR系统的识别字符集。
5. 历次国内鉴定均被中国科学院院土和中国工程院院土等专家组成的鉴定委员会评定为“具有世界领先水平”。 

广泛的社会认可：
1、 多年来为众多著名的扫描仪厂商HP、UNISCAN、EPSON、CANON、 LENOVO等提供TH－OCR普及版作为其扫描仪的捆绑软件。
2、美国MICROSOFT公司将TH-OCR作为东方文字识别捆绑到WINXP 操作系统中。
3、美国MOTOROLA公司确定TH-OCR的部分技术使用权。
4、美国INTEL公司确定TH-OCR为最新的MMX技术支持项目。
5、《计算机世界》市场调查结果，清华紫光文通TH-OCR市场占有率达65％以上。
6、《中国计算机报》 CIWLAB组织的用户调查认为， TH-OCR是一个性能极好的系统，是一个值得用户信赖的系统（对其他品牌OCR评价为：“是值得用户选择的产品”）。
http://down.x6x8.com/soft/6/64/247.html

尚书7号OCR文字识别系统完全版 Shocr7.0
本软件系统是应用OCR（Optical Character Recognition）技术，为满足书籍、报刊杂志、报表票据、公文档案等录入需求而设计的软件系统。目前，许多信息资料需要转化成电子文档以便于各种应用及管理，但因信息数字化处理的方式落后，不但费时费力，而且资金耗费巨大，造成了大量文档资料的积压，因此急需一种快速高效的软件系统来满足这种海量录入需求。本软件系统正是适用于个人、小型图书馆、小型档案馆、小型企业进行大规模文档输入、图书翻印、大量资料电子化的软件系统。 
●识别字符 
简体字符集：国标GB2312-80的全部一、二级汉字6800多个。纯英文字符集。 
简繁字集：除了简体汉字外，还可以混识台湾繁体字5400多个以及香港繁体字和GBK汉字。 
●识别字体种类 
能识别宋体、仿宋、楷、黑、魏碑、隶书、圆体、行楷等一百多种字体，并支持多种字体混排 。 
● 识别字号 
初号 小六号字体。 
●表格识别 
可以自动判断、拆分、识别和还原各种通用型印刷体表格。 
●可支持繁体WINDOWS系统 
首先，尚书七号开始将整个OCR的过程，明确化了，通过程序的菜单，我们就能够知道整个OCR的过程，主要分为：“文件”、“编辑”、“识别”、“输出”等步骤。在文件菜单中，您可以调用扫描仪，或者选择将已经扫描好的图像文件打开。得到图像文件后，用户开始的工作，就是“编辑“菜单里面所提示的：图像页面的处理，其中包括图像页的倾斜校正（提供自动和手动实现方法），旋转等功能。处理完毕后，就可以进入“识别过程”，该过程关键的是“版面分析”，现在尚书七号的自动版面分析功能很强，面对报纸杂志等复杂情况的版面，也是分析的正确率很高。不再需要我们在尚书六号里面那样的建议手工划识别范围。也正是这点，大大降低了使用者的工作量。为了方便，“识别”菜单下，也提供了用户自己在自动版面分析后，通过修改识别范围框的属性，来决定需要识别否的功能（默认的情况下，图象属性的栏目是不用识别的。当然，如果用户还是习惯原来尚书六号那样，自己来设定识别区域，只要直接用鼠标划框就可以了。接下来，用户就可以直接选择“开始识别”的按钮了，等待识别的结果。
http://down.x6x8.com/soft/6/64/246.html

丹青中英日文OCR辩识 白金版 4.5
安装序列号：MXRD450-7DMN-MM7M-CFCB

功能简介 
原文重现 尽在瞬间
◎提供繁中、简中和日文三种操作介面
◎可辨识繁中、简中、英文及日文四种文件
◎辨识后的文件可储存成各种常用档案格式再编辑
◎超高辨识速率及辨识率再提升，快速原文重现各式文件 
产品说明 
影像扫瞄
1. 可处理彩色、灰阶或黑白的文件影像。
2. 倾斜校正：自动侦测文件影像倾斜角度，并提供旋转影像之功能。 
辨识文件
< 文件分析及辨识 >
1. 自动辨识：轻按一钮，即可自动分析、辨识、校对影像文件，图文分离，并转换成可编辑的文件档案。 
2. 设定辨识字集：不需切换语文环境，即可辨识繁中、简中、纯英文及日文四种文件。 
3. 高辨识速率：在Pentium III 667MHz个人电脑环境下，每秒钟能辨识高达150个中文字。 
4. 多种字体辨识及重现：能够辨识多种印刷字体，如明体、黑体、仿宋体、楷书、圆体、隶书等，并在辨识后还原成原稿的字体。 
5. 原文重现编辑环境：可辨识各种表格及影像，辨识结果依照原文件的图文版面格式呈现，方便您校对、编辑，节省重新排版的时间。 
< 自动校对与学习 >
1. 再辨识功能：提供合/分字、合/分行、合/分区块、变更区块属性等再辨识功能，让您能够修正错误的辨识结果。 
2. 学习新字功能：可将易辨识错误的字元输入到学习资料库中，提高下次辨识之正确率。 
3. 候选字功能：提供原文影像供辨识后图文作校对,且针对型态相近之文字及语意上前后相连的字词提供候选字轻松更正辨识错误的文字。 
4. 自动校对：利用内建的常用词库自动校对辨识出的文字，并标示出辨识时所碰到的疑问字，节省您校对的时间。 
输出档案
1. 传送至其他应用软体：可将辨识结果直接传送至您所指定的应用软体中再处理，例如可设定辨识结果自动储存成HTML档案并直接传送至网路浏览器中。 
2. 可储存多种档案格式：辨识后的结果可储存成不同之档案格式，如TXT、RTF、DOC、XLS、SLK、CSV、HTML等，方便您做不同的应用与处理。
http://down.x6x8.com/soft/6/64/248.html

相关文章
全局相关文章

无匹配

无匹配

Feng Mingliang's Blog, a programmer.

对嵌入式乐此不疲的程序员...

文章分类

自己的收藏

明亮

链接

RSS

OCR(Optical Character Recognition/光学字符识别)