光學字元辨識

光学字符识别（英語：Optical Character Recognition，OCR）是指对文本资料的图像文件进行分析识别处理，获取文字及版面信息的过程。

可攜式掃描器利用光學字元辨識，將紙本資料紀錄至電腦的過程

过程

输入

对于不同的图像格式，有着不同的存储格式、不同的压缩方式，目前有OpenCV、CxImage等。

前期处理

二值化

如今数码摄像头拍摄的图片，大多数是彩色图像，彩色图像所含信息量巨大，较为不适用于OCR技术。

对于图片的内容，我们可以简单的分为前景与背景，为了让计算机更快的、更好地进行OCR相关计算，我们需要先对彩色图进行处理，使图片只剩下前景信息与背景信息。二值化也可以简单地将其理解为“黑白化”。

图像降噪

对于不同的图像，噪点的定义可能不同，根据噪点的特征进行去噪的过程，稱為降噪。

倾斜校正

由于一般用户，在拍照文档时，难以拍摄得完全符合水平平齐与竖直平齐，因此拍照出来的图片不可避免的产生倾斜，这就需要图像处理软件进行校正。

中期处理

版面分析

将文档图片分段落，分行的过程稱為版面分析，由于实际文档的多样性、复杂性，此步骤目前仍待优化。

字符切割

由于拍照、书写条件的限制，经常造成字符粘连、断笔，直接使用此类图像进行OCR分析将会极大限制OCR性能。因此需要进行字符切割，即：将不同字符之间分割开。

字符识别

早期以模板匹配为主，后期以特征提取为主。由于文字的位移、笔画的粗细、断笔、粘连、旋转等因素的影响，极大地影响特征提取难度。

版面還原

人们希望识别后的文字，仍然像原始文档图片那样排列，段落、位置、顺序不变地输出到Word文档、PDF文档等，这一过程稱為版面还原。

后期处理

根据特定的语言上下文的关系，对识别结果进行校正。

输出

将识别出的字符以某一格式的文本输出。

发展历史

OCR的概念是在1929年由德国科学家Tausheck最先提出来，并申请了专利。^{[來源請求]}后来美国科学家Handel也提出了利用技术对文字进行识别的想法。^{[來源請求]}中国最早的OCR商业应用是由科学家王庆人教授在南开大学开发出来的，并在美国市场投入商业使用。^{[來源請求]}日本在20世纪60年代开始研究OCR识别理论，开发了邮政编码识别系统。^{[來源請求]}

主流实现

CNN+RNN+CTC^[1]
CNN+RNN 基于 Attention ^[2]的方法。

参考来源

^ 存档副本. [2018-02-19]. （原始内容于2018-02-19）.
^ 存档副本 (PDF). [2018-02-19]. （原始内容 (PDF)于2018-03-04）.

[1] 存档副本. [2018-02-19]. （原始内容于2018-02-19）.

[2] 存档副本 (PDF). [2018-02-19]. （原始内容 (PDF)于2018-03-04）.

[1]

[2]

www.wiki2.zh-cn.nina.az

光學字元辨識

目录

过程

输入

前期处理

二值化

图像降噪

倾斜校正

中期处理

版面分析

字符切割

字符识别

版面還原

后期处理

输出

发展历史

主流实现

参考来源

人皇氏

人皮客栈

人类灭绝之后的动物

人类生活

人类世

人类阴茎长度

人總科

人來瘋

人中之龍系列

人中之龍0

HMD

HMD Global

HM稅務海關總署

HOLY SHiTS

HONEY (SCANDAL專輯)

文章