如何提高文字OCR识别正确率?

2019-08-20 19:15:28 文豆高拍仪官网

高拍仪

     OCR即光学字符识别(Optical Character Recognition),是指将图像上的文字转化为计算机可编辑的文字内容,影响其识别正确率的因素居多,但主要取决于文字与背景的对比度和清晰度,简单做如下分析。

     1.二值化:因为彩色图像所含信息量巨大,对于图片的内容,我们可以简单的分为前景与背景,为了让计算机更快的,更好的识别文字,我们需要选择黑白的色彩模式,使图片只有前景信息与背景信息,可以简单的定义为前景信息为黑色,背景信息为白色,这就是二值化图像了(通俗的讲就是白纸黑字,注意白纸是纯白的无底色的)。

     2.噪点去除:要根据实际情况调整相关阀值去除图像噪点,但并非噪点去除的越彻底越好,噪点去除的越彻底对文字也是有损伤的,去除的不到位会出现文字粘连识别率也大大折扣,所以要酌情去除。拍摄时要保证光源充足均匀。

     3.倾斜校正:很多人在拍摄图像时都很随意,认为图像摆放无关紧要,其实不然,摆正的效果是很明显的。

     4.图像质量:尽可能的选择高一些的分辨率来进行拍摄,让其更清晰以保证图像的质量。

     5.分类识别:遇到图文混排的图像,在进行这类拍摄识别时,应分开选择区域识别不可图省事一把抓。

     6.人工校验:时至今日OCR技术虽说较以前有大大提高,但受多方面因素制约仍不能做到百分百正确,对有一些错误还需要人工校正核验。