首页> 外国专利> TEACHING LANGUAGE MODELS USING TEXT CORPUSES CONTAINING REALISTIC ERRORS OF OPTICAL CHARACTER RECOGNITION (OCR)

TEACHING LANGUAGE MODELS USING TEXT CORPUSES CONTAINING REALISTIC ERRORS OF OPTICAL CHARACTER RECOGNITION (OCR)

机译：使用包含视觉字符识别（OCR）的实际错误的文本语料库的教学语言模型

页面导航

摘要
著录项
相似文献

摘要

FIELD: data processing.;SUBSTANCE: invention relates to formation of a text corpus containing realistic errors of optical character recognition (OCR), and training of language models using text corpuses. To this end, an example of method implementation includes creation of computer system initial set of images based on input text-containing text corpuses; computer application of one or more simulated defects on images of initial plurality of images to create augmented set of images; forming an output text corpus based on an augmented set of images and training a language model using the obtained text corpus for optical character recognition.;EFFECT: technical result consists in improvement of image recognition quality.;20 cl, 8 dwg

机译：技术领域本发明涉及包含光学字符识别（OCR）的实际错误的文本语料库的形成，以及使用文本语料库对语言模型的训练。为此，方法实现的一个示例包括基于包含输入文本的文本语料库创建计算机系统初始图像集;以及在最初的多个图像的图像上的一个或多个模拟缺陷的计算机应用，以创建增强的图像集;形成基于增强图像集的输出文本语料库，并使用获得的文本语料库训练语言模型以进行光学字符识别。效果：技术成果在于提高图像识别质量。20cl，8 dwg

著录项

公开/公告号RU2721187C1

专利类型
公开/公告日2020-05-18

原文格式PDF
申请/专利权人 OBSHCHESTVO S OGRANICHENNOJ OTVETSTVENNOSTYU ABI PRODAKSHN;
展开▼

申请/专利号RU20190109198
发明设计人 IVAN GERMANOVICH ZAGAYNOV (RU);
展开▼

申请日2019-03-29
分类号G06K9/82;G06N3/08;
国家 RU
入库时间 2022-08-21 11:02:32

相似文献

专利
外文文献
中文文献