首页> 中国专利> 使用移动设备系统的数字图像存档和检索

使用移动设备系统的数字图像存档和检索

摘要

公开了一种管理信息的计算机实现的方法。该方法能够包括从被配置成连接到移动设备网络的移动设备接收消息(该消息包括通过该移动设备拍摄的数字图像,并且包括对应于词的信息),使用光学字符识别从该数字图像信息确定词,基于该词索引该数字图像,以及存储该数字图像用于后来的基于一个或多个接收到的搜索词语的对数字图像的检索。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-02-16

    专利权人的姓名或者名称、地址的变更 IPC(主分类):G06F17/30 变更前: 变更后: 申请日:20071128

    专利权人的姓名或者名称、地址的变更

  • 2012-04-11

    授权

    授权

  • 2010-01-20

    实质审查的生效

    实质审查的生效

  • 2009-11-25

    公开

    公开

说明书

背景技术

本说明书讨论信息组织系统和方法,并且更具体地,讨论与文档 的自动化存档和检索相关的特征。

在每天的生活中,人们频繁地接收带有可能重要或不重要、以后 可能需要或不需要的信息的物理文档。例如,经常在一天中接收到凭 条和名片,而接受者经常不确定是否要保存这种文档以及要保存多长 时间。这种文档能够被物理地保存或扫描用于在计算上存储。不管怎 样,该保存的文档通常在没有任何存档元信息的情况下被随便放在某 个位置(例如,随便放进抽屉或文件夹),或者人们必须有意地将存 档元信息与文档关联(例如,通过根据某个备案系统将文档放置在特 定的文件夹中,或者通过录入信息来与计算机上保存的文档关联)。

发明内容

该说明书描述了涉及文档存档的方法和系统。这些方法和系统允 许用户存储并且容易地检索物理文档的数字表示。能够使用光学字符 识别(OCR)技术来处理物理文档的数字图像,并且随后被索引并且 存储,用于后来的检索。能够将图像获取、OCR处理和图像存档组合 进端对端系统中,它能够促进每天的生活中所遇到的无数文档(例如, 凭条、名片、医生的处方、票据、合同等)的管理,并且在一些实现 中,该系统的用户仅需要拍摄照片来触发文档存档过程。

系统的用户能够容易地存档文档的数字图像(和将文档丢进抽屉 一样简单和随意),并且还能够使用关键字搜索来容易地检索数字图 像。安装在蜂窝电话中的数字照相机能够被用来捕捉图像,并且OCR 技术能够被用来从这些图像识别并且提取相关的关键字,以允许后来 的有效搜索。能够从移动设备直接将获取的文档图像传递到后端系统 (例如,移动网关和电子邮件服务器)。系统用户无需将图像从移动 设备下载到个人计算机来存档和存储该图像,因此使得图像存档对用 户而言是个简单的过程。此外,还能够使用增强的OCR技术来处理较 低分辨率的图像,增强的OCR技术包括各种预处理和后处理操作。因 此,在每天的生活中所遇到的无数文档能够被容易地数字化、组织、 迅速而有效地存储和检索。

一般来说,本说明书中所描述的主题的一方面能够被实现为一种 计算机实现的方法,该方法包括:从被配置成连接到移动设备网络的 移动设备接收消息,该移动设备包括数字照相机,并且该消息包括由 数字照相机所拍摄的数字图像并且包括对应于词(word)的信息;使 用光学字符识别从数字图像信息确定词;基于该词索引数字图像;以 及存储该数字图像,用于后来的基于一个或多个接收到的搜索词语的 对数字图像的检索。该方法能够进一步包括接收一个或多个搜索词语; 以及基于该一个或多个搜索词语检索数字图像。

该方法能够包括验证移动设备(例如,基于移动电话号码和/或与 接收到的数字图像相关联的信息)。接收消息能够包括接收附有数字 图像的电子邮件消息;并且该方法能够包括向电子邮件消息添加词以 及对应于移动设备的预定义标签中的至少一个;并且能够在电子邮件 系统中执行确定、索引和存储。

接收数字图像能够包括接收响应于到数字照相机的单个输入而对 单个物体拍摄的至少两个数字图像;并且确定词能够包括对该至少两 个数字图像执行关联(correlative)光学字符识别以找到词。确定词能 够包括以多比例(scale)执行光学字符识别。

该方法能够包括预处理数字图像以改善光学字符识别。该预处理 能够包括通过最小化数字图像中所表示的文档的左右页边空白 (margin)的位置差异来识别用于该数字图像的二值化阈值。该预处理 能够包括通过迭代地获取在较低分辨率的邻近像素的灰度级的加权组 合来获得较高分辨率像素的灰度级。

该方法能够包括后处理词以识别并且纠正由光学字符识别引起的 常见字符误识别。接收消息能够包括接收用于在数字图像中所表示的 文档的类型指示,并且后处理能够包括根据用于该文档的类型指示在 至少两个基于词典的语言模型之间选择,并且根据选择的基于词典的 语言模型来对词进行后处理。此外,接收类型指示能够包括接收消息 中用户指定的分类,该用户指定的分类选自包括名片和信用卡凭条的 组。

该方面的其它实施例包括对应的系统、装置以及一个或多个计算 机程序产品,即,编码在计算机可读介质上的计算机程序指令的一个 或多个模块,用于由数据处理装置执行或用以控制数据处理装置的操 作。

该说明书中所描述的主题的一方面能够被实现为一种系统,该系 统包括:移动设备网络;多个移动设备,该移动设备被配置成拍摄数 字图像、连接到该移动设备网络、以及通过该移动设备网络传送该数 字图像;一个或多个计算机,该计算机被配置成从移动设备接收数字 图像、应用光学字符识别以从该数字图像提取词、基于该提取的词索 引数字图像、以及存储该数字图像用于后来的基于接收到的搜索词语 的检索。该一个或多个计算机能够包括第一后端组件和第二后端组件, 该第一后端组件被配置成接收该数字图像、验证移动设备以及应用光 学字符识别,并且该第二后端组件被配置成索引该数字图像并且存储 数字图像。该第二后端组件能够包括电子邮件系统。

移动设备能够包括移动电话,并且该移动设备网络能够包括移动 电话网络。该一个或多个计算机能够包括个人计算机。该一个或多个 计算机能够包括搜索装置。该一个或多个计算机能够被配置成基于与 该移动设备相关联的移动电话号码来验证该移动设备。

该一个或多个计算机能够被配置成接收搜索词语,并且基于该搜 索词语检索数字图像。该一个或多个计算机能够被配置成,向包括该 数字图像的消息添加提取的词和预定义的标签。该一个或多个计算机 能够被配置成执行关联光学字符识别。该一个或多个计算机能够被配 置成以多比例执行光学字符识别。

该一个或多个计算机能够被配置成预处理数字图像以改善光学字 符识别,并且后处理提取的词来识别并且纠正由光学字符识别引起的 常见字符误识别。该一个或多个计算机能够被配置成,通过最小化数 字图像中所表示的文档的左右页边空白的位置差异来识别用于该数字 图像的二值化阈值。该一个或多个计算机能够被配置成,通过迭代地 获取在较低分辨率的邻近像素的灰度级的加权组合来获得较高分辨率 像素的灰度级。

该一个或多个计算机能够被配置成,连同数字图像一起接收文档 类型的指示、根据文档类型的指示在至少两个基于词典的语言模型之 间选择,并且根据选择的基于词典的语言模型来对提取的词进行后处 理。此外,文档类型的指示能够包括从包括名片和信用卡凭条的组中 选择的用户指定的分类。

该说明书中所描述的主题的一方面能够被实现为一种系统,该系 统包括:移动设备网络,该移动设备网络被配置成传送数字图像;服 务器环境,该服务器环境被配置成通过计算机网络提供电子搜索服务; 以及用于连接该移动设备网络与服务器环境的装置,该用于连接的装 置包括用于应用光学字符识别以从该数字图像提取词的装置和用于经 由该计算机网络向用于数字图像的电子搜索服务的服务器环境提供该 提取的词和该数字图像的装置。该用于连接的装置能够包括用于验证 在移动设备网络中的移动设备的装置。该用于提供的装置能够包括用 于向包括该数字图像的消息添加提取的词和预定义的标签的装置。

该用于应用的装置能够包括用于执行关联光学字符识别的装置。 该用于应用的装置能够包括用于以多比例执行该光学字符识别的装 置。该用于应用的装置能够包括用于预处理该数字图像以改善该光学 字符识别的装置,以及用于后处理提取的词以识别并且纠正由光学字 符识别引起的常见字符误识别的装置。

该用于应用的装置能够包括用于通过最小化数字图像中所表示的 文档的左右页边空白的位置差异来识别用于该数字图像的二值化阈值 的装置。该用于应用的装置能够包括通过迭代地获取在较低分辨率的 邻近像素的灰度级的加权组合来获得较高分辨率像素的灰度级的装 置。该用于应用的装置能够包括用于根据接收到的文档类型的指示在 至少两个基于词典的语言模型之间选择的装置,以及用于根据选择的 基于词典的语言模型来对该提取的词进行后处理的装置。此外,文档 类型的指示能够包括从包括名片和信用卡凭条的组中选择的用户指定 的分类。

在以下的附图和描述中阐述了本发明的一个或多个实施例的细 节。从描述和附图以及从权利要求,本发明的其它特征、目标和优点 将显而易见。

附图说明

图1是示例性数字图像存档系统的示意图。

图2是存档和检索数字图像的示例性方法的流程图。

图3是增强的光学字符识别的示例性方法的流程图。

图4是通用计算机系统的示例的示意图。

具体实施方式

图1是示例性数字图像存档系统100的示意图。该系统100包括 通过移动设备网络120(例如,专用蜂窝电话网络或无线电子邮件网络) 通信的多个移动设备110(例如,蜂窝电话或个人数字助理(PDA))。 该设备110在它们能够使用无线传输(短程、中程或远程)进行通信 的意义上来说是移动的。然而,移动设备110还能够包括用于有线通 信的连接器(例如,通用串行总线(USB)连接器)。

移动设备110被配置成拍摄数字图像。因此,移动设备110包括 数字照相机112。数字照相机112能够被安装在具有其它功能的设备中 (例如,安装有照相机的移动电话或PDA),或者移动设备110能够 是数字照相机112,它也具有无线通信的能力。

移动设备110能够被用以拍摄物理文档105的一个或多个数字图 像132。该文档105能够是包括一个或多个词的任何物理文档。例如, 文档105能够是名片、ATM(自动柜员机)凭条、信用卡购买凭条、 医生的处方、旅行票据(例如,飞机票或火车票)、合同、信件、杂 志中看到的食谱等。更一般地,文档105无需是纸件文档。文档105 能够是一个人可能需要针对其存档的并且可检索的数字图像的带有词 的任何物理物品,例如,路标、张贴的公告、丢失宠物标记、T恤等。 注意,如这里所使用的术语“词”包括能够使用光学字符识别技术来 识别的所有方式的文本信息,并且能够将多个符号组合在一起并且由 系统看作是单个“词”,而不考虑间隔空白。

数字图像132能够在消息130中被发送到第一后端组件150。消 息130能够是包括数字图像132的多媒体消息规范(MMS)消息。其 它的消息格式也是可能的。例如,消息130能够是电子邮件消息。

第一后端组件150能够通过诸如因特网的另一个网络140连接到 移动设备网络120。替选地,该第一后端组件150能够直接连接到移动 网络120,或者被包括在移动网络120内。例如,第一后端组件150能 够是被用以在接受数字图像132用于存档之前验证蜂窝电话110的移 动网关。

第一后端组件150能够包括被配置成验证移动设备110的验证引 擎152,以及被配置成对数字图像132应用光学字符识别的OCR引擎 154。第一后端组件150能够生成要添加到消息130的索引信息134(例 如,通过将信息添加到电子邮件消息的主题行),从而将索引信息134 与数字图像132相关联。

该索引信息134包括使用光学字符识别在文档图像132中识别的 一个或多个词。该索引消息134还能够包括附加信息,诸如预定义的 标签、文档类型信息和系统状态信息。该预定义的标签能够对应于移 动设备(例如,源移动电话号码)、与移动设备的图像存档特征相关 联的功能名称(例如,用于“个人图像容器”的“PIC”能够是在移动 设备的用户界面中使用来识别图像存档功能的标签),或者对应于二 者。文档类型信息能够指示文档的性质(例如,名片对信用卡凭条), 并且能够由用户来输入(例如,通过从移动设备的用户界面上的菜单 来选择)或被自动地确定(例如,基于数字图像132中所表示的文档 的相对垂直和水平尺寸)。

系统状态信息能够包括诸如图像获取、传输、接收或它们的组合 的时间和日期(例如,时间戳)的信息。还能够包括另外的系统状态 信息,诸如在图像获取、传输、接收或它们的组合时移动设备的地理 位置。

第一后端组件150能够将包括有索引信息134的消息130发送到 第二后端组件160。第二后端组件160能够通过诸如因特网的另一个网 络140连接到移动设备网络120。替选地,第二后端组件160能够直接 连接到移动网络120,或者被包括在移动网络120内。

第二后端组件160能够包括索引引擎162和检索引擎164。索引 引擎162能够基于索引信息134存档文档图像132。检索引擎164能够 基于从网络设备170接收到的一个或多个搜索词语来取得文档图像 132,用于向网络设备170传递。网络设备170能够连接到移动设备网 络或附加网络140。网络设备170可以是移动设备110或其它机器。例 如,网络设备170能够是连接到因特网并且运行Web浏览器的个人计 算机。

应理解,图1中示出的示例性系统100能够以多种不同的方式来 实现,并且所示出的可操作组件的特定划分不是用于限制,而仅仅作 为示例来呈现。如这里所使用的术语“后端组件”包括传统的后端组 件(例如,数据服务器)和中间件组件(例如,应用服务器)二者。 一般来说,能够使用在一个或多个位置中的一个或多个服务器,即服 务器环境,来实现第一和第二后端组件150和160。例如,第一和第二 后端组件150和160能够是在诸如由加利福尼亚山景城的Google公司 提供的GMAILTM系统的公共可接入电子邮件系统中的服务器机器。

另外,应理解,消息130能够使其格式在系统100的各种组件之 间修改,并且因此,在每个阶段可以被认为是为单独的消息。例如, 从移动设备110接收的消息能够是MMS格式,从第一后端组件150接 收的消息能够是在第一和第二组件150和160之间所使用的专用消息 格式,并且最后由网络设备170从第二后端组件160接收的消息能够 是超文本标记语言(HTML)格式。

无论所使用的格式和组件配置如何,系统100将移动设备110、 移动设备网络120和后端组件150和160集成为用于移动设备110的 用户的一个服务。因此,例如,用户能够用他们的蜂窝电话拍摄照片 并且将图像发电子邮件(或作为MMS发送)到他们的电子邮件账户, 其中图像被自动地OCR处理和索引。然后,用户能够使用电子邮件系 统的用户界面来访问和搜索图像。

图2是存档和检索数字图像的示例性方法200的流程图。从具有 数字照相机的移动设备接收210消息。移动设备能够是蜂窝电话,用 户已经在电子邮件系统中通过他们的账户为该蜂窝电话注册了蜂窝电 话号码,并且消息能够是从蜂窝电话发送的电子邮件(例如,到已知 的电子邮件地址,诸如archive@google.com)或者是发送到电子邮件系 统简码的MMS(例如,利用指示存档服务的关键字)。来自移动设备 的消息包括由数字照相机拍摄的一个或多个数字图像,并且该数字图 像包括对应于词的信息(即,视觉地表示文档文本的图像数据)。

能够基于接收到的消息验证220移动设备。例如,移动网关或电 子邮件系统能够基于之前使用的鉴权和关联机制来验证蜂窝电话。用 户账户能够绑定到电话号码,并且鉴权和关联机制能够如下操作。用 户能够通过在网站(例如,电子邮件系统的网站)填写表格指定用户 的移动设备号码来发起绑定。自动化的系统能够处理该表格并且向进 行Web请求的用户移动设备发送SMS(短消息服务)消息连同随机生 成的字符串。然后,用户能够在Web上或者通过从相同的移动设备发 送回的SMS来验证该字符串。只有该移动设备属于该用户时,用户才 能知道该字符串。替选地,用户能够替代地从移动设备发起该绑定, 从移动设备将消息发送到带有与用户相关联的识别符(例如,如由网 站所指派的)的适当号码或简码。用户的账户接收带有字符串的消息, 以被类似地验证。

使用光学字符识别从数字图像信息确定230词。这能涉及确定图 像中的所有词或者仅提取相关的关键字。例如,能够忽略非常常见的 词,诸如“a(一)”和“the(该)”,而词典中较不经常出现的词能够被 排名为更可能相关。这能够涉及如Web搜索技术中所使用的简单地除 去停用字(stopword)(例如,“and(和)”、“for(用于)”、“a(一)”、 “the(该)”等)的传统技术。这还能够涉及将一些词主动地识别为可 能更加相关,诸如识别可能表示人、地点、公司等的专有名词或命名 的实体(例如,“John(约翰)”、“San Diego(圣地亚哥)”、“Barnes & Noble(巴诺书店)”等)。在一些实现中,能够识别所有的词,并且 后端处的处理引擎(例如,索引引擎)能够处理相关词和非相关词之 间的辨别。

在一些实现中,消息能够包括相同文档的至少两个图像,并且能 够通过对该至少两个数字图像执行关联光学字符识别来找到词而确定 词。例如,两个数字图像能够由用户来单独地拍摄并且手动地分组在 一起用于电子邮件或MMS传输,或者能够响应于对数字照相机的单个 输入来拍摄单个物体的两个数字图像。例如,参考图1,数字照相机 112能够具有输入114,该输入114触发迅速连拍两张照片并且将其自 动地发送到第一后端组件150。注意,输入114还能够被设计成触发一 张照片和自动发送。

输入114能够是移动设备110上的物理按钮或者是移动设备110 的图形用户界面中的图形元素。输入114能够是多功能的,诸如侧装 式可压指轮。替选地,输入114能够专用于图像存档系统,使得响应 于与输入114的单个用户交互来自动地传送移动设备的屏幕上所显示 的任何照片用于OCR处理和存档。在任何情况中,输入114能够被配 置成:响应于一个或两个用户输入动作(例如,一次或两次按钮按动), 触发向第一后端组件150的图像发送。

再次参考图2,该确定的词能够被添加到主题行、标题行或电子 邮件的主体,并且完整的图像能够被存储为附于电子邮件的附件。另 外,电子邮件能够被自动地标记有预定义标签(例如,“PIC”)。能 够基于词并且还可能基于该预定义标签来索引240数字图像。能够使 用各种类型的词索引。例如,能够使用下面的专利申请中所描述的系 统和技术:Paul Buchheit等人所有的于2004年3月31日提交的并且 2005年10月6日公开的、标题为“EMAIL CONVERSATION MANAGEMENT SYSTEM”的美国专利公开No.2005/0222985 A1,以 及Paul Buchheit等人所有的于2004年4月6日提交的并且2005年10 月6日公开的、标题为“IDENTIFYING MESSAGES RELEVANT TO A SEARCH QUERY IN A CONVERSATION-BASED EMAIL SYSTEM” 的美国专利公开No.2005/0223058 A1,二者通过引用并入在此。数字 图像被存储250用于后来的数字图像的检索。注意,在一些实现中, 索引和存储操作被互相集成在一起。

能够从网络设备接收260一个或多个搜索词语。这些搜索词语能 够由用户诸如在Web浏览器界面(在移动电话、个人计算机等上)中 输入,并且被发送到图像存档系统。替选地,能够由计算机响应于某 个输入来生成这些搜索词语。在任何情况中,能够基于一个或多个搜 索词语来检索270数字图像,并且将该数字图像呈现给用户或者发送 到另一个系统组件用于进一步的处理。

在一些实现中,OCR技术处理低分辨率的图像(例如,来自一百 万像素照相机的图像)。另外,能够采取步骤来设法解决由照相机/镜 头质量、到拍摄文档的距离等引起的问题。能够使用图像增强和超分 辨率技术来预处理文档图像,用于改善OCR能力。

图3是增强的光学字符识别的示例性方法300的流程图。能够接 收310包括数字图像的消息,并且该消息能够包括用于在数字图像中 所表示的文档的类型指示。诸如当用户在拍摄照片时注意到用于文档 的类型(例如,名片相对于凭条)时,能够明确地包括该类型指示。 替选地,类型指示能够是图像本身的一方面,诸如数字图像中所表示 的文档的相对垂直和水平尺寸。例如,名片典型地具有通用的长宽比, 这能够通过检查照片中任何纸件文档的边缘和它们与文档上文本的关 系来从数字照片确定。该类型指示还能够通过找到了一些词的初始 OCR转换(pass)来确定,并且然后能够使用这些词来指示文档类型, 这能够影响后来的OCR处理。

能够预处理320数字图像以改善光学字符识别。该预处理能够涉 及使用传统的技术来对图像去噪和去斜(deskew)。该预处理能够涉 及通过最小化数字图像中所表示的文档的左右页边空白的位置差异来 识别用于该数字图像的二值化阈值。另外,预处理能够使用迭代精化 方案,该迭代精化方案通过迭代地获取低分辨率图像中其邻近像素的 灰度级的加权组合来获得每个高分辨率像素的灰度级。

基于双三次/双线性/样条插值的传统超分辨率算法本质是在图像 上运行低通滤波器,消除锐边。这导致图像进一步模糊,当原始图像 已经部分地模糊时这可能不是所期望的。字母边界处的模糊能够造成 OCR质量的降级。另一方面,与最邻近插值类似的边预留超分辨率算 法能够造成使OCR引擎混乱的混淆伪像。相反地,以下描述的新方法 能够在超采样的同时去模糊,而不增加噪声。注意,这里词“超采样” 和“超分辨率”被同义地使用。

使g(x,y)|(x,y)∈[1...M,1...N]表示观察到的图像,其中M、N是图 像尺寸。使f(x,y)|((x,y)∈R2)是基本的真图。在该模型中,g是f的模 糊版本,即g=f*hPSF,其中*代表卷积运算符,并且hPSF代表点扩散函 数(该函数有效地对模糊过程建模)。由于知道hPSF通常是执行加权 邻近平滑化的窗口函数,所以无需明确地知道该hPSF。这样,能够用高 斯函数来对点扩散函数建模。

将f(n)看作是对f的逼近并且g(n)=f(n)*hPSF,则该等式能够被重新写 为,

g=f*hPSFG=(F·HPSF)

gn=fn*hPSFG(n)=(F(n)·HPSF)

其中,大写字母表示傅里叶变换。从以上等式,

(G-G(n))=(F-F(n))·HPSF

(G-G(n))·(HBP)/c=(F-F(n))

其中c是常数并且HBP是滤波器。理想地,1-(HBP)/c·HPSF=0。然而, 由于点扩散函数是低通滤波器,所以其傅里叶变换通常在很多频率下 是零,这使得找到函数的逆函数变得复杂。

因此,实际上,能够使用迭代精化方案:F(n+1)=F(n)+(G-G(n))·(HBP)/c, 其中选择HBP和c使得1-(HBP)/c·HPSF>0。选择c一般涉及折衷 (tradeoff)。c越大意味着更大的噪声和错误容许度,但较慢的收敛, 并且反之亦然。基本图像的初始逼近f(0)能够经由双三次B样条插值来 创建。因此,迭代精化方案通过迭代地获取低分辨率图像中其邻近像 素的灰度级的加权组合来获得每个高分辨率像素的灰度级。

能够对预处理的数字图像执行330光学字符识别,以确定数字图 像中的词。能够以多比例(scale)执行OCR操作。运行以上的附有去 模糊的超分辨率算法,能够创建文档的多个版本并且对其进行OCR处 理。例如,原始比例的第一版本、2倍比例的第二版本和3倍比例的第 三版本能够独立被馈给到OCR引擎,并且能够存储结果词的联合。原 始文档可以具有混合的字体大小——最小的字体对于OCR引擎来说可 能过小以至于不能识别。这些字体能够从文档的较高分辨率(或去模 糊)版本来识别。另一方面,原始文档中的较大字体大小在超分辨之 后可能变得对OCR引擎来说过大以至于不能识别。能够从较低分辨率 的版本识别这些字体。

另外,不论是否以多比例执行OCR,通常,光学字符识别的初始 结果将会是被分组到一起成为词的字符的字符串,这可以是或可以不 是真正的词(例如,在数字“1”替换了小写字母“l”的情况下,词“clip” 可能被读作“clip”)。因此,能够对词执行后处理以识别并且纠正由 光学字符识别引起的常见字符误识别。该后处理能够是基于语言模型 的,并且能够使用一个或多个词典。

在一些实现中,能够使用多个基于词典的语言模型。能够根据用 于文档的类型指示,在至少两个基于词典的语言模型之间做出340选 择。然后,能够根据选择的基于词典的语言模型来后处理350词。在 其它实现中,单个基于词典的语言模型能够被用于要被OCR处理的所 有图像(例如,词典能够是在Web上找到的词的子集)。

基于语言的后处理能够改善从文档图像获得的OCR结果的质量。 能够在概率架构的场境内理解基于语言的后处理,该概率架构将来自 OCR的字符串输出与词典中找到的词连接。注意,词典无需是标准的 词典,而能够是从一个或多个文集(corpus)得到的词的任何集。

使w代表词(空格划界的字母的组合)。使s代表通过OCR过程 输出的观察到的字符串。使用贝叶斯法则,

P(w|s)=P(s|w)P(w)/P(s)

给定观察到的字符串s,则目标是获得

w*=argmaxwP(w|s)=argmaxw(P(s|w)P(w))

其中P(w)指示词w出现的概率,P(w|s)指示当词被OCR看作s时实 际上它是w的概率。因此,能够在后处理期间寻找到对于观察到的OCR 输出字符串最大化词的后验概率的w。另外,后处理能够使用两个组 件来计算w*:(1)用以在给定的文本上下文中估计P(w)的语言模型; 以及(2)用以估计将词w读作s的概率P(s|w)的OCR错误模型。

语言模型给出在给定的上下文中词w出现的可能性。例如,能够 对训练文档集中每个词的出现计数来建立词的词典和词的概率。这种 基于词典的语言模型能够由加权有限状态机(WFSM)来表示,其中输 入标签作为字符并且接受对应于所有词典词的状态。注意,该示例性 语言模型可能不能很好的涵盖专有名词。

估计下一个字符对于目前所看到的字符串的概率的基于字符的语 言模型通常对专有名词做得更好。该表示能够再一次是WFSM,具有 下面的成本测量:

C(s1|c1...ci-1)=-logP(s1|c1...ci-1)

取代对以目前所看到的全部字符序列为条件的以上概率进行计算,仅 需要使用少数的字符历史。这允许涵盖比训练集中所存在的更多的词。 参见,例如,Kolak O.,Resnik P.,Byrne W.的“A generative probabilistic OCR model for NLP applications”,HLT-NAACL 2003。另外,能够使 用基于n元词的模型。这些模型使用词对于之前的少数词的出现概率。 还能够使用其它基于语言的模型。

错误模型计算OCR引擎将输入字符序列w读作s的概率。这也能 够使用机器学习方法来估计,并且能够使用训练数据,即带有输入文 本和OCR输出的示例性图像,来创建错误模型。输入和输出文本二者 能够分别被分段为对应的字符片段w和s。例如,能够使用莱文斯汀编 辑距离来完成该分段。莱文斯汀距离将两个字符串之间的距离测量为 将一个字符串变换为另一个字符串所需要的操作(单个字符的插入/删 除/置换)的最小数目。通过目前得到的分段的字符串对(s,w),能够 计算加权有限状态变换器(WFST),其中输入标签对应于原始字符并 且输出标签是OCR输出字符。参见,例如,Kolak O.,Resnik P.,Byrne W.的“A generative probabilistic OCR model for NLP applications”, HLT-NAACL 2003。替选地,编辑距离方法能够被用来通过从以上的计 数测量P(s|w)直接地计算转移概率,并且使用逆变换作为变换成本。

能够使用带有已知基本事实的文档集来估计字母置换的成本/概 率。能够记录为将每个观察到的OCR字符串变换为已知基本事实所需 要的实际变换(单个字符的插入/删除/置换)。每个变换的出现数目是 在OCR过程期间发生的该特定变换的概率/成本的测量。因此,将有可 能存在大数目的字母“l”被误识为数字“1”的实例,并且因此对该出 现指派高概率。

能够通过人工地从文本生成图像、将噪声添加到该生成的图像、 并且随后从图像生成OCR引擎输出,来创建用于计算错误模型的训练 数据。对于信用卡凭条和名片而言,能够使用本地公司收录(listing) 数据来训练词典/语言模型。另外,能够要求系统的用户提交各种类型 的文档图像来用作训练数据。

图4是通用计算机系统400的示例的示意图。该系统400能够被 用于关联于根据一些实现的方法200和300所描述的操作。例如,系 统400可以被包括在任何或所有的移动设备110、第一和第二后端组件 150和160以及网络设备170中。

该系统400包括处理器410、存储器420、存储设备430和输入/ 输出设备440。组件410、420、430和440的每一个使用系统总线450 被互连起来。处理器410能够处理用于在系统400内执行的指令。在 一些实现中,处理器410是单线程处理器。在其它的实现中,处理器 410是多线程和/或多核处理器。处理器410能够处理存储器420中或 存储设备430上所存储的指令,用以在输入/输出设备440上显示用于 用户界面的图形信息。

存储器420存储系统400内的信息。在一些实现中,存储器420 是计算机可读介质。在一些实现中,存储器420是易失性存储器单元。 在一些实现中,存储器420是非易失性存储器单元。

存储设备430能够提供用于系统400的海量存储。在一些实现中, 存储设备430是计算机可读介质。在各种不同的实现中,存储设备430 可以是软盘设备、硬盘设备、光盘设备或磁带设备。

输入/输出设备440提供用于系统400的输入/输出操作。在一些实 现中,输入/输出设备440包括键盘和/或指示设备。在一些实现中,输 入/输出设备440包括用于显示图形用户界面的显示单元。

能够以数字电子电路、或者以计算机硬件、固件、软件或其组合 来实现所描述的特征。该装置能够以计算机程序产品来实现,该计算 程序产品被有形地包含在信息载体中,例如,在机器可读存储设备或 以传播信号中,用于由可编程处理器执行;并且方法操作能够由可编 程处理器来执行,该可编程处理器执行指令程序以通过操作输入数据 和生成输出来执行所描述的实现的功能。所描述的特征能够以一个或 多个计算机程序来有利地实现,该计算机程序可以在包括至少一个可 编程处理器的可编程系统上执行,该可编程处理器被耦接以从数据存 储系统、至少一个输入设备以及至少一个输出设备接收数据和指令, 以及向数据存储设备、至少一个输入设备以及至少一个输出设备传送 数据和指令。计算机程序是能够直接地或间接地在计算机中使用来执 行某个行为或引起某个结果的指令集。能够以任何形式的编程语言, 包括编译语言和解释语言,来写计算机程序,并且能够以任何形式, 包括作为单机程序或作为模块、组件、子程序或适合于在计算环境中 使用的其它单元,来部署计算机程序。

用于执行指令程序的适当处理器包括例如通用和专用微处理器二 者、以及任何类型的计算机的单处理器或多个处理器的一个。一般地, 处理器将从只读存储器或随机存取存储器或二者接收指令和数据。计 算机的重要元素是用于执行指令的处理器以及用于存储指令和数据的 一个或多个存储器。一般地,计算机还将包括用于存储数据文件的一 个或多个海量存储设备,或被操作地耦接以与其通信;这种设备包括 磁盘,诸如内部硬盘和可移动盘;磁光盘;和光盘。适合于有形地包 含计算机程序指令和数据的存储设备包括所有形式的非易失性存储 器,通过示例的方式包括:半导体存储器设备,诸如EPROM、EEPROM 以及闪速存储器设备;磁盘,诸如内部硬盘和可移动盘;磁光盘;以 及CD-ROM和DVD-ROM盘。处理器和存储器能够通过ASIC(专用 集成电路)来补充,或者被并入ASIC。

为了提供与用户的交互,能够在计算机上实现特征,该计算机具 有诸如CRT(阴极射线管)或LCD(液晶显示)监视器的用于向用户 显示信息的显示设备、以及诸如鼠标或跟踪球的通过其用户能够向计 算机提供输入的键盘和指示设备。

能够在计算系统中实现该特征,该计算机系统包括诸如数据服务 其的后端组件、或者包括诸如应用服务器或因特网服务器的中间件组 件、或者包括诸如具有图形用户界面或因特网浏览器的客户端端计算 机的前端组件、或者它们的任何组合。能够通过诸如通信网络的任何 形式或介质的数字数据通信来连接系统的组件。通信网络的示例包括 例如LAN、WAN以及形成因特网的计算机和网络。

计算机系统能够包括客户端和服务器。客户端和服务器通常互相 远离并且典型地通过网络交互,诸如所描述的一个。客户端和服务器 的关系借助于在一个或多个计算机上运行并且彼此具有客户端-服务器 关系的计算机程序而产生。

虽然以上已经详细描述了几个实现,但是其它的修改是可能的。 例如,被配置成提供电子搜索服务和连接到网络的任何服务器环境 (即,任何联网的搜索引擎)能够使用描述的系统和技术来与移动设 备网络集成。服务器环境能够起网络可访问硬驱动的作用。此外,服 务器环境无需是传统的后端或中间件组件。服务器环境能够是在个人 计算机上安装并且被用于本地文件的电子搜索的程序,或者服务器环 境能够是在企业网络中安装的搜索装置(例如,由加利福尼亚山景城 的Google公司提供的GoogleTM In a Box)。

另外,附图中所描绘的逻辑流不需要示出的特定顺序、或序列顺 序来达成期望的结果。可以提供其它的操作,或者可以从描述的流程 中排除操作,并且其它的组件可以被添加到描述的系统,或者从描述 的系统中移除。因此,其它的实现在所附的权利要求的范围内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号