公开/公告号CN102929843A
专利类型发明专利
公开/公告日2013-02-13
原文格式PDF
申请/专利权人 中国学术期刊(光盘版)电子杂志社;
申请/专利号CN201210338739.4
申请日2012-09-14
分类号
代理机构北京捷诚信通专利事务所(普通合伙);
代理人魏殿绅
地址 100084 北京市海淀区清华园清华大学36区华业大厦B1410、1412、1414室
入库时间 2024-02-19 17:52:51
法律状态公告日
法律状态信息
法律状态
2015-10-14
授权
授权
2014-06-11
著录事项变更 IPC(主分类):G06F17/21 变更前: 变更后: 申请日:20120914
著录事项变更
2013-03-20
实质审查的生效 IPC(主分类):G06F17/21 申请日:20120914
实质审查的生效
2013-02-13
公开
公开
技术领域
本发明涉及扫描文档的电子化,尤其涉及一种基于交互式版面分析的文字 编改系统。
背景技术
目前流水线上涉及到图像文字识别的主流工具有汉王、FineReader两种, 其中又以汉王软件的使用最为广泛。根据生产部门长期使用的经验,这些工具 在某些应用中取得了非常好的效果,但同时又存在很大的不足,主要表现在: 汉王识别软件对中文的支持相当好,但在英文识别中表现不佳。FineReader对 英文文献识别效果非常好,但中文识别支持不好。单独使用某种识别引擎会一 方面增加编改字符的数量,影响编改效率的提升,另一方面由于编改字符的增 加,在一致的编改错误率下增加了错误字符的数量,从而降低了最终产品的质 量。因此对于中英文混合的文献不管选择哪种识别工具都有各自的瓶颈,需要 改进编改系统。
发明内容
为解决上述中存在的问题与缺陷,本发明提供了一种编改系统及编改方 法,该系统和方法可以极大地提高编改效率、降低成本、提高质量。所述技术 方案如下:
一种文字编改系统,包括:
所述系统包括:版面分析模块、版面加工模块及编改合并模块,所述
版面分析模块,用于处理版面非文字内容,并通过行列扫描分析出文档中 的每一单位块,计算所述板块的语种属性;
版面加工模块,用于辅助版面分析模块,对需要交互式版面分析的单位块 及单位块属性进行调整;
编改合并模块,利用版面分析产生的文档,按不同的语种进行不同的识别 和编改,生成不同的编改文本,并将不同的编改文本进行合并生成最终编改文 本。
一种文字编改的方法,包括:
对版面非文字内容进行处理;
通过行列扫描分析出文档中的每一单位块,并计算出所述单位块的语种属 性;
对需要交互式版面分析的单位块及单位块属性进行调整;
通过不同的语种对文档进行不同的识别和编改,生成不同的编改文本,并 将不同的编改文本进行合并生成最终编改文本。
本发明提供的技术方案的有益效果是:
可以极大地提高编改效率、降低成本、提高质量;
通过交互式版面调整,整合各语种独立的编改系统,可快速、高质的完成 编改任务,经试验可得,根据本发明进行编改,每年的成本可节约71.6%。
附图说明
图1是文字编改系统结构图;
图2是文字编改方法流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明 实施方式作进一步地详细描述:
如图1所示,为文字编改系统结构,包括:版面分析模块、版面加工模块 及编改合并模块,所述
版面分析模块,用于处理版面非文字内容,并通过行列扫描分析出文档中 的每一单位块,计算所述板块的语种属性;
版面加工模块,用于辅助版面分析模块,对需要交互式版面分析的单位块 及单位块属性进行调整;
编改合并模块,利用版面分析产生的文档,按不同的语种进行不同的识别 和编改,生成不同的编改文本,并将不同的编改文本进行合并生成最终编改文 本。
上述版面非文字内容的处理包括黑边、杂质及图像中的非文字内容等。
在处理完版面非文字内容文档中,为了对版面作出尽可能准确的分析,采 用如下算法:
1)行扫描:对图像进行逐行扫描,统计处每一行的像素点个数,利用其 统计特征,得到每一行的上下边界。
2)列扫描:对每一行进行列扫描,统计出每一列的像素点个数,利用其 统计特征,得到每一行的左右边界,从而得到每一单位块。
3)单位块语种的识别:对每行文件进行简单识别处理,分析出中英文语 种的特征,如中英文文字的长宽比特征等。
4)后处理:个性化处理不同类型的文献。
交互式版面分析
经过自动版面分析之后,对于大部分排版较好的文档,处理结果基本可以 接受,但对于一些版式较乱、较复杂的文档,需要辅助一定的交互式版面分析, 即调整版面的单位块、每块的语种等其它属性,确保最后版面分析的正确性。
按语种识别编改
经过交互式版面分析后按语种形式的文档,提交给各自的编改系统;对用 中文部分,采用汉王和文通识别,不一致的部分抛出编改;对于英文部分,采 用FineReader和文通识别,不一致的部分抛出编改。
编改结果合并
将不同的编改文本进行合并生成最终的编改结果。
如图2所示,为文字编改方法,该方法包括:
对版面非文字内容进行处理;
通过行列扫描分析出文档中的每一单位块,并计算出所述单位块的语种属 性;
对需要交互式版面分析的单位块及单位块属性进行调整;
通过不同的语种对文档进行不同的识别和编改,生成不同的编改文本,并 将不同的编改文本进行合并生成最终编改文本。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的 精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的 保护范围之内。
机译: 改单接收支持系统和改单接收支持方法
机译: 一种操作车辆的自充足跟踪轮落装置的方法,包括自足跟踪装置改变装置
机译: 用于制造至少一种单面针织衫,阿托哈拉多法国和羊毛的圆形网状弹性织物的方法,一种弹性织物,至少一种单面针织衫,阿托阿哈多法国和羊毛和羊毛的针织或钩编运动和服装