首页> 中国专利> 一种文字编改系统及编改的方法

一种文字编改系统及编改的方法

摘要

本发明公开了一种文字编改系统及编改的方法,所述系统包括:版面分析模块、版面加工模块及编改合并模块,所述版面分析模块,用于处理版面非文字内容,并通过行列扫描分析出文档中的每一单位块,计算所述板块的语种属性;版面加工模块,用于辅助版面分析模块,对需要交互式版面分析的单位块及单位块属性进行调整;编改合并模块,利用版面分析产生的文档,按不同的语种进行不同的识别和编改,生成不同的编改文本,并将不同的编改文本进行合并生成最终编改文本。本发明可以极大地提高编改效率、降低成本、提高质量;通过交互式版面调整,整合各语种独立的编改系统,可快速、高质的完成编改任务,经试验可得,根据本发明进行编改,每年的成本可节约71.6%。

著录项

  • 公开/公告号CN102929843A

    专利类型发明专利

  • 公开/公告日2013-02-13

    原文格式PDF

  • 申请/专利权人 中国学术期刊(光盘版)电子杂志社;

    申请/专利号CN201210338739.4

  • 发明设计人 王艳;瞿洋;梁洵;袁仁慧;

    申请日2012-09-14

  • 分类号

  • 代理机构北京捷诚信通专利事务所(普通合伙);

  • 代理人魏殿绅

  • 地址 100084 北京市海淀区清华园清华大学36区华业大厦B1410、1412、1414室

  • 入库时间 2024-02-19 17:52:51

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2015-10-14

    授权

    授权

  • 2014-06-11

    著录事项变更 IPC(主分类):G06F17/21 变更前: 变更后: 申请日:20120914

    著录事项变更

  • 2013-03-20

    实质审查的生效 IPC(主分类):G06F17/21 申请日:20120914

    实质审查的生效

  • 2013-02-13

    公开

    公开

说明书

技术领域

本发明涉及扫描文档的电子化,尤其涉及一种基于交互式版面分析的文字 编改系统。

背景技术

目前流水线上涉及到图像文字识别的主流工具有汉王、FineReader两种, 其中又以汉王软件的使用最为广泛。根据生产部门长期使用的经验,这些工具 在某些应用中取得了非常好的效果,但同时又存在很大的不足,主要表现在: 汉王识别软件对中文的支持相当好,但在英文识别中表现不佳。FineReader对 英文文献识别效果非常好,但中文识别支持不好。单独使用某种识别引擎会一 方面增加编改字符的数量,影响编改效率的提升,另一方面由于编改字符的增 加,在一致的编改错误率下增加了错误字符的数量,从而降低了最终产品的质 量。因此对于中英文混合的文献不管选择哪种识别工具都有各自的瓶颈,需要 改进编改系统。

发明内容

为解决上述中存在的问题与缺陷,本发明提供了一种编改系统及编改方 法,该系统和方法可以极大地提高编改效率、降低成本、提高质量。所述技术 方案如下:

一种文字编改系统,包括:

所述系统包括:版面分析模块、版面加工模块及编改合并模块,所述

版面分析模块,用于处理版面非文字内容,并通过行列扫描分析出文档中 的每一单位块,计算所述板块的语种属性;

版面加工模块,用于辅助版面分析模块,对需要交互式版面分析的单位块 及单位块属性进行调整;

编改合并模块,利用版面分析产生的文档,按不同的语种进行不同的识别 和编改,生成不同的编改文本,并将不同的编改文本进行合并生成最终编改文 本。

一种文字编改的方法,包括:

对版面非文字内容进行处理;

通过行列扫描分析出文档中的每一单位块,并计算出所述单位块的语种属 性;

对需要交互式版面分析的单位块及单位块属性进行调整;

通过不同的语种对文档进行不同的识别和编改,生成不同的编改文本,并 将不同的编改文本进行合并生成最终编改文本。

本发明提供的技术方案的有益效果是:

可以极大地提高编改效率、降低成本、提高质量;

通过交互式版面调整,整合各语种独立的编改系统,可快速、高质的完成 编改任务,经试验可得,根据本发明进行编改,每年的成本可节约71.6%。

附图说明

图1是文字编改系统结构图;

图2是文字编改方法流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明 实施方式作进一步地详细描述:

如图1所示,为文字编改系统结构,包括:版面分析模块、版面加工模块 及编改合并模块,所述

版面分析模块,用于处理版面非文字内容,并通过行列扫描分析出文档中 的每一单位块,计算所述板块的语种属性;

版面加工模块,用于辅助版面分析模块,对需要交互式版面分析的单位块 及单位块属性进行调整;

编改合并模块,利用版面分析产生的文档,按不同的语种进行不同的识别 和编改,生成不同的编改文本,并将不同的编改文本进行合并生成最终编改文 本。

上述版面非文字内容的处理包括黑边、杂质及图像中的非文字内容等。

在处理完版面非文字内容文档中,为了对版面作出尽可能准确的分析,采 用如下算法:

1)行扫描:对图像进行逐行扫描,统计处每一行的像素点个数,利用其 统计特征,得到每一行的上下边界。

2)列扫描:对每一行进行列扫描,统计出每一列的像素点个数,利用其 统计特征,得到每一行的左右边界,从而得到每一单位块。

3)单位块语种的识别:对每行文件进行简单识别处理,分析出中英文语 种的特征,如中英文文字的长宽比特征等。

4)后处理:个性化处理不同类型的文献。

交互式版面分析

经过自动版面分析之后,对于大部分排版较好的文档,处理结果基本可以 接受,但对于一些版式较乱、较复杂的文档,需要辅助一定的交互式版面分析, 即调整版面的单位块、每块的语种等其它属性,确保最后版面分析的正确性。

按语种识别编改

经过交互式版面分析后按语种形式的文档,提交给各自的编改系统;对用 中文部分,采用汉王和文通识别,不一致的部分抛出编改;对于英文部分,采 用FineReader和文通识别,不一致的部分抛出编改。

编改结果合并

将不同的编改文本进行合并生成最终的编改结果。

如图2所示,为文字编改方法,该方法包括:

对版面非文字内容进行处理;

通过行列扫描分析出文档中的每一单位块,并计算出所述单位块的语种属 性;

对需要交互式版面分析的单位块及单位块属性进行调整;

通过不同的语种对文档进行不同的识别和编改,生成不同的编改文本,并 将不同的编改文本进行合并生成最终编改文本。

以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的 精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的 保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号