首页> 中国专利> 版式文档中复合图的逻辑处理装置和逻辑处理方法

版式文档中复合图的逻辑处理装置和逻辑处理方法

摘要

本发明提供了一种版式文档中复合图的逻辑处理装置,包括:复合图区块提取单元,用于提取所述版式文档中的复合图区块;文档解析单元,用于对所述版式文档进行解析,以获取其中包含的文字图元;图注图元提取单元,用于从所述文字图元中提取出图注图元;关联检测单元,用于检测所述复合图区块与所述图注图元之间的关联关系;关系存储单元,用于存储检测到的所述关联关系。本发明还提出了一种版式文档中复合图的逻辑处理方法。通过本发明的技术方案,可以对从版式文档中分割出来的复合图进行妥善的逻辑处理,从而便于实现对版式文档中图文混排版面的复合图进行版面理解,避免逻辑错误。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-07-12

    专利权的转移 IPC(主分类):G06F17/30 专利号:ZL2013101728793 登记生效日:20220629 变更事项:专利权人 变更前权利人:北大方正集团有限公司 变更后权利人:新方正控股发展有限责任公司 变更事项:地址 变更前权利人:100871 北京市海淀区成府路298号方正大厦9层 变更后权利人:519031 广东省珠海市横琴新区华金街58号横琴国际金融中心大厦3007 变更事项:专利权人 变更前权利人:北京方正阿帕比技术有限公司 北京大学 变更后权利人:北京方正阿帕比技术有限公司 北京大学

    专利申请权、专利权的转移

  • 2017-08-25

    授权

    授权

  • 2014-12-10

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20130510

    实质审查的生效

  • 2014-11-12

    公开

    公开

说明书

技术领域

本发明涉及电子文档格式转换技术领域,具体而言,涉及一种版式文 档中复合图的逻辑处理装置和一种版式文档中复合图的逻辑处理方法。

背景技术

根据版式文档的生成过程,文档是数据和结构的集合,具体包括内容 数据、物理结构和逻辑结构。内容数据指文档中诸如文本、图像、图形等 数据。物理结构是对内容数据在页面的布局、组合的描述,包括文本行、 文本块、图表等。逻辑结构是对内容数据所反映的信息、信息间关系的描 述,不仅包括页面元素的逻辑属性如正文段落、摘要、标题、表格等,也 包括文档的层次关系和文档元素之间的逻辑关联关系,如图像和图注的关 联等。

文档分析是对文档物理结构进行抽取,而文档理解则是在物理结构和 逻辑结构之间建立映射关系。对于文档分析任务来说,可得到的输入是文 档最后成型的形态,物理和逻辑结构信息都没有显式的体现,文档生成时 使用的逻辑模型和物理模型需要反推出来,最大程度地恢复文档的物理和 逻辑结构。而在现实应用中,移动设备的可读性需求使物理和逻辑结构的 恢复成为重中之重。

在对物理和逻辑结构的恢复中,可以从页面层次提取文档的逻辑结构 信息,将页面内已抽取的物理结构块根据其逻辑功能进行标注。目前,基 于传统图像文档的页面逻辑结构分析得益于人工智能领域的发展。逻辑结 构分析的发展正从基于先验规则的方法转向基于机器学习的方法。与传统 图像文档方法不同的是,版式文档提供的信息可以辅助版面理解。但固定 版式文档中存在大量拼接的图元、相互叠加的图层。这些数据并不能直接 用于构造文档的逻辑结构,而需要根据空间关系进行拼接、叠加等操作后 才能确定其所要展示的内容。页面内非文本对象的分类及识别和标注是文 档理解的重点之一,其中,图文混排版面的复合图的分析和理解皆有挑战 性。

因此,需要一种新的版式文档中复合图的逻辑处理技术,可以对从版 式文档中分割出来的复合图进行妥善的逻辑处理,从而便于实现对版式文 档中图文混排版面的复合图进行版面理解,避免逻辑错误。

发明内容

本发明正是基于上述问题,提出了一种新的版式文档中复合图的逻辑 处理技术,可以对从版式文档中分割出来的复合图进行妥善的逻辑处理, 从而便于实现对版式文档中图文混排版面的复合图进行版面理解,避免逻 辑错误。

有鉴于此,本发明提出了一种版式文档中复合图的逻辑处理装置,包 括:复合图区块提取单元,用于提取所述版式文档中的复合图区块;文档 解析单元,用于对所述版式文档进行解析,以获取其中包含的文字图元; 图注图元提取单元,用于从所述文字图元中提取出图注图元;关联检测单 元,用于检测所述复合图区块与所述图注图元之间的关联关系;关系存储 单元,用于存储检测到的所述关联关系。

在该技术方案中,复合图区块包括版式文档中的图片及图片中或周围 的文字等,提取复合图区块是指将这些图片、文字等作为一个整体,将其 与版式文档中的正文等部分分割开来,以便于在进行版式文档的流式重排 时,能够对复合图进行恰当的排版处理。但由于文档的排版原因,图片与 图注(比如位于图片下方,包括图标题或用于描述图片的一段文字等)的 间隔较远,而为了能够准确地对复合图区块进行提取,会导致将图片与图 注分离开,其中,图片被分割至复合图区块中,而图注被保留在版式文档 的其他部分中,则虽然在物理结构上实现了分割,但从逻辑结构上却存在 问题。因此,该方案通过将复合图区块与图注图元之间建立关联关系,从 而在逻辑结构上完成在复合图区块与图注图元之间的关系建立,使得对于 版式文档中的复合图的分割过程更准确、合理。

在上述技术方案中,优选地,还包括:信息获取单元,用于获取所述 复合图区块的特征属性信息;元素分类单元,用于根据所述特征属性信 息,对所述复合图区块中包含的元素进行分类;复合图处理单元,用于根 据分类结果,保留所述复合图区块中的正文插图复合图,并过滤其他元 素,以供所述关联检测单元检测所述正文插图复合图与所述图注图元之间 的关联关系。

在该技术方案中,复合图区块中包含有正文插图复合图和其他的元 素,比如图形商标、公式、分栏线、页眉、页脚、装饰性复合图等等,这 些元素可能导致在对复合图区域对应的范围进行确定时,对真正的正文插 图复合图对应的范围造成影响。比如正文插图复合图对应的范围是以其最 小外接矩形框确定的,而如果不对其他元素进行过滤,可能导致该矩形框 比实际范围大,从而可能使得不是图注图元的内容被误认为是图注图元, 造成逻辑错误。

在上述技术方案中,优选地,还包括:标签添加单元,用于为所述复 合图区块中的每种元素添加对应的逻辑标签,以标定其所属分类;以及所 述关系存储单元还用于:存储所述逻辑标签和/或所述逻辑标签对应的图 元的标识。

在该技术方案中,通过对每种元素添加逻辑标签,便于对各种元素对 应的逻辑关系进行查看和管理,从而实现对版式文档进行流式转换后,得 到更好的显示效果。

在上述技术方案中,优选地,所述关联检测单元包括:数量判断子单 元,用于判断所述复合图区块中包含的正文插图复合图的数量;距离分析 子单元,用于在所述复合图区块中仅包含一个正文插图复合图的情况下, 选取与该正文插图复合图的距离小于预设距离的图注图元,以作为与该正 文插图复合图相关联的图注图元;二分图分析子单元,用于在所述复合图 区块中包含多个正文插图复合图的情况下,将所述多个正文插图复合图和 解析出的所有图注图元分别作为二分图的顶点,以利用所述二分图判断所 述多个正文插图复合图与所述图注图元之间的关联关系。

在该技术方案中,通过距离靠近原则和二分法最优匹配法,实现对正 文插图复合图和图注图元的关联识别,有利于得到更为合理、准确的逻辑 关系,以便基于该逻辑关系实现版式文档的流式重排。

在上述技术方案中,优选地,所述图注图元提取单元包括:信息读取 子单元,用于读取预设的所述图注图元的排版特征信息;图元检索子单 元,用于根据读取的所述排版特征信息,在所述文档解析单元解析出的所 述文字图元中进行检索,以获取所述图注图元。

在该技术方案中,图注图元具有的排版特征信息,比如字体、以 “图”等关键字起始、居中、字数限制、与其他文字之间的位置关系等, 通过这些特征信息,既可以找到对应内容的图元,又可以避免将如正文中 的“图1”作为图注图元(具体为图标题,或者也可以为解释性文字 等),实现对图注图元的准确获取。

根据本发明的又一方面,还提出了一种版式文档中复合图的逻辑处理 方法,包括:步骤202,提取所述版式文档中的复合图区块;步骤204, 在从所述版式文档解析出的文字图元中,提取出图注图元;步骤206,检 测所述复合图区块与所述图注图元之间的关联关系;步骤208,存储检测 到的所述关联关系。

在该技术方案中,复合图区块包括版式文档中的图片及图片中或周围 的文字等,提取复合图区块是指将这些图片、文字等作为一个整体,将其 与版式文档中的正文等部分分割开来,以便于在进行版式文档的流式重排 时,能够对复合图进行恰当的排版处理。但由于文档的排版原因,图片与 图注(比如位于图片下方,包括图标题或用于描述图片的一段文字等)的 间隔较远,而为了能够准确地对复合图区块进行提取,会导致将图片与图 注分离开,其中,图片被分割至复合图区块中,而图注被保留在版式文档 的其他部分中,则虽然在物理结构上实现了分割,但从逻辑结构上却存在 问题。因此,该方案通过将复合图区块与图注图元之间建立关联关系,从 而在逻辑结构上完成在复合图区块与图注图元之间的关系建立,使得对于 版式文档中的复合图的分割过程更准确、合理。

在上述技术方案中,优选地,所述步骤206之前,还包括:获取所述 复合图区块的特征属性信息,以对所述复合图区块中包含的元素进行分 类;根据分类结果,保留所述复合图区块中的正文插图复合图,并过滤其 他元素,以供在所述步骤206中,检测所述正文插图复合图与所述图注图 元之间的关联关系。

在该技术方案中,复合图区块中包含有正文插图复合图和其他的元 素,比如图形商标、公式、分栏线、页眉、页脚、装饰性复合图等等,这 些元素可能导致在对复合图区域对应的范围进行确定时,对真正的正文插 图复合图对应的范围造成影响。比如正文插图复合图对应的范围是以其最 小外接矩形框确定的,而如果不对其他元素进行过滤,可能导致该矩形框 比实际范围大,从而可能使得不是图注图元的内容被误认为是图注图元, 造成逻辑错误。

在上述技术方案中,优选地,还包括:为所述复合图区块中的每种元 素添加对应的逻辑标签,以标定其所属分类;以及所述步骤208还包括: 存储所述逻辑标签和/或所述逻辑标签对应的图元的标识。

在该技术方案中,通过对每种元素添加逻辑标签,便于对各种元素对 应的逻辑关系进行查看和管理,从而实现对版式文档进行流式转换后,得 到更好的显示效果。

在上述技术方案中,优选地,所述步骤206包括:若所述复合图区块 中仅包含一个正文插图复合图,则选取与该正文插图复合图的距离小于预 设距离的图注图元,以作为与该正文插图复合图相关联的图注图元;若所 述复合图区块中包含多个正文插图复合图,则将所述多个正文插图复合图 和解析出的所有图注图元分别作为二分图的顶点,以利用所述二分图判断 所述多个正文插图复合图与所述图注图元之间的关联关系。

在该技术方案中,通过距离靠近原则和二分法最优匹配法,实现对正 文插图复合图和图注图元的关联识别,有利于得到更为合理、准确的逻辑 关系,以便基于该逻辑关系实现版式文档的流式重排。

在上述技术方案中,优选地,所述步骤204包括:读取预设的所述图 注图元的排版特征信息;根据读取的所述排版特征信息,在解析出的所述 文字图元中进行检索,以获取所述图注图元。

在该技术方案中,图注图元具有的排版特征信息,比如字体、以 “图”等关键字起始、居中、字数限制、与其他文字之间的位置关系等, 通过这些特征信息,既可以找到对应内容的图元,又可以避免将如正文中 的“图1”作为图注图元(具体为图标题,或者也可以为解释性文字 等),实现对图注图元的准确获取。

通过以上技术方案,可以对从版式文档中分割出来的复合图进行妥善 的逻辑处理,从而便于实现对版式文档中图文混排版面的复合图进行版面 理解,避免逻辑错误。

附图说明

图1示出了根据本发明的实施例的版式文档中复合图的逻辑处理装置 的框图;

图2示出了根据本发明的实施例的版式文档中复合图的逻辑处理方法 的流程图;

图3示出了根据本发明的实施例的对版式文档中的复合图进行逻辑处 理的具体流程图;

图4A和图4B示出了根据本发明的一个实施例的对版式文档中的复 合图进行逻辑处理的示意图;

图5A和图5B示出了根据本发明的另一个实施例的对版式文档中的 复合图进行逻辑处理的示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附 图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不 冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是, 本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明 并不限于下面公开的具体实施例的限制。

图1示出了根据本发明的实施例的版式文档中复合图的逻辑处理装置 的框图。

如图1所示,根据本发明的实施例的版式文档中复合图的逻辑处理装 置100,包括:复合图区块提取单元102,用于提取所述版式文档中的复 合图区块;文档解析单元104,用于对所述版式文档进行解析,以获取其 中包含的文字图元;图注图元提取单元106,用于从所述文字图元中提取 出图注图元;关联检测单元108,用于检测所述复合图区块与所述图注图 元之间的关联关系;关系存储单元110,用于存储检测到的所述关联关 系。

在该技术方案中,复合图区块包括版式文档中的图片及图片中或周围 的文字等,提取复合图区块是指将这些图片、文字等作为一个整体,将其 与版式文档中的正文等部分分割开来,以便于在进行版式文档的流式重排 时,能够对复合图进行恰当的排版处理。但由于文档的排版原因,图片与 图注(比如位于图片下方,包括图标题或用于描述图片的一段文字等)的 间隔较远,而为了能够准确地对复合图区块进行提取,会导致将图片与图 注分离开,其中,图片被分割至复合图区块中,而图注被保留在版式文档 的其他部分中,则虽然在物理结构上实现了分割,但从逻辑结构上却存在 问题。因此,该方案通过将复合图区块与图注图元之间建立关联关系,从 而在逻辑结构上完成在复合图区块与图注图元之间的关系建立,使得对于 版式文档中的复合图的分割过程更准确、合理。

在上述技术方案中,优选地,还包括:信息获取单元112,用于获取 所述复合图区块的特征属性信息;元素分类单元114,用于根据所述特征 属性信息,对所述复合图区块中包含的元素进行分类;复合图处理单元 116,用于根据分类结果,保留所述复合图区块中的正文插图复合图,并 过滤其他元素,以供所述关联检测单元108检测所述正文插图复合图与所 述图注图元之间的关联关系。

在该技术方案中,复合图区块中包含有正文插图复合图和其他的元 素,比如图形商标、公式、分栏线、页眉、页脚、装饰性复合图等等,这 些元素可能导致在对复合图区域对应的范围进行确定时,对真正的正文插 图复合图对应的范围造成影响。比如正文插图复合图对应的范围是以其最 小外接矩形框确定的,而如果不对其他元素进行过滤,可能导致该矩形框 比实际范围大,从而可能使得不是图注图元的内容被误认为是图注图元, 造成逻辑错误。

在上述技术方案中,优选地,还包括:标签添加单元118,用于为所 述复合图区块中的每种元素添加对应的逻辑标签,以标定其所属分类;以 及所述关系存储单元110还用于:存储所述逻辑标签和/或所述逻辑标签 对应的图元的标识。

在该技术方案中,通过对每种元素添加逻辑标签,便于对各种元素对 应的逻辑关系进行查看和管理,从而实现对版式文档进行流式转换后,得 到更好的显示效果。

在上述技术方案中,优选地,所述关联检测单元108包括:数量判断 子单元1082,用于判断所述复合图区块中包含的正文插图复合图的数 量;距离分析子单元1084,用于在所述复合图区块中仅包含一个正文插 图复合图的情况下,选取与该正文插图复合图的距离小于预设距离的图注 图元,以作为与该正文插图复合图相关联的图注图元;二分图分析子单元 1086,用于在所述复合图区块中包含多个正文插图复合图的情况下,将所 述多个正文插图复合图和解析出的所有图注图元分别作为二分图的顶点, 以利用所述二分图判断所述多个正文插图复合图与所述图注图元之间的关 联关系。

在该技术方案中,通过距离靠近原则和二分法最优匹配法,实现对正 文插图复合图和图注图元的关联识别,有利于得到更为合理、准确的逻辑 关系,以便基于该逻辑关系实现版式文档的流式重排。

在上述技术方案中,优选地,所述图注图元提取单元106包括:信息 读取子单元1062,用于读取预设的所述图注图元的排版特征信息;图元 检索子单元1064,用于根据读取的所述排版特征信息,在所述文档解析 单元104解析出的所述文字图元中进行检索,以获取所述图注图元。

在该技术方案中,图注图元具有的排版特征信息,比如字体、以 “图”等关键字起始、居中、字数限制、与其他文字之间的位置关系等, 通过这些特征信息,既可以找到对应内容的图元,又可以避免将如正文中 的“图1”作为图注图元(具体为图标题,或者也可以为解释性文字 等),实现对图注图元的准确获取。

图2示出了根据本发明的实施例的版式文档中复合图的逻辑处理方法 的流程图。

如图2所示,根据本发明的实施例的版式文档中复合图的逻辑处理方 法,包括:步骤202,提取所述版式文档中的复合图区块;步骤204,在 从所述版式文档解析出的文字图元中,提取出图注图元;步骤206,检测 所述复合图区块与所述图注图元之间的关联关系;步骤208,存储检测到 的所述关联关系。

在该技术方案中,复合图区块包括版式文档中的图片及图片中或周围 的文字等,提取复合图区块是指将这些图片、文字等作为一个整体,将其 与版式文档中的正文等部分分割开来,以便于在进行版式文档的流式重排 时,能够对复合图进行恰当的排版处理。但由于文档的排版原因,图片与 图注(比如位于图片下方,包括图标题或用于描述图片的一段文字等)的 间隔较远,而为了能够准确地对复合图区块进行提取,会导致将图片与图 注分离开,其中,图片被分割至复合图区块中,而图注被保留在版式文档 的其他部分中,则虽然在物理结构上实现了分割,但从逻辑结构上却存在 问题。因此,该方案通过将复合图区块与图注图元之间建立关联关系,从 而在逻辑结构上完成在复合图区块与图注图元之间的关系建立,使得对于 版式文档中的复合图的分割过程更准确、合理。

在上述技术方案中,优选地,所述步骤206之前,还包括:获取所述 复合图区块的特征属性信息,以对所述复合图区块中包含的元素进行分 类;根据分类结果,保留所述复合图区块中的正文插图复合图,并过滤其 他元素,以供在所述步骤206中,检测所述正文插图复合图与所述图注图 元之间的关联关系。

在该技术方案中,复合图区块中包含有正文插图复合图和其他的元 素,比如图形商标、公式、分栏线、页眉、页脚、装饰性复合图等等,这 些元素可能导致在对复合图区域对应的范围进行确定时,对真正的正文插 图复合图对应的范围造成影响。比如正文插图复合图对应的范围是以其最 小外接矩形框确定的,而如果不对其他元素进行过滤,可能导致该矩形框 比实际范围大,从而可能使得不是图注图元的内容被误认为是图注图元, 造成逻辑错误。

在上述技术方案中,优选地,还包括:为所述复合图区块中的每种元 素添加对应的逻辑标签,以标定其所属分类;以及所述步骤208还包括: 存储所述逻辑标签和/或所述逻辑标签对应的图元的标识。

在该技术方案中,通过对每种元素添加逻辑标签,便于对各种元素对 应的逻辑关系进行查看和管理,从而实现对版式文档进行流式转换后,得 到更好的显示效果。

在上述技术方案中,优选地,所述步骤206包括:若所述复合图区块 中仅包含一个正文插图复合图,则选取与该正文插图复合图的距离小于预 设距离的图注图元,以作为与该正文插图复合图相关联的图注图元;若所 述复合图区块中包含多个正文插图复合图,则将所述多个正文插图复合图 和解析出的所有图注图元分别作为二分图的顶点,以利用所述二分图判断 所述多个正文插图复合图与所述图注图元之间的关联关系。

在该技术方案中,通过距离靠近原则和二分法最优匹配法,实现对正 文插图复合图和图注图元的关联识别,有利于得到更为合理、准确的逻辑 关系,以便基于该逻辑关系实现版式文档的流式重排。

在上述技术方案中,优选地,所述步骤204包括:读取预设的所述图 注图元的排版特征信息;根据读取的所述排版特征信息,在解析出的所述 文字图元中进行检索,以获取所述图注图元。

在该技术方案中,图注图元具有的排版特征信息,比如字体、以 “图”等关键字起始、居中、字数限制、与其他文字之间的位置关系等, 通过这些特征信息,既可以找到对应内容的图元,又可以避免将如正文中 的“图1”作为图注图元(具体为图标题,或者也可以为解释性文字 等),实现对图注图元的准确获取。

图3示出了根据本发明的实施例的对版式文档中的复合图进行逻辑处 理的具体流程图。

如图3所示,根据本发明的实施例的对版式文档中的复合图进行逻辑 处理的具体流程包括:

步骤302,对版式文档中的复合图进行分割,具体地,分割出来的复 合图中可能包含有插图复合图,还可能包含装饰性复合图、分栏线等其他 的元素。

在完成分割后,可以将分割出来的复合图中所有图元的ID进行存 储,比如存储在XML文件中,以便在对该复合图进行调用或处理时,根 据存储的图元ID查找到该复合图。

实际上,上述对复合图的分割过程,仅是从物理结构上,将对应于复 合图的区块从版式文档中分割出来,但并不包含对其逻辑结构上的分析, 因此,在正常的版式文档结构下进行分割时,往往是根据图像与文字间的 距离等物理特性进行关联的,从而会导致分割出来的复合图中不包含图 注。

在下面的步骤中,将会完成复合图与“遗留”在版式文档中的图注进 行准确地关联等,从而实现对复合图的逻辑处理。

步骤304至步骤308是对复合图的处理:

步骤304,获取复合图的特征属性信息。具体地,涉及提取复合图在 页面空间的布局、样式信息和内容图像的纹理等特征,具体的主要特征如 表1所示:

1 Height 复合图的高度 2 Length 复合图的宽度 3 Area 复合图的面积 4 Eccentricity 复合图的离心率 5 BlkPix 黑色像素在复合图中所占百分比 6 Std 复合图各像素灰度值的标准方差 7 Entropy 图像熵度量图像信息量 8 Contrast 惯性矩反映图像纹理清晰程度 9 Correlation 相关性衡量某一方向的纹理相关性 10 Energy 角二阶矩度量灰度分布均匀性 11 Homogeneity 逆差矩反映图像局部均匀性

表1

同时,根据实际复合图纹理的特点,选取距离和方向,计算出灰度共 生矩阵及特征系数,将特征系数组成纹理特征矢量,作为统计分类器的输 入。

步骤306,对复合图中包含的元素进行分类。具体地,可以使用SVM (Support Vector Machine,支持向量机)为分类器,选择RBF(Radial  Basis Function,径向基核函数),对分割出来的复合图中包含的插图复合 图、图形商标、公式、分栏线、页眉、页脚、装饰性复合图等等各种元素 进行分类,根据分类结果对每个元素进行标定,以得到其在版面中的逻辑 标签。

步骤308,过滤干扰元素,保留插图复合图。具体地,是指过滤图形 商标、公式、分栏线、页眉、页脚、装饰性复合图对象,这些复合图的大 量存在,影响正文中的插图复合图和图注的关联。

步骤310和步骤312是对文字图元的处理:

步骤310,对版式文档进行解析,得到解析出来的文字图元。

步骤312,提取文字图元中的图注图元。具体地,可以根据图注图元 的文字特征属性,将其与正文文字等区别开来,比如以图标题为例,其字 体小于正文主要字体,以关键字起始,如“图/Figure/Fig”、“图 /Figure/Fig1”、“图/Figure/Fig1-1”等等,可用正则表达式来表示。

同时,所提取的图标题也可能是该图在正文中的引用,可以根据图注 文本的排版特点,比如居中设置、每段的字数限制等等,从而过滤待选图 标题在正文中的引用。

步骤314,判断当前复合图区块中的插图复合图的数量,若为单个, 则进入步骤316,否则进入步骤318。

步骤316,根据距离选择与插图复合图相关联的图注图元。具体地, 以图标题为例,当页面含有单个插图复合图和单个(或多个)图标题时, 即1对1(或1对多)的模式,采用距离靠近原则,选取距离插图复合图 最近的图标题为其标题。

步骤318,利用二分图的方法选择与插图复合图相关联的图注图元。 具体地,当页面上含有多个插图复合图和多个图标题时,不能单靠图标题 的距离和样式,采用二分图的方法,将插图复合图和图标题分别表示为二 分图的顶点,根据图标题和插图复合图的距离定义顶点间的关联权值,然 后通过查找二分图的最大权匹配,寻找最可能的插图复合图和图标题的关 联方案,取得全局上的关联匹配最优。

步骤320,保存插图复合图和图标题的关联关系。此外,还可以保存 步骤306中的分类结果得到复合图中的各个元素在版面中的逻辑标签,以 及每个逻辑类别所对应的元素的图元ID集合。具体地,可以存储为XML 的形式。

下面将列举多个实施例,分别具体地对本发明的技术方案进行详细说 明。

图4A和图4B示出了根据本发明的一个实施例的对版式文档中的复 合图进行逻辑处理的示意图。

如图所示,以中文版式文档图书“台灣古厝圖鑑”中的一张双栏页面 为例,经过对该图的分割处理,从中提取出复合图区块包括插图复合图 402A、分栏线复合图402B和装饰性复合图402C。可以将复合图区块中 的所有图元ID存储在XML文件中,以便于对该复合图区块的处理。下 面将按照图3给出的流程对页面中的复合图对象进行逻辑处理。

首先,通过解析引擎获取版式文档的各种图元后,对文档进行版面分 析,将版面分析中复合图区块的分割结果从XML文件中读取,包括读入 其外接矩形框和组合该复合图的图元ID集合。具体地,将外接矩形框绘 制在页面图的效果如图4A所示。

然后提取页面内所有复合图的布局、样式信息和内容图像的纹理等特 征属性信息,具体地,主要的特征属性信息如表1所示。将特征属性信息 作为已经训练好的统计分类器SVM的输入,对该页面内的5个复合图进 行分类,并根据分类结果进行逻辑标签的标定。具体地,分类结果如图 4B所示,该页面包含三类复合图逻辑标签,其中,正文中2个插图复合 图402A、2个分栏线复合图402B和左边页边的1个装饰性复合图 402C。正文页面下方的插图复合图402A和页面左边的装饰性复合图 402C,包括文字图元和大量的路径操作,不仅分割难度大,且识别率低, 但采用本发明的方法,该页面的复合图皆被准确的标注了逻辑类别标签。 逻辑标定结果可直接用于版式文档的流式重排应用。

在上述实施例中,主要描述了对于版式文档中分割出来的复合图的逻 辑标签进行标定的过程,下面通过另一个实施例来说明将复合图与图注进 行关联的方案。

图5A和图5B示出了根据本发明的另一个实施例的对版式文档中的 复合图进行逻辑处理的示意图。

如图所示,以英文版式文档论文“TOASTER and KROONDE:High- Resolution and High-Speed Real-time Sensor Interfaces”中的一张双栏页面 为例经过对该图的分割处理,从中提取出复合图区块包括插图复合图 502A1、插图复合图502A2、插图复合图502A3、插图复合图502A4和分 栏线复合图502B。可以将复合图区块中的所有图元ID存储在XML文件 中,以便于对该复合图区块的处理。下面将按照图3给出的流程对页面中 的复合图对象进行逻辑处理。

首先,通过解析引擎获取版式文档的各种图元后,对文档进行版面分 析,将版面分析中复合图区块的分割结果从XML文件中读取,包括读入 其外接矩形框和组合该复合图的图元ID集合。具体地,将外接矩形框绘 制在页面图的效果如图5A所示。

然后,对复合图区块进行处理。具体地,对复合图区块包含的所有元 素进行类别分析,并根据分析结果保留插图复合图,而将页面内图形商 标、公式、分栏线、页眉、页脚、装饰性复合图过滤,这些复合图的存 在,影响正文中的插图复合图和图标题及图注的关联和识别。

同时,还包括对图注信息的获取,这里以图标题的获取为例。从解析 后的版式文档文字元素中,可以根据图标题的文字特征属性(如在该页面 中以关键字Figure起始)和排版特征属性(如居中设置),提取关于图标 题的信息,并且过滤待选图标题在正文中的引用。具体地,分析得到如图 所示的图标题504A、图标题504B、图标题504C等。

最后,对插图复合图和图标题进行关联设置。具体地,由于该页面中 包含多个插图复合图,因而采用二分图的方法,将插图复合图和图标题分 别表示为二分图的顶点,根据图标题和图的距离定义顶点间的关联权值, 查找二分图的最大权匹配,寻找最可能的图表和其标题的关联。该页面的 输入有6个复合图,如图5B所示,页面右下方的分栏线复合图被过滤, 左栏的中间的2个插图复合图合并后,页面的4个插图复合图和4个图标 题得到关联。该结果可直接用于版式文档的流式重排应用。

以上结合附图详细说明了本发明的技术方案,本发明通过对版式文档 (如PDF文档)内嵌的元数据信息进行解析和分析,在分割页面所包含 的复合图后,对页面内所有的复合图,提取其页面空间的布局、样式信息 和内容图像的纹理等特征,作为SVM分类器的输入,依据分类的类型对 复合图进行逻辑标注。同时,从解析后的版式文档文字元素中,提取待选 图标题,采用距离靠近原则和二分法最优匹配法对插图复合图和其图标题 进行关联识别。保证版式文档中的图像转化为流式文档后,图注能和图像 保持同步即保持相连,从而最终实现版式固定文档按阅读顺序重排成连贯 的流式文档。

以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于 本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精 神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明 的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号