首页> 中国专利> 版式文档中复合图的提取装置和提取方法

版式文档中复合图的提取装置和提取方法

摘要

本发明提供了一种版式文档中复合图的提取装置,包括:文档解析单元,对版式文档进行解析,确定构成所述版式文档的图元及所述图元的类型;图层生成单元,提取文字图元以构成文字图层,并利用其余的非文字图元构成非文字图层;版面分析单元,分别对文字图层和非文字图层进行版面分析处理;区块生成单元,生成文字图层中的文字区块和非文字图层中的图像区块;关联区块确定单元,确定与每个图像区块相关联的文字区块,以合并为复合图区块;标识存储单元,存储复合图区块包含的所有图元的标识。本发明还提出了一种版式文档中复合图的提取方法。通过本发明的技术方案,可以在复杂的文档版面布局中,尤其是图文混排版面中,实现对复合图的准确提取。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-07-01

    专利权的转移 IPC(主分类):G06K 9/46 专利号:ZL2013103439088 登记生效日:20220621 变更事项:专利权人 变更前权利人:北大方正集团有限公司 变更后权利人:新方正控股发展有限责任公司 变更事项:地址 变更前权利人:100871 北京市海淀区成府路298号方正大厦9层 变更后权利人:519031 广东省珠海市横琴新区华金街58号横琴国际金融中心大厦3007 变更事项:专利权人 变更前权利人:北京方正阿帕比技术有限公司 北京大学 变更后权利人:北京方正阿帕比技术有限公司 北京大学

    专利申请权、专利权的转移

  • 2019-02-19

    授权

    授权

  • 2015-03-11

    实质审查的生效 IPC(主分类):G06K9/46 申请日:20130808

    实质审查的生效

  • 2015-02-11

    公开

    公开

说明书

技术领域

本发明涉及电子文档格式转换技术领域,具体而言,涉及一种版式文 档中复合图的提取装置和一种版式文档中复合图的提取方法。

背景技术

将纸张文档转换为电子文档,大多采用扫描仪扫描或者相机拍摄的方 式,获取文档的数字图像,对其进行一系列图像处理后,将字符切分出 来,输入OCR(Optical Character Recognition,光学字符识别)系统。而 由文档处理软件,如排版软件,直接生成的版式文档,正在取代从纸质文 档转化而来的图像文档成为数字出版物的主要文档来源。

结构信息的自动提取,主要包括版面分析和版面理解,其研究皆停留 在图像文档版面的物理结构的提取,而针对通过OCR转化或者直接生成 的版式文档的研究才刚刚起步。文档版面布局的复杂性和多样性导致插图 的准确分割成为公开性难题,尤其是文字环绕型的插图。另外,版式文档 中,复合图都由多个子图像、大量路径操作、文字图元等子对象构成,不 能在逆向工程的版面结构分析中作为复合图的完整体被正确的提取出来。 因而版式文档不仅在描述上要大量路径来描述,造成很大程度的冗余,更 不利于版式文档流式重排时复合图的正常显示,难以满足日益增长数字化 阅读的现实需求。

因此,需要一种新的版式文档中复合图的提取技术,可以在复杂的文 档版面布局中,尤其是图文混排版面中,实现对复合图的准确提取。

发明内容

本发明正是基于上述问题,提出了一种新的版式文档中复合图的提取 技术,可以在复杂的文档版面布局中,尤其是图文混排版面中,实现对复 合图的准确提取。

有鉴于此,本发明提出了一种版式文档中复合图的提取装置,包括: 文档解析单元,用于对所述版式文档进行解析,确定构成所述版式文档的 图元及所述图元的类型;图层生成单元,用于提取文字图元以构成文字图 层,并利用其余的非文字图元构成非文字图层;版面分析单元,用于分别 对所述文字图层和所述非文字图层进行版面分析处理;区块生成单元,用 于根据所述版面分析单元的版面分析处理结果,生成所述文字图层中的文 字区块和所述非文字图层中的图像区块;关联区块确定单元,用于确定与 每个所述图像区块相关联的文字区块,以合并为复合图区块;标识存储单 元,用于存储所述复合图区块包含的所有图元的标识。

在该技术方案中,通过对版式文档进行解析后,将得到的图元分别构 成文字图层(包含文字图元)和非文字图层(包含图像图元等),然后分 别对每个图层进行区块分类,最终利用区块之间的关系判定复合图区块, 以实现对复合图区块的分割,并确保对文字图元和非文字图元的妥善处 理。在生成多个图层时,具体地,可以先提取所有的文字图元以形成文字 图层,然后将文字图元过滤以利用剩余的元素构成非文字图元。本方案可 以对图文混排、包含图像和图注信息等复杂情况进行有效地分析,从而准 确地分割出其中的复合图区块。复合图区块中可以包含一个或多个复合 图,还可以包含复合图中或周围的图注等文字。通过记录所有构成该复合 图区块的图元的标识,如图元ID,从而能够利用这些图元ID来对应出该 复合图区块,实现了将该区块与整个版面的分离,方便进行流式重排等处 理。

在上述技术方案中,优选地,所述版面分析单元包括:聚类处理子单 元,用于对所述文字图层中的文字图元进行聚类处理,以对所述文字图元 进行分类;文字区块生成子单元,对于同类别的多个文字图元,在对应的 最小外接矩形相交或间隔距离小于预设距离的情况下,用于将所述多个文 字图元作为文字图元集合,并将所述文字图元集合的最小外接矩形作为一 个所述文字区块。

在该技术方案中,通过基于页面内文字图元邻域特征相似性的聚类算 法处理,可以有效地对文字图元进行分类,从而确定每个文字图元应该属 于正文部分还是复合图部分。通过对距离的判断及相应的处理,从而确定 多个文字图元的构成关系,比如用于构成一个文字区块,该文字区块对应 于一个完整的字符。

在上述技术方案中,优选地,所述版面分析单元包括:纹理特征获取 子单元,用于获取所述非文字图层中的非文字图元的纹理特征;连通区域 检测子单元,用于根据所述纹理特征以及预设的特征阈值,检测出所述非 文字图层中连通的非文字对象区域;图像区块生成子单元,对于多个所述 连通的非文字对象区域,在对应的最小外接矩形相交或间隔距离小于预设 距离的情况下,用于将多个所述连通的非文字对象区域作为区域集合,并 将所述区域集合的最小外接矩形作为所述图像区块。

在该技术方案中,利用基于纹理分析和形态学处理的页面非文字对象 的连通域检测,从而识别出版面中的连通的非文字对象区域,该区域实际 上对应于版面中的一幅图像或该图像中的一部分;再通过对距离的判断及 相应的处理,即可将构成同一幅图像的多个连通区域进行合并,从而实现 对某一幅图像的完整的识别。

在上述技术方案中,优选地,所述版面分析单元还包括:孔洞填补子 单元,用于对所述连通的非文字对象区域中存在的孔洞进行填补。

在该技术方案中,通过对连通的非文字对象区域中存在的孔洞进行填 补,从而能够以整体为对象来处理对应的区域,避免了孔洞为处理过程带 来的难度和可能造成的意外。

在上述技术方案中,优选地,所述关联区块确定单元包括:位置关系 检测子单元,用于检测所述图像区块与所述文字区块之间的位置关系,其 中,若指定图像区块与至少一个文字区块相交,或所述指定图像区块与所 述至少一个文字区块的间隔距离小于预设距离,则判定所述至少一个文字 区块与所述指定图像区块相关联。

在该技术方案中,由于图像往往存在一些文字描述,比如图标题、图 中的标注文字等等,这些文字与图像之间是相关联的,应该划分至相同的 区块。通过上述处理,使得分割出来的复合图区块更加准确。

在上述技术方案中,优选地,还包括:图像生成单元,用于将所述复 合图区块生成为图像文件;图像保存单元,用于保存所述图像文件。

在该技术方案中,直接将分割出来的复合图区块以图像文件的形式进 行保存,从而不必对图元ID进行管理,尤其是当这些复合图区块中包含 有数量很多的图元时,以图像文件进行处理的方式,显然有利于提升处理 效率。

根据本发明的又一方面,还提出了一种版式文档中复合图的提取方 法,包括:步骤202,对所述版式文档进行解析,确定构成所述版式文档 的图元及所述图元的类型;步骤204,提取文字图元以构成文字图层,并 利用其余的非文字图元构成非文字图层;步骤206,分别对所述文字图层 和所述非文字图层进行版面分析处理,以生成所述文字图层中的文字区块 和所述非文字图层中的图像区块;步骤208,确定与每个所述图像区块相 关联的文字区块,以合并为复合图区块;步骤210,存储所述复合图区块 包含的所有图元的标识。

在该技术方案中,通过对版式文档进行解析后,将得到的图元分别构 成文字图层(包含文字图元)和非文字图层(包含图像图元等),然后分 别对每个图层进行区块分类,最终利用区块之间的关系判定复合图区块, 以实现对复合图区块的分割,并确保对文字图元和非文字图元的妥善处 理。在生成多个图层时,具体地,可以先提取所有的文字图元以形成文字 图层,然后将文字图元过滤以利用剩余的元素构成非文字图元。本方案可 以对图文混排、包含图像和图注信息等复杂情况进行有效地分析,从而准 确地分割出其中的复合图区块。复合图区块中可以包含一个或多个复合 图,还可以包含复合图中或周围的图注等文字。通过记录所有构成该复合 图区块的图元的标识,如图元ID,从而能够利用这些图元ID来对应出该 复合图区块,实现了将该区块与整个版面的分离,方便进行流式重排等处 理。

在上述技术方案中,优选地,对所述文字图层进行版面分析处理的步 骤包括:对所述文字图层中的文字图元进行聚类处理,以对所述文字图元 进行分类,其中,对于同类别的多个文字图元,若对应的最小外接矩形相 交或间隔距离小于预设距离,则将所述多个文字图元作为文字图元集合, 并将所述文字图元集合的最小外接矩形作为一个所述文字区块。

在该技术方案中,通过基于页面内文字图元邻域特征相似性的聚类算 法处理,可以有效地对文字图元进行分类,从而确定每个文字图元应该属 于正文部分还是复合图部分。通过对距离的判断及相应的处理,从而确定 多个文字图元的构成关系,比如用于构成一个文字区块,该文字区块对应 于一个完整的字符。

在上述技术方案中,优选地,对所述非文字图层进行版面分析处理的 步骤包括:获取所述非文字图层中的非文字图元的纹理特征,并根据预设 的特征阈值,检测出所述非文字图层中连通的非文字对象区域,其中,对 于多个所述连通的非文字对象区域,若对应的最小外接矩形相交或间隔距 离小于预设距离,则将多个所述连通的非文字对象区域作为区域集合,并 将所述区域集合的最小外接矩形作为所述图像区块。

在该技术方案中,利用基于纹理分析和形态学处理的页面非文字对象 的连通域检测,从而识别出版面中的连通的非文字对象区域,该区域实际 上对应于版面中的一幅图像或该图像中的一部分;再通过对距离的判断及 相应的处理,即可将构成同一幅图像的多个连通区域进行合并,从而实现 对某一幅图像的完整的识别。

在上述技术方案中,优选地,还包括:对所述连通的非文字对象区域 中存在的孔洞进行填补。

在该技术方案中,通过对连通的非文字对象区域中存在的孔洞进行填 补,从而能够以整体为对象来处理对应的区域,避免了孔洞为处理过程带 来的难度和可能造成的意外。

在上述技术方案中,优选地,所述确定与每个所述图像区块相关联的 文字区块的步骤包括:检测所述图像区块与所述文字区块之间的位置关 系,若指定图像区块与至少一个文字区块相交,或所述指定图像区块与所 述至少一个文字区块的间隔距离小于预设距离,则判定所述至少一个文字 区块与所述指定图像区块相关联。

在该技术方案中,由于图像往往存在一些文字描述,比如图标题、图 中的标注文字等等,这些文字与图像之间是相关联的,应该划分至相同的 区块。通过上述处理,使得分割出来的复合图区块更加准确。

在上述技术方案中,优选地,还包括:将所述复合图区块保存为图像 文件。

在该技术方案中,直接将分割出来的复合图区块以图像文件的形式进 行保存,从而不必对图元ID进行管理,尤其是当这些复合图区块中包含 有数量很多的图元时,以图像文件进行处理的方式,显然有利于提升处理 效率。

通过以上技术方案,可以在复杂的文档版面布局中,尤其是图文混排 版面中,实现对复合图的准确提取。

附图说明

图1示出了根据本发明的实施例的版式文档中复合图的提取装置的框 图;

图2示出了根据本发明的实施例的版式文档中复合图的提取方法的流 程图;

图3示出了根据本发明的实施例的对版式文档中的复合图进行提取的 具体流程图;

图4A至图4D示出了根据本发明的一个实施例的对版式文档中的复 合图进行提取的示意图;

图5A至图5D示出了根据本发明的另一个实施例的对版式文档中的 复合图进行提取的示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附 图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不 冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是, 本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明 并不限于下面公开的具体实施例的限制。

图1示出了根据本发明的实施例的版式文档中复合图的提取装置的框 图。

如图1所示,根据本发明的实施例的版式文档中复合图的提取装置 100,包括:文档解析单元102,用于对所述版式文档进行解析,确定构 成所述版式文档的图元及所述图元的类型;图层生成单元104,用于提取 文字图元以构成文字图层,并利用其余的非文字图元构成非文字图层;版 面分析单元106,用于分别对所述文字图层和所述非文字图层进行版面分 析处理;区块生成单元108,用于根据所述版面分析单元106的版面分析 处理结果,生成所述文字图层中的文字区块和所述非文字图层中的图像区 块;关联区块确定单元110,用于确定与每个所述图像区块相关联的文字 区块,以合并为复合图区块;标识存储单元112,用于存储所述复合图区 块包含的所有图元的标识。

在该技术方案中,通过对版式文档进行解析后,将得到的图元分别构 成文字图层(包含文字图元)和非文字图层(包含图像图元等),然后分 别对每个图层进行区块分类,最终利用区块之间的关系判定复合图区块, 以实现对复合图区块的分割,并确保对文字图元和非文字图元的妥善处 理。在生成多个图层时,具体地,可以先提取所有的文字图元以形成文字 图层,然后将文字图元过滤以利用剩余的元素构成非文字图元。本方案可 以对图文混排、包含图像和图注信息等复杂情况进行有效地分析,从而准 确地分割出其中的复合图区块。复合图区块中可以包含一个或多个复合 图,还可以包含复合图中或周围的图注等文字。通过记录所有构成该复合 图区块的图元的标识,如图元ID,从而能够利用这些图元ID来对应出该 复合图区块,实现了将该区块与整个版面的分离,方便进行流式重排等处 理。

在上述技术方案中,优选地,所述版面分析单元106包括:聚类处理 子单元1060,用于对所述文字图层中的文字图元进行聚类处理,以对所 述文字图元进行分类;文字区块生成子单元1062,对于同类别的多个文 字图元,在对应的最小外接矩形相交或间隔距离小于预设距离的情况下, 用于将所述多个文字图元作为文字图元集合,并将所述文字图元集合的最 小外接矩形作为一个所述文字区块。

在该技术方案中,通过基于页面内文字图元邻域特征相似性的聚类算 法处理,可以有效地对文字图元进行分类,从而确定每个文字图元应该属 于正文部分还是复合图部分。通过对距离的判断及相应的处理,从而确定 多个文字图元的构成关系,比如用于构成一个文字区块,该文字区块对应 于一个完整的字符。

在上述技术方案中,优选地,所述版面分析单元106包括:纹理特征 获取子单元1064,用于获取所述非文字图层中的非文字图元的纹理特 征;连通区域检测子单元1066,用于根据所述纹理特征以及预设的特征 阈值,检测出所述非文字图层中连通的非文字对象区域;图像区块生成子 单元1068,对于多个所述连通的非文字对象区域,在对应的最小外接矩 形相交或间隔距离小于预设距离的情况下,用于将多个所述连通的非文字 对象区域作为区域集合,并将所述区域集合的最小外接矩形作为所述图像 区块。

在该技术方案中,利用基于纹理分析和形态学处理的页面非文字对象 的连通域检测,从而识别出版面中的连通的非文字对象区域,该区域实际 上对应于版面中的一幅图像或该图像中的一部分;再通过对距离的判断及 相应的处理,即可将构成同一幅图像的多个连通区域进行合并,从而实现 对某一幅图像的完整的识别。

在上述技术方案中,优选地,所述版面分析单元106还包括:孔洞填 补子单元1069,用于对所述连通的非文字对象区域中存在的孔洞进行填 补。

在该技术方案中,通过对连通的非文字对象区域中存在的孔洞进行填 补,从而能够以整体为对象来处理对应的区域,避免了孔洞为处理过程带 来的难度和可能造成的意外。

在上述技术方案中,优选地,所述关联区块确定单元110包括:位置 关系检测子单元1100,用于检测所述图像区块与所述文字区块之间的位 置关系,其中,若指定图像区块与至少一个文字区块相交,或所述指定图 像区块与所述至少一个文字区块的间隔距离小于预设距离,则判定所述至 少一个文字区块与所述指定图像区块相关联。

在该技术方案中,由于图像往往存在一些文字描述,比如图标题、图 中的标注文字等等,这些文字与图像之间是相关联的,应该划分至相同的 区块。通过上述处理,使得分割出来的复合图区块更加准确。

在上述技术方案中,优选地,还包括:图像生成单元114,用于将所 述复合图区块生成为图像文件;图像保存单元116,用于保存所述图像文 件。

在该技术方案中,直接将分割出来的复合图区块以图像文件的形式进 行保存,从而不必对图元ID进行管理,尤其是当这些复合图区块中包含 有数量很多的图元时,以图像文件进行处理的方式,显然有利于提升处理 效率。

图2示出了根据本发明的实施例的版式文档中复合图的提取方法的流 程图。

如图2所示,根据本发明的实施例的版式文档中复合图的提取方法, 包括:步骤202,对所述版式文档进行解析,确定构成所述版式文档的图 元及所述图元的类型;步骤204,提取文字图元以构成文字图层,并利用 其余的非文字图元构成非文字图层;步骤206,分别对所述文字图层和所 述非文字图层进行版面分析处理,以生成所述文字图层中的文字区块和所 述非文字图层中的图像区块;步骤208,确定与每个所述图像区块相关联 的文字区块,以合并为复合图区块;步骤210,存储所述复合图区块包含 的所有图元的标识。

在该技术方案中,通过对版式文档进行解析后,将得到的图元分别构 成文字图层(包含文字图元)和非文字图层(包含图像图元等),然后分 别对每个图层进行区块分类,最终利用区块之间的关系判定复合图区块, 以实现对复合图区块的分割,并确保对文字图元和非文字图元的妥善处 理。在生成多个图层时,具体地,可以先提取所有的文字图元以形成文字 图层,然后将文字图元过滤以利用剩余的元素构成非文字图元。本方案可 以对图文混排、包含图像和图注信息等复杂情况进行有效地分析,从而准 确地分割出其中的复合图区块。复合图区块中可以包含一个或多个复合 图,还可以包含复合图中或周围的图注等文字。通过记录所有构成该复合 图区块的图元的标识,如图元ID,从而能够利用这些图元ID来对应出该 复合图区块,实现了将该区块与整个版面的分离,方便进行流式重排等处 理。

在上述技术方案中,优选地,对所述文字图层进行版面分析处理的步 骤包括:对所述文字图层中的文字图元进行聚类处理,以对所述文字图元 进行分类,其中,对于同类别的多个文字图元,若对应的最小外接矩形相 交或间隔距离小于预设距离,则将所述多个文字图元作为文字图元集合, 并将所述文字图元集合的最小外接矩形作为一个所述文字区块。

在该技术方案中,通过基于页面内文字图元邻域特征相似性的聚类算 法处理,可以有效地对文字图元进行分类,从而确定每个文字图元应该属 于正文部分还是复合图部分。通过对距离的判断及相应的处理,从而确定 多个文字图元的构成关系,比如用于构成一个文字区块,该文字区块对应 于一个完整的字符。

在上述技术方案中,优选地,对所述非文字图层进行版面分析处理的 步骤包括:获取所述非文字图层中的非文字图元的纹理特征,并根据预设 的特征阈值,检测出所述非文字图层中连通的非文字对象区域,其中,对 于多个所述连通的非文字对象区域,若对应的最小外接矩形相交或间隔距 离小于预设距离,则将多个所述连通的非文字对象区域作为区域集合,并 将所述区域集合的最小外接矩形作为所述图像区块。

在该技术方案中,利用基于纹理分析和形态学处理的页面非文字对象 的连通域检测,从而识别出版面中的连通的非文字对象区域,该区域实际 上对应于版面中的一幅图像或该图像中的一部分;再通过对距离的判断及 相应的处理,即可将构成同一幅图像的多个连通区域进行合并,从而实现 对某一幅图像的完整的识别。

在上述技术方案中,优选地,还包括:对所述连通的非文字对象区域 中存在的孔洞进行填补。

在该技术方案中,通过对连通的非文字对象区域中存在的孔洞进行填 补,从而能够以整体为对象来处理对应的区域,避免了孔洞为处理过程带 来的难度和可能造成的意外。

在上述技术方案中,优选地,所述确定与每个所述图像区块相关联的 文字区块的步骤包括:检测所述图像区块与所述文字区块之间的位置关 系,若指定图像区块与至少一个文字区块相交,或所述指定图像区块与所 述至少一个文字区块的间隔距离小于预设距离,则判定所述至少一个文字 区块与所述指定图像区块相关联。

在该技术方案中,由于图像往往存在一些文字描述,比如图标题、图 中的标注文字等等,这些文字与图像之间是相关联的,应该划分至相同的 区块。通过上述处理,使得分割出来的复合图区块更加准确。

在上述技术方案中,优选地,还包括:将所述复合图区块保存为图像 文件。

在该技术方案中,直接将分割出来的复合图区块以图像文件的形式进 行保存,从而不必对图元ID进行管理,尤其是当这些复合图区块中包含 有数量很多的图元时,以图像文件进行处理的方式,显然有利于提升处理 效率。

图3示出了根据本发明的实施例的对版式文档中的复合图进行提取的 具体流程图。

如图3所示,根据本发明的实施例的对版式文档中的复合图进行提取 的具体流程包括:

步骤302,利用解析引擎对原始的版式文档进行解析。

步骤304,根据解析结果,获取该版式文档中包含的图元。

步骤306,判断图元的类型,比如可以根据解析出来的图元类型进行 分辨,其中,若为文字类型,则获取该文字图元并进入步骤310,否则进 入步骤308。

步骤308,依据该图元的类型进行相应的处理。

步骤310,对页面进行分层处理,具体地,根据步骤306获取的文字 图元,将所有的文字图元构成文字图层,然后将所有的文字图元过滤后, 剩余的图元构成非文字图层。

当然,这种通过对文字图元进行获取、分层、过滤、再分层的方式仅 为图层构建的一种方式,实际上,也可以通过对非文字图元进行获取来实 现,或是分别获取文字图元和非文字图元以同时分别构成图层等。

下面将分别对文字图层和非文字图层进行处理,其中,步骤312至步 骤316对文字图层进行了处理,而步骤318至步骤322对非文字图层进行 处理,以下分别进行详细说明。

步骤312,构建Delaunay三角剖分的邻域关系。具体地,以页面内文 字图元的外接矩形的质心为顶点V,通过采用Delaunay三角剖分,构建页 面内文字图元的邻域关系G=(V,E)。

步骤314,采用基于图的并查集算法对文字图元聚类。具体地,包 括:

1、对构建的无向图中连接相邻节点vi和vj的边E,计算其权重 w(vi,vj):

w(vi,vj)=Σkλkfk(vi,vj)

其中,k为相邻节点vi和vj的特征相似度函数fk(vi,vj)的维数,可以 视不同的应用场景选择特征函数的维数,λk为选择的特征函数的权系数。

2、为将所有的文字图元进行聚类,根据页面内节点间的统计分布, 定义节点集合间的类内距离Int(C)和类间距离Dif(C1,C2)。具体的聚类过 程采用基于图的并查集算法:

1)将页面内每个节点,即每个文字图元,当成一个集合,遍历无向 图的边;

2)查询连接边的两个节点分别属于哪个集合;

3)如果节点集合C1和C2的类间距离满足条件 Dif(C1,C2)≤min(Int(C1),Int(C2)),则合并这两个集合,形成新的集合C’1, 并删去集合C1和C2;而当Dif(C1,C2)>min(Int(C1),Int(C2)),则不进行合并 操作;

4)遍历完所有的边,完成对文字图元的聚类,计算相近且同类文字 图元集合的外接矩形框。

步骤318,计算纹理特征,检测连通区域。具体地,包括:计算该图 层的图像纹理特征,采用灰度共生矩阵捕捉非文字对象的纹理特征,主要 包括图像局部熵和局部标准差,设定与页面大小相关的阈值,检测出页面 图像中连通的非文字对象区域。

步骤320,利用形态学处理填充连通区域内的孔洞。具体地,可以采 用基于形态学腐蚀算子的孔洞填充算法,将连通区域中的孔洞进行填补。

步骤322,检测连通区域的外接矩形框,区域生长成非文字对象的外 接矩形框。具体地,首先计算出每个检测到非文字对象连通区域的外接矩 形(最小外接矩形,作为该非文字对象连通区域对应的范围),然后对重 叠相交或邻接距离小于设定间距的矩形框进行区域生长,计算最终的外接 矩形框。

步骤324,判断矩形框是否合并。具体地,在对文字图层和非文字图 层分别进行处理后,可以分别得到一些文字或非文字区域的外接矩形框, 这里,通过将这些外接矩形框进行距离上的比较,以确定是否将某些外接 矩形框进行合并处理,判断过程包括:

如果非文字层的非文字连通对象和文字层的文字类矩形框相交,或者 距离小于设定间距,则合并这两个矩形框;

如果距离大于字符间距,则不进行合并操作。

步骤326,根据任意两个外接矩形框的合并处理结果(包括进行了合 并或没有进行合并),判断结果是否收敛,若是,则进入步骤328,否则 返回步骤324,从而确保对所有的矩形框都进行了合并处理,以实现对复 合图的准确分割。

步骤328,返回最终矩形框集合,保存文件。具体地,当矩形框没有 新的合并操作时,算法收敛,最终返回复合图的外接矩形框信息(确定对 应的区域的信息),将构成复合图所对应的图元ID集合保存成XML文 件。或者,也可以采用将分割出来的复合图保存为图像文件的形式,从而 避免对数量众多的图元ID进行管理时的效率低下的问题。

下面将列举多个实施例,分别具体地对本发明的技术方案进行详细说 明。

图4A至图4D示出了根据本发明的一个实施例的对版式文档中的复 合图进行提取的示意图。

如图4A至图4D所示,以中文版式文档图书“台灣古厝圖鑑”中的 一张双栏页面为例,该图中包括:由文字图元构成的正文文字部分 402A、图注文字部分402B、页面文字部分402D和图中文字部分402E, 以及由非文字图元构成的装饰性复合图404A、分栏线复合图404B、正文 插图复合图404C和正文插图复合图404D,下面将按照图3给出的流程分 割出页面中的复合图对象。

首先需要通过解析引擎获取版式文档的各种图元,然后对路径图元进 行分组,得到仅包含文字图元的文字图层和包含其余的非文字图元的非文 字图层。

具体地,可以通过提取文档内嵌的文字图元,并使用提取出来的页面 内的文字图元构成文字图层;然后,将文字图元过滤后,利用剩余的非文 字图元构成非文字图层。如图4A所示,对该页面中的所有文字的外接矩 形框进行了可视化显示;将页面内文字图元过滤,重新绘制页面,形成非 文字图层,如图4B所示。

然后需要分别对文字图层和非文字图层进行处理,处理流程如图3中 的步骤312至步骤316、步骤318至步骤322所示。

1、针对文字图层进行聚类处理,图4C给出以页面内文字图元的外接 矩形的质心为顶点,采用Delaunay三角剖分构建的文字图元邻域关系。 以解析后版式文档中包含的文字图元的字体信息为特征,设计基于图的并 查集算法,对文字聚类的结果采用不同的颜色来显示,如图4C所示,该 页面内的文字聚为4类,分别属于正文文字部分402A、图注文字部分 402B、页面文字部分402D和图中文字部分402E。

2、对非文字图层进行基于纹理分析和形态学处理的连通域检测,并 对得到的连通域进行关联分析和区域生长,以及确定生长完成后的连通域 的外接矩形框。

3、融合对文字图层和非文字图层的分割结果,该页面的复合图的最 终分割结果如图4D所示,页面左边的装饰性复合图404A,内部包括图中 文字部分402E,该图被准确的分割出来;页面下方的正文插图复合图 404C包含大量的路径操作和环绕其四周文字图元,其分割难度是比较大 的,但采用本发明的方法,也被准确的分割出来;对于分栏线复合图 404B和灰度图(正文插图复合图404D),都被准确的分割出来。分割结 果可直接用于版式文档的流式重排应用。

图5A至图5D示出了根据本发明的另一个实施例的对版式文档中的 复合图进行提取的示意图。

如图5A至图5D所示,以英文版式文档图书“Advances in Selected  Plant Physiology Aspects”中的一张单栏页面为例,该图中包括:由文字 图元构成的正文文字部分502A和页眉文字部分502B,以及由非文字图元 构成的正文插图复合图504A和分栏线复合图504B,下面将按照图3给出 的流程分割出页面中的复合图对象。

首先需要通过解析引擎获取版式文档的各种图元,然后对路径图元进 行分组,得到仅包含文字图元的文字图层和包含其余的非文字图元的非文 字图层。

具体地,可以通过提取文档内嵌的文字图元,并使用提取出来的页面 内的文字图元构成文字图层;然后,将文字图元过滤后,利用剩余的非文 字图元构成非文字图层。如图5A所示,对该页面中的所有文字的外接矩 形框进行了可视化显示;将页面内文字图元过滤,重新绘制页面,形成非 文字图层,如图5B所示。

然后需要分别对文字图层和非文字图层进行处理,处理流程如图3中 的步骤312至步骤316、步骤318至步骤322所示。

1、针对文字图层进行聚类处理,图5C给出以页面内文字图元的外接 矩形的质心为顶点,采用Delaunay三角剖分构建的文字图元邻域关系。 以解析后版式文档中包含的文字图元的字体信息为特征,设计基于图的并 查集算法,对文字聚类的结果采用不同的颜色来显示,如图5C所示,该 页面内的文字聚为2类,分别属于正文文字部分502A和页眉文字部分 502B。

2、对非文字图层进行基于纹理分析和形态学处理的连通域检测,并 对得到的连通域进行关联分析和区域生长,以及确定生长完成后的连通域 的外接矩形框。

3、融合对文字图层和非文字图层的分割结果,该页面的复合图的最 终分割结果如图5D所示,页面中间的正文插图复合图504A,由扫描的3 个子图构成,图中文字皆属于扫描子图,由这些子图构成的复合图被准确 的分割出来;页面上方的分栏线复合图504B,都被准确的分割出来。分 割结果可直接用于版式文档的流式重排应用。

以上结合附图详细说明了本发明的技术方案,本发明将基于图像的版 面分析技术应用到版式文档复合图的结构信息提取,结合图像文档处理技 术和版式文档固有的底层结构信息,为高效可靠的智能文档分析和理解奠 定基础,为提高图文及多媒体信息的动态实时混排和跨平台阅读的鲁棒性 提供支持。

以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于 本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精 神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明 的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号