公开/公告号CN104268127A
专利类型发明专利
公开/公告日2015-01-07
原文格式PDF
申请/专利权人 同方知网(北京)技术有限公司;
申请/专利号CN201410488102.2
申请日2014-09-22
分类号G06F17/21(20060101);G06F17/30(20060101);
代理机构11340 北京天奇智新知识产权代理有限公司;
代理人刘黎明
地址 100084 北京市海淀区清华园清华大学36区华业大厦B1410、1412、1414室
入库时间 2023-12-17 03:57:53
法律状态公告日
法律状态信息
法律状态
2018-02-09
授权
授权
2015-02-04
实质审查的生效 IPC(主分类):G06F17/21 申请日:20140922
实质审查的生效
2015-01-07
公开
公开
技术领域
本发明涉及信息技术领域,尤其涉及一种电子档版式文件阅读顺序分析 的方法。
背景技术
PDF(Portable Document Format,便携式文件格式)是Adobe公司发展 出来的一种文件格式,它的优点在于跨平台,能保留文件原有的格式 (Layout),高质量和保真的进行原始文件和格式的呈现,但是PDF是非结 构化的数据存储格式,对于进行PDF文件中文本的信息检索或PDF格式转换 为其它流式格式文件,提取出来的文本信息并非是按文件的阅读顺序输出, 可能存在后序的内容提前出现在输出的文本中。
专利申请号为2010105591353的专利申请文件公开了识别版面阅读顺序 的方法,包括:读取待识别版面,并分析版面以得到版面布局信息和字符文 本对象和图像对象的对象属性;根据版面布局信息和对象属性,将字符文本 对象合并为文本段落并将图形对象识别为图像段落;采用全局递归切割与局 部先后顺序判定相结合的方式来确定文本段落和图像段落的阅读顺序,其中, 通过投影来进行全局切割,对于全局切割之后仍包含多个段落的分组,采用 局部判定方法来判断段落的先后顺序。此方法使用的递归划分法在纵向有一 定缺陷,容易出现模棱两可的块划分。
专利申请号为2004100914343的专利申请文件公开了一种基于内容的对 报纸版面进行文字阅读顺序恢复的方法,该方法是针对处理复杂报纸版面存 在丢失阅读顺序且内容不具有篇章独立性的缺陷的问题来以图论理论进行数 学建模,把文字块的邻接关系表示为有向图,并把有向图拆分转化为加权二 分图,采用自然语言处理技术计算二分图边权值,通过最优匹配得到多个连 续序列,每个序列再根据文字块样式信息分割成多个子序列,子序列对应内 容的连接即是独立篇章的具有阅读顺序的文字流。此方法使用了复杂的图论 算法和自然语言处理技术。
为了解决上述问题本申请文件提供了一种针对版式文件进行聚类分析, 并按照拓扑排序的方法进行阅读顺序分析和识别的方法。
发明内容
为解决上述技术问题,本发明的目的是提供一种针对版式文件进行聚类 分析,并按照拓扑顺序的方法进行阅读顺序分析和识别的方法,该方法通过 识别物理块的拓扑顺序,即可实现快速高效准确的判定逻辑顺序。方法简单 高效、准确率高。
本发明的目的通过以下的技术方案来实现:
提取PDF文件中原始信息;
识别页眉、页脚,并对相邻文本内容进行合并,得到行内容;
对文本行内容进行块合并,得到文本块内容;
对相邻图片进行合并,得到图片块内容;
对路径信息进行分析,得到水平方向的分割线;
将文本快内容和图片块内容进行X方向投影,得到水平分隔块内容;
以文本块内容、图片块内容、水平分隔线、表格及水平分隔块内容物理 信息为元素,进行拓扑排序,得到PDF文件的阅读顺序;
通过阅读顺序基础对文本块内容进行分段识别;
输出XML格式文本。
与现有技术相比,本发明的一个或多个实施例可以具有如下优点:
该方法针对版式文件进行聚类分析,按照拓扑排序的方法进行阅读顺序 分析和识别的方法,同时对输出内容进行XML格式化话输出,方便进行PDF 格式文件的检索和格式转换。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本 发明的实施例共同用于解释本发明,并不构成对本发明的限制。在附图中:
图1是电子档版式文件阅读顺序分析的方法流程图;
图2是PDF原始文件结构图;
图3是原始文本信息结构图;
图4是文本行合并、页眉页脚识别和分隔行识别效果图;
图5是文本块效果结构图;
图6是阅读顺序分析效果图;
图7是逻辑段落效果结构图;
图8是XML输出图;
图9是包含图片和表格的阅读顺序分析效果图;
图10是三栏的PDF文件阅读顺序效果图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合实施例及附图 对本发明作进一步详细的描述。
如图1所示,是电子档版式文件阅读顺序分析的方法流程,包括以下步 骤:
提取PDF文件中原始信息;
识别页眉、页脚,并对相邻文本内容进行合并,得到行内容;
对文本行内容进行块合并,得到文本块内容;
对相邻图片进行合并,得到图片块内容;
对路径信息进行分析,得到水平方向的分割线;
将文本快内容和图片块内容进行X方向投影,得到水平分隔块内容;
以文本块内容、图片块内容、水平分隔线、表格及水平分隔块内容物理 信息为元素,进行拓扑排序,得到PDF文件的阅读顺序;
通过阅读顺序基础对文本块内容进行分段识别;
输出XML格式文本。
上述对不同于正文内容的表格文本内容进行区域识别。
对所述相邻图片合并还包括:对分割过的PDF图片进行相邻合并,因为 虚拟打印生成的PDF图片可能是被分割过的,需要进行相邻合并,同时进行 相邻小图片的合并,得到一个相对较大的图片。
所述提取的PDF文件中原始信息包括:文本信息、图片信息和图片的坐 标信息、路径信息及PDF的页码与页面大小。
所述文本信息包括文本内容、字体信息和坐标信息。
所述文本快内容和图片块内容进行X方向投影,是通过XYCut算法计算 出水平方向的分隔块信息。
上述以文本块内容、图片块内容、水平分隔线、表格及水平分隔块内容 物理信息为元素,进行拓扑排序,现以物理块A、物理块B和物理块C为例, 其排序过程依据以下两条规则:
(1)当物理块A在x方向覆盖B时,A的拓扑序在B之前。
(2)当物理块A和B之间(Y方向)不存在一个物理块C同时覆盖物 理块A和物理块B时,同时物理块A在物理块B的左侧,那么A的拓扑序 在物理块B之前。
按照上述两条规则,确定任意两个物理块的物理顺序,并按照拓扑排序 算法进行物理块的遍历,得到PDF页面的阅读顺序。
如附图为本实施例实例图,图2是PDF原始文件结构图;图3是原始文 本信息结构图;图4是文本行合并、页眉页脚识别和分隔行识别效果图;图 5是文本块效果结构图;图6是阅读顺序分析效果图;图7是逻辑段落效果 结构图;图8是XML输出图;图9是包含图片和表格的阅读顺序分析效果图; 图10是三栏的PDF文件阅读顺序效果图。
虽然本发明所揭露的实施方式如上,但所述的内容只是为了便于理解本 发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内 的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的 形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所 附的权利要求书所界定的范围为准。
机译: 电子信箱的文件阅读确认方法和电子信箱的文件阅读确认程序记录介质
机译: 集成数字电子系统的硬件描述语言文件分析过程,涉及以顺序方式在HDL文件中插入硬件描述语言(HDL)指令序列以获得SCAN链
机译: 文件阅读器及文件阅读器的版面分析及校正处理方法