公开/公告号CN112395852A
专利类型发明专利
公开/公告日2021-02-23
原文格式PDF
申请/专利权人 江西金格科技股份有限公司;
申请/专利号CN202011530649.6
申请日2020-12-22
分类号G06F40/194(20200101);G06F40/106(20200101);
代理机构
代理人
地址 330096 江西省南昌市高新区火炬大街579号绿悦科技大厦15楼
入库时间 2023-06-19 10:00:31
技术领域
本发明版式文档元素提取技术,特别涉及一种多文件格式版式文档的对比方法。
背景技术
我国已经正式将OFD格式确立为我国电子文件的国家标准。OFD格式诞生之前,国内的文档格式应用较为混乱。此前市场上应用最广泛的是美国Adobe公司推出的PDF(Portable Document Format)版式的文档格式,其被广泛应用在电子商务和文档管理等领域,此外党委机关使用CEBX格式,政府机关使用的书生SEP格式、学术领域使用的知网CAJ格式互不兼容。国内电子文档由于缺乏统一的版式标准而应用混乱,而文件的长期保存也面临困境。
文档数据来源有三类:第一类为原生文档,即创建一个新的文档;第二类为转换文档,即由其他格式的电子文档转换而来;第三类为纸质文档,通过扫描生成的文档。
可以预见,对于上述版式文档数据来源的第二类,来自文档转换途径的需求量将会越来越大,在当前实际情况中,日益增多的文档云转换需求亦是体现了这一预期。目前,对于文档转换业务只能通过人工肉眼方式对转换前和转换后的文档内容进行对比,效率与准确性低下。
现有的版式文档的对比,仅限于相同文件格式的版式文档间的对比,是基于文档段落的语义分析与聚类对比,而且对于包含各种丰富图元和包含个性文档元素的复杂版式文档内容的对比没有良好的适应性与扩展性。通过将转换后的目标版式文档进行第二次文件格式还原转换,同时,配合相同文件格式的版式文档对比功能或者可以间接实现不同文件格式的版式文档的对比。但其所带来的弊端也较为明显:文档对比功能无法保持业务独立性,会对文档对比结果产生难以分析与察觉的关联性影响。另外由于不同文件格式的版式文档的差异性,需要为不同文件格式的版式文档各自设计一套独立的版式文档对比系统。
随着PDF与OFD等不同文件格式的版式文档之间的文档转换需求增大,不同文件格式的版式文档的对比成为一个需要面临和关注的问题。
发明内容
本发明的目的是提供一种多文件格式版式文档的对比方法,以实现对不同文件格式的版式文档内容的直接对比功能。
本发明的目的是这样实现的。一种多文件格式版式文档的对比方法,包括:文档元素提取环节、文档元素抽象环节、文档内容对比环节和文档差异输出环节;
所述文档元素提取环节是依据不同版式文档格式的标准作为参考,对版式文档进行格式解析与内容读取,并将最终解析出来的数据内容作为文档元素抽象环节的输入数据;
所述文档元素抽象环节是依赖于文档元素提取环节的结果数据,并按上述输入数据将文档中的主要图元元素抽象转换为自定义的文档图元结构,并将上述图元结构数据分类保存为不同的二进制文件,且以不同的文件后缀名区分类型;
所述文档内容对比环节是针对文档元素抽象环节的结果数据文件,按照文件后缀名分类,逐类型地进行图元抽象文件的读取与对比操作,且将对比结果将作为文档差异输出环节的输入数据;
所述文档差异输出环节依赖于文档内容对比环节的结果数据,对差异结果进行汇总、合并与展示。
本发明为不同格式的版式文档之间的文档转换质量效果检验提供了一个弹性的质量效果衡量工具,解决了当前人工检测文档转换质量所存在的检测效率与准确性低下的弊端。
附图说明
图1是本发明的实施例系统示意图。
具体实施方式
以下结合附图和实施步骤对本发明作进一步说明。参见图1,一种多文件格式版式文档的对比方法,其步骤如下:
1)参见本发明的系统结构图(见图1),数据流由图中左上角开始,并以虚线为指引,标明了整个多文件格式版式文档的对比步骤与过程。
2)首先将两个需要待比较的版式文档“版式文档1”与“版式文档2”作为本发明中对比装置文档元素提取模块的输入。
3)在文档元素提取模块中,根据输入文档的文件格式,进行相应的文件格式解析与文档内容提取。具体的文件格式解析过程依据相应的版式文档标准。例如OFD版式文档的格式解析与内容读取,以zip压缩文件格式解析OFD版式文档,首先读取OFD.xml配置文件,继而根据OFD.xml中的配置信息,分别读取压缩文件中包含其他各种xml配置文件与各类资源文件,并以相应的数据结构保存在计算机RAM内存中。对于PDF文档的格式解析与内容读取,从PDF版式文档的尾部读取trailer结构信息,首先定位到PDF交叉引用表部分,继而根据交叉引用表,逐步读取body部分描述的各种配置信息与各类资源信息,并以相应的数据结构保存在计算机RAM内存中。
4)对于文档元素提取模块的输出将作为元素对象抽象模块的输入。依据系统结构图(图1),此时数据流进入元素对象抽象模块。在此模块中,将对文档中的内容数据按照自定义的数据格式进行统一抽象处理,并分类保存至具有不同后缀名的二进制文件中。
如果“版式文档1”的内容中存在以下描述的各种版式文档图元信息,那么:
“版式文档1”的页对象数据将被保存至“版式文档1.page”文件;
“版式文档1”的资源对象数据将被保存至“版式文档1.res”文件;
“版式文档1”的复合对象数据将被保存至“版式文档1.comp”文件;
“版式文档1”的书签对象数据将被保存至“版式文档1. bkmk”文件;
“版式文档1”的字体对象数据将被保存至“版式文档1.font”文件;
“版式文档1”的图形对象数据将被保存至“版式文档1.path”文件;
“版式文档1”的图像对象数据将被保存至“版式文档1.img”文件;
“版式文档1”的批注对象数据将被保存至“版式文档1.annt”文件;
“版式文档1”的签名对象数据将被保存至“版式文档1.sign”文件;
“版式文档1”的摘要对象数据将被保存至“版式文档1.refe”文件;
“版式文档1”的附件对象数据将被保存至“版式文档1.atta”文件。
如果“版式文档2”的内容中存在以下描述的各种版式文档图元信息,那么:
“版式文档2”的页对象数据将被保存至“版式文档2.page”文件;
“版式文档2”的资源对象数据将被保存至“版式文档2.res”文件;
“版式文档2”的复合对象数据将被保存至“版式文档2.comp”文件;
“版式文档2”的书签对象数据将被保存至“版式文档2. bkmk”文件;
“版式文档2”的字体对象数据将被保存至“版式文档2.font”文件;
“版式文档2”的图形对象数据将被保存至“版式文档2.path”文件;
“版式文档2”的图像对象数据将被保存至“版式文档2.img”文件;
“版式文档2”的批注对象数据将被保存至“版式文档2.annt”文件;
“版式文档2”的签名对象数据将被保存至“版式文档2.sign”文件;
“版式文档2”的摘要对象数据将被保存至“版式文档2.refe”文件;
“版式文档2”的附件对象数据将被保存至“版式文档2.atta”文件。
5)对于元素对象抽象模块的输出将作为文档元素对比模块的输入。依据系统结构图(见图1),此时数据流进入文档元素对比模块。在此模块中,将对元素对象抽象模块输出的文档元素抽象文件按照文件后缀名称,逐类型的进行文档元素的读取与比较。并生成相应的比较结果。
6)依据系统结构图(见图1),此时数据流进行最后的文档内容差异报告模块。该模块主要是对文档元素对比模块的不同图元类型的差异结果进行汇总与合并,并最终通过文件或格式化的数据流进行对比差异的展示。
机译: 印刷版和版式系统,例如Adobe InDesign是一种数据转换方法,涉及以智能方式组合或对齐来自便携式文档格式方面的文本和图像数据以及来自编辑和布局系统的数据
机译: 电子文件,例如用户文档的管理方法,涉及当从中央存储器格式和文档模型的文档中生成输出格式的文档时,以接收者的身份将文档作为输出格式的文档输出
机译: 打印版式系统,版式文档浏览方法和程序