首页> 中国专利> 一种基于关键词拆分技术的文档关键信息提取方法和系统

一种基于关键词拆分技术的文档关键信息提取方法和系统

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明提出了一种基于关键词拆分技术的文档关键信息提取方法和系统，涉及文档关键信息提取领域。该方法包括：将获取的目标文档转换成XML格式文档；基于关键词拆分检测技术对XML格式文档进行关键信息提取。通过获取目标文档并将目标文档转换成XML格式文档；XML为可扩展标记语言，是一种用于标记电子文件使其具有结构性的标记语言。因此将目标文档转换成XML格式文档，便于后续提取信息。基于关键词拆分检测技术对XML格式文档进行关键信息提取。该步骤中，可以从连续的自然语言文本中，抽取出结构化的关键字段信息。解决文档信息量大且过于繁杂、无法让用户快速获取需要的信息的问题。

著录项

公开/公告号CN113850056A

专利类型发明专利
公开/公告日2021-12-28

原文格式PDF
申请/专利权人南方电网调峰调频发电有限公司信息通信分公司;
展开▼

申请/专利号CN202111052073.1
发明设计人佘俊;赵增涛;余少锋;廖崇阳;罗勇;
展开▼

申请日2021-09-08
分类号G06F40/154(20200101);G06F40/258(20200101);G06F40/221(20200101);G06F40/169(20200101);
代理机构51308 成都鱼爪智云知识产权代理有限公司;
代理人梁悦敏
地址 511492 广东省广州市番禺区东环街番禺大道北555号番禺节能科技园内街天安总部中心1号楼601房
入库时间 2023-06-19 13:26:15

说明书

技术领域

本发明涉及文档关键信息提取领域，具体而言，涉及一种基于关键词拆分技术的文档关键信息提取方法和系统。

背景技术

目前对资料文档的文字提取存在两种方法，一种是利用OCR识别技术，将资料文档转换成图像，经过版面分析，行字切分、文字识别，将结果输出；另一种方法是利用资料文档进行解析，提取文字信息，直接将结果输出。

但是，上述两种方法重在提取资料文档的文本，在实际使用中遇到以下问题：

资料文档的格式有很多，不同格式的文档只能用指定的阅读器打开，文字提取较为困难。

发明内容

为了克服上述问题或者至少部分地解决上述问题，本发明实施例提供一种基于关键词拆分技术的文档关键信息提取方法和系统。

本发明的实施例是这样实现的：

第一方面，本发明实施例提供一种基于关键词拆分技术的文档关键信息提取方法，包括：

获取目标文档并将目标文档转换成XML格式文档；

基于关键词拆分检测技术对XML格式文档进行关键信息提取。

通过获取目标文档并将目标文档转换成XML格式文档；XML为可扩展标记语言，是一种用于标记电子文件使其具有结构性的标记语言。因此将目标文档转换成XML格式文档，便于后续提取信息。基于关键词拆分检测技术对XML格式文档进行关键信息提取。该步骤中，可以从连续的自然语言文本中，抽取出结构化的关键字段信息。解决文档信息量大且过于繁杂、无法让用户快速获取需要的信息的问题。

基于第一方面，在本发明的一些实施例中，上述目标文档包括html文档、pdf文档和word文档。

获取目标文档并将目标文档转换成XML格式文档的步骤包括：

将Word文档、PDF文档、Html转换成XML格式文档。

基于第一方面，在本发明的一些实施例中，上述基于关键词拆分检测技术对XML格式文档进行关键信息提取的方法包括：基于关键词拆分检测技术对XML格式文档的关键字进行提取。

基于第一方面，在本发明的一些实施例中，基于关键词拆分检测技术对XML格式文档的关键字进行提取的方法包括：

由文章开头开始向后逐段扫描查询含有关键词或关键字的字样，对含有关键词或关键字的字样的段落进行标记得到标记的段落；

若标记的段落中关键词或关键字的字样在段首则判定为关键字段；

获取关键字段中的各关键词。

基于第一方面，在本发明的一些实施例中，上述基于关键词拆分检测技术对XML格式文档进行关键信息提取的方法包括：对XML格式文档的标题进行提取。

基于第一方面，在本发明的一些实施例中，对XML格式文档的标题进行提取的方法包括：

判断正文开始位置；

从正文开始位置向前搜索在预设字数内的小段落标记得到多个标记小段落；

从多个标记小段落寻找居中的小段落，判定为居中的段落为标题。

第二方面，本发明实施例提供一种基于关键词拆分技术的文档关键信息提取系统，包括：

转换模块，用于获取目标文档并将目标文档转换成XML格式文档；

关键信息提取模块，用于基于关键词拆分检测技术对XML格式文档进行关键信息提取。

基于第二方面，在本发明的一些实施例中，上述转换模块还包括：

标记模块，用于由文章开头开始向后逐段扫描查询含有关键词或关键字的字样，对含有关键词或关键字的字样的段落进行标记得到标记的段落；

判定模块，用于若标记的段落中关键词或关键字的字样在段首则判定为关键字段；

获取关键词模块，用于获取关键字段中的各关键词。

第三方面，本发明实施例提供一种电子设备，包括：

至少一个处理器、至少一个存储器和数据总线；其中：

上述处理器与上述存储器通过上述数据总线完成相互间的通信；上述存储器存储有可被上述处理器执行的程序指令，上述处理器调用上述程序指令以执行上述的方法。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，上述非暂态计算机可读存储介质存储计算机程序，上述计算机程序使上述计算机执行上述的方法。

相对于现有技术，本发明的实施例至少具有如下优点或有益效果：

通过获取目标文档并将目标文档转换成XML格式文档；该步骤中，目标文档的格式有很多，比如Word文档、PDF文档、Html转换等等，不同格式的文档只能用指定的阅读器打开，文字提取较为困难。因此，该步骤获取目标文档并将目标文档转换成XML格式文档，XML为可扩展标记语言，是一种用于标记电子文件使其具有结构性的标记语言。在电子计算机中，标记指计算机所能理解的信息符号，通过此种标记，计算机之间可以处理包含各种的信息比如文章等。它可以用来标记数据、定义数据类型，是一种允许用户对自己的标记语言进行定义的源语言。适合万维网传输，提供统一的方法来描述和交换独立于应用程序或供应商的结构化数据。是Internet环境中跨平台的、依赖于内容的技术，也是当今处理分布式结构信息的有效工具。

基于关键词拆分检测技术对XML格式文档进行关键信息提取。该步骤中，可以从连续的自然语言文本中，抽取出结构化的关键字段信息。解决文档信息量大且过于繁杂、无法让用户快速获取需要的信息的问题。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明一种基于关键词拆分技术的文档关键信息提取方法一实施例的流程图；

图2为本发明一种基于关键词拆分技术的文档关键信息提取方法另一实施例的流程图；

图3为本发明一种基于关键词拆分技术的文档关键信息提取系统一实施例的结构框图；

图4为本发明一种电子设备一实施例的结构示意图。

图标：1、转换模块；2、关键信息提取模块；3、处理器；4、存储器；5、数据总线。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本申请所提供的实施例中，应该理解到，所揭露的方法和系统，也可以通过其它的方式实现。系统实施例仅仅是示意性的，例如，附图中的框图显示了根据本申请的多个实施例的系统和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，框图中的每个方框可以代表一个模块、程序段或代码的一部分，模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备，可以是个人计算机，服务器，或者网络设备等，执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在本发明实施例的描述中，还需要说明的是，除非另有明确的规定和限定，若出现术语“设置”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

实施例

经过长期的研究和实践，本申请的申请人发现，现有技术中

请参照图1，第一方面，本发明实施例提供一种基于关键词拆分技术的文档关键信息提取方法，包括：

S1：通过获取目标文档并将目标文档转换成XML格式文档；

该步骤中，目标文档的格式有很多，上述目标文档包括html文档、pdf文档和word文档。不同格式的文档只能用指定的阅读器打开，文字提取较为困难。因此，该步骤获取目标文档并将目标文档转换成XML格式文档，XML为可扩展标记语言，是一种用于标记电子文件使其具有结构性的标记语言。在电子计算机中，标记指计算机所能理解的信息符号，通过此种标记，计算机之间可以处理包含各种的信息比如文章等。它可以用来标记数据、定义数据类型，是一种允许用户对自己的标记语言进行定义的源语言。适合万维网传输，提供统一的方法来描述和交换独立于应用程序或供应商的结构化数据。是Internet环境中跨平台的、依赖于内容的技术，也是当今处理分布式结构信息的有效工具。因此将目标文档转换成XML格式文档，便于后续提取信息。

pdf文档的结构包括文件头、文件主体、交叉引用表和文件尾。文件头说明了该PDF文件的版本号。文件主体由一系列的PDF间接对象组成。这些间接对象构成了PDF文件的具体内容如字体、页面、图像等等。交叉引用表则是为了能对间接对象进行随机存取而设立的一个削接对象的地址索引表。文件尾声明了交叉引用表的地址，指明文件体的根对象，还保存了加密等安全信息。根据文件尾提供的信息，PDF的应用程序可以找到交叉引用表和整个PDF根对象，从而控制整个PDF文件。PDF文件体的结构是一种树型的层次结构。根结点就是Catalog对象，下面有四个子树，分别是Page Tree，Outline Tree，Thread Tree和NameDestination。PDF文档转换成XML格式文档的方法包括：

遍历Page Tree读取Page节点，对内容流进行解码读取PDF操作符，同时遍历Outline Tree读取所有标签，再根据PDF操作符分析格式信息，同时根据Bookmark的位置信息加入篇章结构信息，最后输出XML文件。

Word文档由main stream，summary information stream，table stream和datastream组成，每个Word文件都有一个文件头，叫做FIB，对于保存文件Complex都包含word文件头FIB，将Word文档转换成XML格式文档的方法包括：

解开Word文档读取main stream，summary information stream，table stream和data stream；找到FIB，判断是否加密，Word版本号信息；确定是否为Complex文件，对保存的文件进行解码；输出XML文件。

S2：基于关键词拆分检测技术对XML格式文档进行关键信息提取。

该步骤中，可以从连续的自然语言文本中，抽取出结构化的关键字段信息。解决文档信息量大且过于繁杂、无法让用户快速获取需要的信息的问题。例如提取文档的标题、关键词、摘要等等作为关键信息。关键信息

请参照图2，示例性的，基于关键词拆分检测技术对XML格式文档的关键字进行提取的方法包括：

S21：由文章开头开始向后逐段扫描查询含有关键词或关键字的字样，对含有关键词或关键字的字样的段落进行标记得到标记的段落；

该步骤中，文章内通常会对关键词用一个段落进行描述，因此可以直接抽取用文字内的关键词。

S22：若标记的段落中关键词或关键字的字样在段首则判定为关键字段；

该步骤中，阐述关键词的段落中，关键词的字样出现在段首，因此，出现关键字的字样在段首则判定为关键字段。

S23：获取关键字段中的各关键词。

示例性的，上述基于关键词拆分检测技术对XML格式文档进行关键信息提取的方法包括：对XML格式文档的标题进行提取。

对XML格式文档的标题进行提取的方法包括：

判断正文开始位置；

从正文开始位置向前搜索在预设字数内的小段落标记得到多个标记小段落；

从多个标记小段落寻找居中的小段落，判定为居中的段落为标题。

请参照图3，第二方面，本发明实施例提供一种基于关键词拆分技术的文档关键信息提取系统，包括：

转换模块1，用于获取目标文档并将目标文档转换成XML格式文档；

关键信息提取模块2，用于基于关键词拆分检测技术对XML格式文档进行关键信息提取。

基于第二方面，在本发明的一些实施例中，上述转换模块1还包括：

标记模块，用于由文章开头开始向后逐段扫描查询含有关键词或关键字的字样，对含有关键词或关键字的字样的段落进行标记得到标记的段落；

判定模块，用于若标记的段落中关键词或关键字的字样在段首则判定为关键字段；

获取关键词模块，用于获取关键字段中的各关键词。

该系统实施例的具体实施方式请参考方法实施例，本实施例在此不作过多阐述。

请参照图4，第三方面，本发明实施例提供一种电子设备，包括：

至少一个处理器3、至少一个存储器4和数据总线5；其中：上述处理器3与上述存储器4通过上述数据总线5完成相互间的通信；上述存储器4存储有可被上述处理器3执行的程序指令，上述处理器3调用上述程序指令以执行上述的方法。例如执行S1：将获取的目标文档转换成XML格式文档；S2：基于关键词拆分检测技术对XML格式文档进行关键信息提取。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，上述非暂态计算机可读存储介质存储计算机程序，上述计算机程序使上述计算机执行上述的方法。例如执行S1：将获取的目标文档转换成XML格式文档；S2：基于关键词拆分检测技术对XML格式文档进行关键信息提取。

综上，本申请提供一种基于关键词拆分技术的文档关键信息提取方法和系统，通过获取目标文档并将目标文档转换成XML格式文档；该步骤中，目标文档的格式有很多，比如Word文档、PDF文档、Html转换等等，不同格式的文档只能用指定的阅读器打开，文字提取较为困难。因此，该步骤获取目标文档并将目标文档转换成XML格式文档，XML为可扩展标记语言，是一种用于标记电子文件使其具有结构性的标记语言。在电子计算机中，标记指计算机所能理解的信息符号，通过此种标记，计算机之间可以处理包含各种的信息比如文章等。它可以用来标记数据、定义数据类型，是一种允许用户对自己的标记语言进行定义的源语言。适合万维网传输，提供统一的方法来描述和交换独立于应用程序或供应商的结构化数据。是Internet环境中跨平台的、依赖于内容的技术，也是当今处理分布式结构信息的有效工具。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其它的具体形式实现本申请。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于关键词拆分技术的文档关键信息提取方法和系统 [P] . 中国专利： CN113850056A . 2021-12-28
2. 一种文档图像关键信息提取方法及系统 [P] . 中国专利： CN111242060A . 2020-06-05
3. Document keyword extraction method and apparatus based on word document relevance score and graph structure [P] . 日本专利： JP5877677B2 . 2016-03-08

机译：基于word文档相关性得分和图结构的文档关键词提取方法及装置
4. METHOD AND APPARATUS FOR EXTRACTING KEYWORD OF DOCUMENT BASED ON DOCUMENT RELATIONSHIP SCORE OF WORD AND GRAPH STRUCTURE [P] . 日本专利： JP2012079309A . 2012-04-19

机译：基于单词和图形结构的文档关系得分的文档关键词提取方法及装置
5. KEYWORD EXTRACTION SYSTEM AND KEYWORD EXTRACTION METHOD USING CATEGORY MATCHING [P] . 日本专利： JP2012113716A . 2012-06-14

机译：基于类别匹配的关键词提取系统及关键词提取方法