首页> 中国专利> 名词短语的提取方法、系统、存储介质及电子设备

名词短语的提取方法、系统、存储介质及电子设备

摘要

本发明公开了一种名词短语的提取方法、系统、存储介质及电子设备,提取方法包括:抽取步骤:通过spacy的中文模型抽取待抽取文本的依存关系获得token序列,通过识别服务识别出所述待抽取文本中的实体;提取步骤:根据所述依存关系制定提取规则,根据所述提取规则从所述token序列中提取名词短语序列;整合步骤:对所述名词短语序列进行判断后,根据判断结果将所述名词短语序列中的名词短语进行头尾整合获得规范名词短语序列;合并步骤:将所述实体与所述规范名词短语序列进行合并获得最终名词短语序列。本发明从专业领域角度,不仅能够提取常规意义的名词短语,而且能够提取包含特殊动词结构的名词短语。

著录项

  • 公开/公告号CN112560488A

    专利类型发明专利

  • 公开/公告日2021-03-26

    原文格式PDF

  • 申请/专利权人 北京明略软件系统有限公司;

    申请/专利号CN202011414360.8

  • 发明设计人 曹梦娣;苑世娇;尤旸;

    申请日2020-12-07

  • 分类号G06F40/295(20200101);G06F40/284(20200101);G06F40/258(20200101);

  • 代理机构37256 青岛清泰联信知识产权代理有限公司;

  • 代理人赵燕

  • 地址 100089 北京市海淀区中关村东路1号院1号楼10层A1002

  • 入库时间 2023-06-19 10:24:22

说明书

技术领域

本发明涉及文本处理领域,具体地说,尤其涉及一种面向专业领域的 名词短语的提取方法、系统、存储介质及电子设备。

背景技术

中文分词将连续的字序列按照一定的规范重新组合成词序列,常见的 分词一般都是基于通用领域的。关键词提取是从词序列中根据某些原理提 取出能够表达文本中心的词语,它是在通用领域的分词结果上进行的,并 且只能提取出一系列单个词语,而单个词语仍然是碎片化的,并不足以表 达完整的专业领域的词语含义。比如“知识”、“图谱”,“主动”、“学 习”、“技术”,这些单个词语并不能明确表达专业领域的“知识图谱” 和“主动学习技术”。因此急需开发一种克服上述缺陷的面向专业领域的 名词短语的提取方法、系统、存储介质及电子设备。

发明内容

针对上述问题,本发明提供一种名词短语的提取方法,其中,包括:

抽取步骤:通过spacy的中文模型抽取待抽取文本的依存关系获得 token序列,通过实体识别服务识别出所述待抽取文本中的实体;

提取步骤:根据所述依存关系制定提取规则,根据所述提取规则从所 述token序列中提取名词短语序列;

整合步骤:对所述名词短语序列进行判断后,根据判断结果将所述名 词短语序列中的名词短语进行头尾整合获得规范名词短语序列;

合并步骤:将所述实体与所述规范名词短语序列进行合并获得最终名 词短语序列。

上述的提取方法,其中,所述抽取步骤包括:

依存关系抽取步骤:通过所述中文模型对所述待抽取文本进行依存关 系解析获得具有属性值的所述token序列;

实体获取步骤:通过所述实体识别服务识别出所述待抽取文本中的实 体。

上述的提取方法,其中,所述提取步骤包括:

长度识别步骤:对所述token序列的长度进行识别后输出识别结果;

序列输出步骤:根据所述识别结果制定所述提取规则,根据所述提取 规则从所述token序列中提取出所述名词短语序列。

上述的提取方法,其中,所述整合步骤包括:将所述名词短语序列中 大于一阈值的token序列进行头尾整合获得所述规范名词短语序列。

上述的提取方法,其中,所述合并步骤包括:将所述规范名词短语序 列和所述实体根据合并规则进行合并从而获得最终名词短语序列。

本发明还提供一种名词短语的提取系统,其中,包括:

抽取单元,通过spacy的中文模型抽取待抽取文本的依存关系获得 token序列,通过实体识别服务识别出所述待抽取文本中的实体;

提取单元,根据所述依存关系制定提取规则,根据所述提取规则从所 述token序列中提取名词短语序列;

整合单元,对所述名词短语序列进行判断后,根据判断结果将所述名 词短语序列中的名词短语进行头尾整合获得规范名词短语序列;

合并单元,将所述实体与所述规范名词短语序列进行合并获得最终名 词短语序列。

上述的提取系统,其中,所述抽取单元包括:

依存关系抽取模块,通过所述中文模型对所述待抽取文本进行依存关 系解析获得具有属性值的所述token序列;

实体获取模块,通过所述实体识别服务识别出所述待抽取文本中的实 体。

上述的提取系统,其中,所述提取单元包括:

长度识别模块,对所述token序列的长度进行识别后输出识别结果;

序列输出模块,根据所述识别结果制定所述提取规则,根据所述提取 规则从所述token序列中提取出所述名词短语序列。

本发明还提供一种电子设备,包括存储器、处理器以及存储在所述存储 器上并可在所述处理器上运行的计算机程序,其中,所述处理器执行所述 计算机程序时实现如上述中任一项所述的提取方法。

本发明还提供一种存储介质,其上存储有计算机程序,其中,该程序 被处理器执行时实现如上述中任一项所述的提取方法。

综上所述,本发明相对于现有技术其功效在于:本发明利用分词结果, 制定了一系列规则,从专业领域角度,不仅能够提取常规意义的名词短语, 而且能够提取包含特殊动词结构的名词短语;从而与单纯的根据分词结果 提取名词词语相比,能够提取更丰富、更准确的专业领域相关的名词短语。

本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从 说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其 他优点可通过在说明书、权利要求书以及附图中所指出的结构来实现和获 得。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对 实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地, 下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲, 在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明的名词短语的提取方法的流程图;

图2为图1中步骤S1的分步骤流程图;

图3为图1中步骤S2的分步骤流程图;

图4为本发明的名词短语的提取方法的应用流程图;

图5为依存关系的示意图;

图6为本发明的名词短语的提取系统的结构示意图;

图7为本发明的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本 发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地说 明,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。 基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提 下所获得的所有其他实施例,都属于本发明保护的范围。

本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发 明的限定。另外,在附图及实施方式中所使用相同或类似标号的元件/构件 是用来代表相同或类似部分。

关于本文中所使用的“第一”、“第二”、“S1”、“S2”、…等, 并非特别指称次序或顺位的意思,也非用以限定本发明,其仅为了区别以 相同技术用语描述的元件或操作。

关于本文中所使用的方向用语,例如:上、下、左、右、前或后等, 仅是参考附图的方向。因此,使用的方向用语是用来说明并非用来限制本 创作。

关于本文中所使用的“包含”、“包括”、“具有”、“含有”等等, 均为开放性的用语,即意指包含但不限于。

关于本文中所使用的“及/或”,包括所述事物的任一或全部组合。

关于本文中的“多个”包括“两个”及“两个以上”;关于本文中的 “多组”包括“两组”及“两组以上”。

关于本文中所使用的用语“大致”、“约”等,用以修饰任何可以微 变化的数量或误差,但这些微变化或误差并不会改变其本质。一般而言, 此类用语所修饰的微变化或误差的范围在部分实施例中可为20%,在部分实 施例中可为10%,在部分实施例中可为5%或是其他数值。本领域技术人员 应当了解,前述提及的数值可依实际需求而调整,并不以此为限。

某些用以描述本申请的用词将于下或在此说明书的别处讨论,以提供 本领域技术人员在有关本申请的描述上额外的引导。

本发明旨在提出一种面向专业领域的名词短语的提取方法,该提取方 法也可以应用于文档标签生成、数据库信息查询等领域。

请参照图1-图3,图1为本发明的名词短语的提取方法的流程图;图2 为图1中步骤S1的分步骤流程图;图3为图1中步骤S2的分步骤流程图。 如图1-图3所示,本发明的名词短语的提取方法,包括:

抽取步骤S1:通过spacy的中文模型抽取待抽取文本的依存关系获得 token序列,通过实体识别服务识别出所述待抽取文本中的实体,其中spacy 是一个用于自然语言处理的库,可以用于进行分词,命名实体识别,词性 识别等等。

其中,抽取步骤S1包括:

依存关系抽取步骤S11:通过所述中文模型对所述待抽取文本进行依存 关系解析获得具有属性值的所述token序列;

实体获取步骤S12:通过所述实体识别服务识别出所述待抽取文本中的 实体。

提取步骤S2:根据所述依存关系制定提取规则,根据所述提取规则从 所述token序列中提取名词短语序列,名词短语序列包括常规名词短语序 列和包含特殊动词结构的名词短语序列。

其中,提取步骤S2包括:

长度识别步骤S21:对所述token序列的长度进行识别后输出识别结果;

序列输出步骤S22:根据所述识别结果制定所述提取规则,根据所述提 取规则从所述token序列中提取出所述名词短语序列。

整合步骤S3:对所述名词短语序列进行判断后,根据判断结果将所述 名词短语序列中的名词短语进行头尾整合获得规范名词短语序列,其中, 所述整合步骤S3包括:将所述名词短语序列中大于一阈值的token序列进 行头尾整合获得所述规范名词短语序列。

合并步骤S4:将所述实体与所述规范名词短语序列进行合并获得最终 名词短语序列,其中,所述合并步骤S4包括:将所述规范名词短语序列和 所述实体根据合并规则进行合并从而获得最终名词短语序列。

请参照图4-图5,图4为本发明的名词短语的提取方法的应用流程图; 图5为依存关系的示意图。如图4-图5所示,以下结合图4-图5通过一具 体实施例对本发明的名词短语的提取方法进行说明如下。

一、文本解析

spacy是一个用于自然语言处理的库,可以用于进行分词,命名实体识别, 词性识别等等。本发明利用该库对待处理文本进行依存关系解析,解析之 后可以得到一个token序列(即词语序列),每个token包含固定的属性。 表1为token包含属性的具体含义对照表,表2为token中的tag_属性的 具体含义对照表。

表1:token属性的具体含义对照表

表2:常见tag_属性的具体含义对照表

如文本“我爱自然语言处理。”通过spacy的依存关系解析之后得到的token 序列如表3所示(其中一行为一个token,表头为token的部分属性),得到 的依存结构如图5所示,是一个有向图,箭头从中心词指向从属,即从head 指向child。

表3:token序列示例

二、根据规则提取名词短语序列

通过spacy解析得到待抽取文本的依存关系之后,根据经验制定一系 列规则以提取常规名词短语序列nn_nps:

1、如果解析得到的token序列长度为1且该token的tag_属性值为 NN或NR,将[当前token]作为token序列添加到名词短语序列nn_nps 中。

2、如果解析得到的token序列长度大于1,遍历所有token,根据 以下不同情况处理。

(1)满足以下全部条件时将[当前token]作为token序列添加到 nn_nps中:

a)当前token的tag_属性值为JJ/AD/CD;

b)下一个token的tag_属性值为NN/NR;

c)当前token的head属性值等于下一个token的i属性值 或当前token的head属性值等于下一个token的head属性 值。

(2)如果当前token的tag_属性值为NN/NR/FW,则根据以下不同情 况处理:

a)如果当前token是第一个token,或此时名词短语序列 nn_nps长度为0,则将[当前token]作为token序列添加到 nn_nps中;

b)如果上一个token的tag_属性值不是NN/NR/JJ/AD/CD, 则将[当前token]作为token序列添加到nn_nps中;

c)如果上一个token的tag_属性值是NN/NR/JJ/AD/CD:

如果nn_nps的最后一个token序列长度大于0且nn_nps最后 一个token序列的最后一个token是当前token的上一个token, 则将当前token添加到np_list的最后一个token序列中;否 则将[当前token]直接作为token序列添加到nn_nps中。

据经验制定一系列规则以提取包含特殊动词结构的名词短语序列 vv_nps:

1、如果token序列的长度大于3,从第1个token遍历到倒数第2 个token,根据以下不同情况处理:

(1)如果上一个token的tag_属性值是NN/AD,且当前token的tag_ 属性值是VV,且上一个token的head属性值是当前token的i 属性值,且下一个token的tag_属性值是DEC/PU,则将[上一 个token,当前token]作为token序列添加到名词短语序列 vv_nps中。

(2)如果上一个token的tag_属性值是VV,且当前token的tag_ 属性值是NN,且下一个token的tag_属性值是ETC,则将[上 一个token,当前token]作为token序列添加到名词短语序列 vv_nps中。

(3)如果上一个token的tag_属性值是JJ,且当前token的tag_ 属性值是JJ,且下一个token的tag_属性值是NN,且上一个 token的head属性值等于当前token的head属性值等于下一 个token的i属性值,则将[上一个token,当前token,下一 个token]作为token序列添加到名词短语序列vv_nps中。

2、如果token序列的长度大于4,从第1个token遍历到倒数第3 个token,根据以下不同情况处理:

(1)如果上一个token的tag_属性值是AS/VV/CC,且当前token 的tag_属性值是AD,且下一个token的tag_属性值是VV,且 下下个token的tag_属性值是NN,且当前token的head属性 值等于下一个token的i属性值,且下一个token的head属性 值等于下下个token的i属性值,则将[当前token,下一个 token,下下个token]作为token序列添加到名词短语序列 vv_nps中。

(2)如果上一个token的tag_属性值是DEC,且当前token的tag_ 属性值是NN,且下一个token的tag_属性值是VV,且下下个 token的tag_属性值是NN,且当前token的head属性值等于 下一个token的head属性值等于下下个token的i属性值,则 将[当前token,下一个token,下下个token]作为token序列 添加到名词短语序列vv_nps中。

(3)如果上一个token的tag_属性值是CC/PU/P,且当前token的 tag_属性值是NN,且下一个token的tag_属性值是VV,且下 下个token的tag_属性值是CC/PU,则将[当前token,下一个 token]作为token序列添加到名词短语序列vv_nps中。

将提取得到的常规名词短语序列nn_nps和包含特殊动词结构的名词短 语序列vv_nps合并,即为根据所定规则提取的所有名词短语序列。由上述 规则可知,名词短语序列是由若干个token序列组成的,其中每个token 序列的长度不等,可能为1,可能大于1。

其中,若当前token为第n个,则上一个为第n-1个token,下一个为 第n+1个token,下下个为第n+2个token。

三、名词短语序列整合

由上一步可知,根据规则提取的名词短语序列是由长度不等的token 序列组成的。如果包含的token序列长度大于1,需要对这些token序列进 行头尾整合,从而得到整合后的规范的名词短语序列。

如[主动,学习,技术],其中“主动”在待抽取文本中的位置是以索引i 开始,以索引i+2结束;“学习”是以索引i+2开始,以索引i+4结束; “技术”是以索引i+4开始,以索引i+6结束,则整合为[主动学习技术], 其中“主动学习技术”在待抽取文本中是以索引i开始,以索引i+6结束 的。

四、实体识别结果和名词短语合并

上面的处理步骤已经得到了根据规则抽取的名词短语,包括名词短语 的内容和名词短语在原始文本中的开始及结束索引。利用实体识别服务识 别出待抽取文本中的实体,包括实体的内容和该实体在原始文本中的开始 及结束索引。最后将抽取的名词短语和识别的实体进行合并从而得到最终 的名词短语序列np_list,从头开始遍历名词短语和实体,合并规则如下:

1、如果当前实体的开始索引小于当前名词短语的结束索引,再根据 不同情况进行处理:

(1)如果当前实体的开始索引等于当前名词短语的开始索引,将当 前名词短语添加到np_list中。然后向后遍历实体直到实体的 开始索引大于等于当前名词短语的结束索引,然后再向后遍历 一个名词短语。

(2)如果当前实体的开始索引不等于当前名词短语的开始索引,将 当前实体添加到np_list中。然后向后遍历名词短语直到实体 的结束索引小于等于名词短语的开始索引,然后再向后遍历一 个实体。

2、如果当前实体的开始索引大于当前名词短语的结束索引,将当前 名词短语添加到np_list中。然后向后遍历实体直到实体的开始索引 大于等于名词短语的结束索引,然后再向后遍历一个名词短语。

重复上述规则,直到名词短语或实体遍历结束。如果名词短语优先遍 历结束,则将剩余的实体添加到np_list中,如果实体优先遍历结束,则 将剩余的名词短语添加到np_list中。

以上步骤全部结束得到的np_list就是最终的面向专业领域的名词短 语。

请参照图6,图6为本发明的名词短语的提取系统的结构示意图。如图 6所示,本发明的名词短语的提取系统包括:

抽取单元11,通过spacy的中文模型抽取待抽取文本的依存关系获得 token序列,通过实体识别服务识别出所述待抽取文本中的实体;

提取单元12,根据所述依存关系制定提取规则,根据所述提取规则从 所述token序列中提取名词短语序列;

整合单元13,对所述名词短语序列进行判断后,根据判断结果将所述 名词短语序列中的名词短语进行头尾整合获得规范名词短语序列;

合并单元14,将所述实体与所述规范名词短语序列进行合并获得最终 名词短语序列。

其中,所述抽取单元11包括:

依存关系抽取模块111,通过所述中文模型对所述待抽取文本进行依存 关系解析获得具有属性值的所述token序列;

实体获取模块112,通过所述实体识别服务识别出所述待抽取文本中的 实体。

进一步地,所述提取单元12包括:

长度识别模块121,对所述token序列的长度进行识别后输出识别结果;

序列输出模块122,根据所述识别结果制定所述提取规则,根据所述提 取规则从所述token序列中提取出所述名词短语序列。

整合单元13将所述名词短语序列中大于一阈值的token序列进行头尾 整合获得所述规范名词短语序列。

合并单元14将所述规范名词短语序列和所述实体根据合并规则进行合 并从而获得最终名词短语序列。

请参照图7,图7为本发明的电子设备的结构示意图。如图7所示,本 实施例揭示了一种电子设备的一种具体实施方式。电子设备可以包括处理 器81以及存储有计算机程序指令的存储器82。

具体地,上述处理器81可以包括中央处理器(CPU),或者特定集成 电路(Application Specific Integrated Circuit,简称为ASIC),或者 可以被配置成实施本申请实施例的一个或多个集成电路。

其中,存储器82可以包括用于数据或指令的大容量存储器。举例来说 而非限制,存储器82可包括硬盘驱动器(Hard Disk Drive,简称为HDD)、 软盘驱动器、固态驱动器(Solid State Drive,简称为SSD)、闪存、光 盘、磁光盘、磁带或通用串行总线(UniversalSerial Bus,简称为USB) 驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器82可 包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器82可 在数据处理装置的内部或外部。在特定实施例中,存储器82是非易失性 (Non-Volatile)存储器。在特定实施例中,存储器82包括只读存储器 (Read-Only Memory,简称为ROM)和随机存取存储器(Random Access Memory, 简称为RAM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM (Programmable Read-Only Memory,简称为PROM)、可擦除PROM(ErasableProgrammable Read-Only Memory,简称为EPROM)、电可擦除PROM (ElectricallyErasable Programmable Read-Only Memory,简称为 EEPROM)、电可改写ROM(Electrically Alterable Read-Only Memory, 简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合 适的情况下,该RAM可以是静态随机存取存储器(StaticRandom-Access Memory,简称为SRAM)或动态随机存取存储器(Dynamic Random AccessMemory,简称为DRAM),其中,DRAM可以是快速页模式动态随机存取存储 器(Fast PageMode Dynamic Random Access Memory,简称为FPMDRAM)、 扩展数据输出动态随机存取存储器(Extended Date Out Dynamic Random Access Memory,简称为EDODRAM)、同步动态随机存取内存(Synchronous Dynamic Random-Access Memory,简称SDRAM)等。

存储器82可以用来存储或者缓存需要处理和/或通信使用的各种数据 文件,以及处理器81所执行的可能的计算机程序指令。

处理器81通过读取并执行存储器82中存储的计算机程序指令,以实 现上述实施例中的任意一种提取方法。

在其中一些实施例中,电子设备还可包括通信接口83和总线80。其中, 如图7所示,处理器81、存储器82、通信接口83通过总线80连接并完成相互 间的通信。

通信接口83用于实现本申请实施例中各模块、装置、单元和/或设备 之间的通信。通信端口83还可以实现与其他部件例如:外接设备、图像/ 数据采集设备、数据库、外部存储以及图像/数据处理工作站等之间进行数 据通信。

总线80包括硬件、软件或两者,将电子设备的部件彼此耦接在一起。 总线80包括但不限于以下至少之一:数据总线(Data Bus)、地址总线 (Address Bus)、控制总线(Control Bus)、扩展总线(Expansion Bus)、 局部总线(Local Bus)。举例来说而非限制,总线80可包括图形加速接 口(Accelerated Graphics Port,简称为AGP)或其他图形总线、增强工 业标准架构(Extended Industry Standard Architecture,简称为EISA) 总线、前端总线(Front Side Bus,简称为FSB)、超传输(Hyper Transport, 简称为HT)互连、工业标准架构(Industry Standard Architecture,简 称为ISA)总线、无线带宽(InfiniBand)互连、低引脚数(Low Pin Count, 简称为LPC)总线、存储器总线、微信道架构(Micro ChannelArchitecture, 简称为MCA)总线、外围组件互连(Peripheral Component Interconnect,简称为PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(Serial AdvancedTechnology Attachment,简称为SATA)总线、视频电子标准协 会局部(Video ElectronicsStandards Association Local Bus,简称为 VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的 情况下,总线80可包括一个或多个总线。尽管本申请实施例描述和示出了 特定的总线,但本申请考虑任何合适的总线或互连。

另外,结合上述实施例中处理方法,本申请实施例可提供一种计算机 可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令; 该计算机程序指令被处理器执行时实现上述实施例中的任意一种提取方法。

综上所述,本发明设计了一种基于规则的、面向专业领域的名词短语 的提取方法、系统、存储介质及电子设备。通过利用分词结果,制定了一 系列规则,从专业领域角度,不仅能够提取常规意义的名词短语,而且能 够提取包含特殊动词结构的名词短语。与单纯的根据分词结果提取名词词 语相比,能够提取更丰富、更准确的专业领域相关的名词短语。

尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术 人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改, 或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相 应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号