首页> 中国专利> 基于图扩展结构的词义消歧方法、装置、设备及介质

基于图扩展结构的词义消歧方法、装置、设备及介质

摘要

本发明涉及人工智能领域,提供一种基于图扩展结构的词义消歧方法、装置、设备及介质,能够根据创建的窗口提取初始图谱中的候选节点,实现了对图谱的扩展,以改善连通性,根据每条边所对应的两个候选节点间的文本相似度及每条边所对应的两个候选节点间的词义相似度计算每条边的权重,根据每条边的权重确定每个候选节点的重要度,进而探索和捕获高度语义和情感信息,提高了词义消歧的准确度,根据每个候选节点的重要度对候选图谱进行去干扰处理,得到目标图谱,以便通过去干扰处理提高词义消歧的效率,对目标图谱进行中心度量,得到目标词义,实现了对词义消歧效果的提升。此外,本发明还涉及区块链技术,目标图谱可存储于区块链节点中。

著录项

  • 公开/公告号CN113204962A

    专利类型发明专利

  • 公开/公告日2021-08-03

    原文格式PDF

  • 申请/专利权人 平安科技(深圳)有限公司;

    申请/专利号CN202110602047.5

  • 发明设计人 倪子凡;王健宗;

    申请日2021-05-31

  • 分类号G06F40/284(20200101);G06F40/30(20200101);

  • 代理机构44242 深圳市精英专利事务所;

  • 代理人涂年影

  • 地址 518000 广东省深圳市福田区福田街道福安社区益田路5033号平安金融中心23楼

  • 入库时间 2023-06-19 12:05:39

说明书

技术领域

本发明涉及人工智能技术领域,尤其涉及一种基于图扩展结构的词义消歧方法、装置、设备及介质。

背景技术

自然语言处理(Natural Language Processing,NLP)的主要目标是让机器更加智能化地了解人类如何使用自然语言表达,以执行具有挑战性的语言任务。在自然语言中,许多术语、概念和单词在不同的语境中可以包含多种含义。因此,在没有清晰可识别的上下文(即描述场景的语句)的前提下,识别一个单词的实际含义是很困难的。通常情况下,至少需要一个额外的词来提供足够的信息才能够确定目标词的实际含义,这种识别单词意图的方式被称作词义消歧,主要通过确定歧义词在给定语境中的意义来实现词义消歧。在许多自然语言处理任务(如机器翻译)中,词义消歧都被视为性能改进的关键。

现有技术中,在执行词义消歧时,主要采用的方法可分为监督方法和基于知识的无监督方法。

在监督方法中,机器学习模型由语料库训练,模糊词的正确意图是由人工标注器在语料库中进行标注。但是,这种为所有语言和单词构建训练语料库的方式成本非常昂贵,因此,监督方法在可以消除歧义的单词集上通常有一定限制。

对于基于知识的无监督方法,一般采用诸如Wordnet之类的词汇知识库,通过结合上下文信息和词汇知识库上的语义知识来执行词义消歧。相比于监督方法,基于知识的无监督方法更适合于实际的词义消歧系统。现有的无监督性词义消歧法可以分为基于相似性和基于图两种类型。

其中,基于相似性的方法是通过计算一个多义词的每个可用词义与给定上下文中的其他单词之间的语义相似度,来判断多义词的正确意义,需要同时考虑分配给邻近歧义单词的意思,具有一定的局限性。

而目前主要采用的基于图的方法结构可能不完全连接,因为目标词的一些相关意义可能在语言学上(即语义上或词汇上)与同一领域不相关,这种低连通性问题,即知识不完全,可能导致在不考虑相邻语义相关词的情况下对歧义词进行消歧,产生不连贯的意思,从而造成误解。也就是说,单词表示节点,语义相关的单词之间缺乏连接(交叉),故映射这些节点的词汇关系是相互独立的,造成无法识别每个词在给定的上下文中的意思,从而无法分析歧义词之间可能的情感关系,影响处理结果的准确度。

发明内容

鉴于以上内容,有必要提供一种基于图扩展结构的词义消歧方法、装置、设备及介质,能够通过对图谱的扩展改善连通性,进而探索和捕获高度语义和情感信息,提高了词义消歧的准确度,同时通过去干扰处理提高了词义消歧的效率。

一种基于图扩展结构的词义消歧方法,所述基于图扩展结构的词义消歧方法包括:

响应于词义消歧指令,根据所述词义消歧指令获取目标词,及获取所述目标词所属的初始图谱;

创建窗口,并根据创建的窗口提取所述初始图谱中所述目标词所对应的节点的候选节点;

连接每两个候选节点作为一条边,并根据得到的边及所述候选节点构建候选图谱;

计算每条边所对应的两个候选节点间的文本相似度,及计算每条边所对应的两个候选节点间的词义相似度;

根据每条边所对应的两个候选节点间的文本相似度及每条边所对应的两个候选节点间的词义相似度计算每条边的权重;

根据每条边的权重确定每个候选节点的重要度;

根据每个候选节点的重要度对所述候选图谱进行去干扰处理,得到目标图谱;

对所述目标图谱进行中心度量,得到所述目标词的目标词义。

根据本发明优选实施例,所述根据所述词义消歧指令获取目标词,及获取所述目标词所属的初始图谱包括:

解析所述词义消歧指令,得到所述词义消歧指令所携带的信息,所述词义消歧指令所携带的信息中包括词及地址;

获取与所述词对应的第一预设标签,及获取与所述地址对应的第二预设标签;

根据所述第一预设标签建立第一正则表达式,及根据所述第二预设标签建立第二正则表达式;

利用所述第一正则表达式遍历所述词义消歧指令所携带的信息,并将遍历到的与所述第一正则表达式相匹配的信息确定为所述目标词;

利用所述第二正则表达式遍历所述词义消歧指令所携带的信息,并将遍历到的与所述第二正则表达式相匹配的信息确定为目标地址;

连接至所述目标地址,并将所述目标地址处存储的具有所述目标词的图谱确定为所述初始图谱。

根据本发明优选实施例,所述创建窗口,并根据创建的窗口提取所述初始图谱中所述目标词所对应的节点的候选节点包括:

创建预设数量的窗口,并随机初始化每个窗口的尺度;

将所述目标词所对应的节点确定为起点,并根据每个窗口的尺度,在所述初始图谱中利用每个窗口进行扩展,得到所述预设数量的扩展节点集合;

对所述扩展节点集合进行并集处理,得到所述目标词所对应的节点的候选节点。

根据本发明优选实施例,所述计算每条边所对应的两个候选节点间的词义相似度包括:

将每条边所对应的两个候选节点确定为节点组合;

计算每条边所对应的两个候选节点中每个点的概念概率,及计算对应的节点组合的概念概率;

计算每条边所对应的两个候选节点中每个点的概念概率的负对数作为每个点的信息内容,及计算对应的节点组合的概念概率的负对数作为所述对应的节点组合的信息内容;

计算每条边所对应的两个候选节点中每个点的信息内容的和作为每条边的第一数值,及计算对应的节点组合的信息内容与预设值的乘积作为每条边的第二数值;

计算每条边的第一数值与每条边的第二数值的差值作为每条边的第三数值;

将每条边的第三数值的倒数确定为每条边所对应的两个候选节点间的词义相似度。

根据本发明优选实施例,所述根据每条边所对应的两个候选节点间的文本相似度及每条边所对应的两个候选节点间的词义相似度计算每条边的权重包括:

计算每条边所对应的两个候选节点间的文本相似度与每条边所对应的两个候选节点间的词义相似度的和作为每条边的相似度值;

对每条边的相似度值进行标准化处理,得到每条边的权重。

根据本发明优选实施例,所述根据每个候选节点的重要度对所述候选图谱进行去干扰处理,得到目标图谱包括:

比较每个候选节点的重要度与配置重要度的大小;

当检测到有候选节点的重要度小于所述配置重要度时,将检测到的候选节点确定为干扰节点;

从所述候选图谱中删除所述干扰节点,及删除所述干扰节点对应的边,得到所述目标图谱。

根据本发明优选实施例,所述对所述目标图谱进行中心度量,得到所述目标词的目标词义包括:

确定所述目标图谱中每个节点与其他节点直接连接的连接总数,并将每个节点与其他节点直接连接的连接总数确定为每个节点的度中心性值;

确定所述其他节点的总数量;

计算每个节点的度中心性值与所述总数量的商作为每个节点的标准化度中心性值;

从所述目标图谱中获取所述标准化度中心性值最高的节点确定为相似节点;

将所述相似节点的词义确定为所述目标词的目标词义。

一种基于图扩展结构的词义消歧装置,所述基于图扩展结构的词义消歧装置包括:

获取单元,用于响应于词义消歧指令,根据所述词义消歧指令获取目标词,及获取所述目标词所属的初始图谱;

提取单元,用于创建窗口,并根据创建的窗口提取所述初始图谱中所述目标词所对应的节点的候选节点;

构建单元,用于连接每两个候选节点作为一条边,并根据得到的边及所述候选节点构建候选图谱;

计算单元,用于计算每条边所对应的两个候选节点间的文本相似度,及计算每条边所对应的两个候选节点间的词义相似度;

所述计算单元,还用于根据每条边所对应的两个候选节点间的文本相似度及每条边所对应的两个候选节点间的词义相似度计算每条边的权重;

确定单元,用于根据每条边的权重确定每个候选节点的重要度;

处理单元,用于根据每个候选节点的重要度对所述候选图谱进行去干扰处理,得到目标图谱;

度量单元,用于对所述目标图谱进行中心度量,得到所述目标词的目标词义。

一种计算机设备,所述计算机设备包括:

存储器,存储至少一个指令;及

处理器,执行所述存储器中存储的指令以实现所述基于图扩展结构的词义消歧方法。

一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个指令,所述至少一个指令被计算机设备中的处理器执行以实现所述基于图扩展结构的词义消歧方法。

由以上技术方案可以看出,本发明能够响应于词义消歧指令,根据所述词义消歧指令获取目标词,及获取所述目标词所属的初始图谱,创建窗口,并根据创建的窗口提取所述初始图谱中所述目标词所对应的节点的候选节点,实现了对图谱的扩展,以改善连通性,连接每两个候选节点作为一条边,并根据得到的边及所述候选节点构建候选图谱,计算每条边所对应的两个候选节点间的文本相似度,及计算每条边所对应的两个候选节点间的词义相似度,根据每条边所对应的两个候选节点间的文本相似度及每条边所对应的两个候选节点间的词义相似度计算每条边的权重,根据每条边的权重确定每个候选节点的重要度,进而探索和捕获高度语义和情感信息,提高了词义消歧的准确度,根据每个候选节点的重要度对所述候选图谱进行去干扰处理,得到目标图谱,以便通过去干扰处理提高词义消歧的效率,进一步对所述目标图谱进行中心度量,得到所述目标词的目标词义,实现了对词义消歧效果的提升。

附图说明

图1是本发明基于图扩展结构的词义消歧方法的较佳实施例的流程图。

图2是本发明基于图扩展结构的词义消歧装置的较佳实施例的功能模块图。

图3是本发明实现基于图扩展结构的词义消歧方法的较佳实施例的计算机设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。

如图1所示,是本发明基于图扩展结构的词义消歧方法的较佳实施例的流程图。根据不同的需求,该流程图中步骤的顺序可以改变,某些步骤可以省略。

所述基于图扩展结构的词义消歧方法应用于一个或者多个计算机设备中,所述计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific IntegratedCircuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。

所述计算机设备可以是任何一种可与用户进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、个人数字助理(Personal Digital Assistant,PDA)、游戏机、交互式网络电视(Internet Protocol Television,IPTV)、智能式穿戴式设备等。

所述计算机设备还可以包括网络设备和/或用户设备。其中,所述网络设备包括,但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(CloudComputing)的由大量主机或网络服务器构成的云。

所述计算机设备所处的网络包括但不限于互联网、广域网、城域网、局域网、虚拟专用网络(Virtual Private Network,VPN)等。

S10,响应于词义消歧指令,根据所述词义消歧指令获取目标词,及获取所述目标词所属的初始图谱。

在本实施例中,所述词义消歧指令可以由相关工作人员触发,如开发人员等。

在本发明的至少一个实施例中,所述根据所述词义消歧指令获取目标词,及获取所述目标词所属的初始图谱包括:

解析所述词义消歧指令,得到所述词义消歧指令所携带的信息,所述词义消歧指令所携带的信息中包括词及地址;

获取与所述词对应的第一预设标签,及获取与所述地址对应的第二预设标签;

根据所述第一预设标签建立第一正则表达式,及根据所述第二预设标签建立第二正则表达式;

利用所述第一正则表达式遍历所述词义消歧指令所携带的信息,并将遍历到的与所述第一正则表达式相匹配的信息确定为所述目标词;

利用所述第二正则表达式遍历所述词义消歧指令所携带的信息,并将遍历到的与所述第二正则表达式相匹配的信息确定为目标地址;

连接至所述目标地址,并将所述目标地址处存储的具有所述目标词的图谱确定为所述初始图谱。

例如:当所述第一预设标签为WORD,所述第二预设标签为ADD时,构建的所述第一正则表达式为WORD(),所述第二正则表达式为ADD(),进一步地,将所述第一正则表达式WORD()遍历到的信息确定为所述目标词,将第二正则表达式ADD()遍历到的信息确定为所述目标地址。

在本实施例中,所述目标地址处存储着所有图谱数据,所述目标地址可以对应于一个数据库,也可以对应于一个文件夹,还可以对应于一个网页,本发明不限制。

其中,所述初始图谱可以包括实验室保险语义知识库(PME),本发明不限制。

通过上述实施方式,能够基于标签及正则表达式快速且准确地进行相关数据的获取,提升了数据获取的效率及准确度。

S11,创建窗口,并根据创建的窗口提取所述初始图谱中所述目标词所对应的节点的候选节点。

在本发明的至少一个实施例中,所述创建窗口,并根据创建的窗口提取所述初始图谱中所述目标词所对应的节点的候选节点包括:

创建预设数量的窗口,并随机初始化每个窗口的尺度;

将所述目标词所对应的节点确定为起点,并根据每个窗口的尺度,在所述初始图谱中利用每个窗口进行扩展,得到所述预设数量的扩展节点集合;

对所述扩展节点集合进行并集处理,得到所述目标词所对应的节点的候选节点。

其中,所述预设数量可以进行自定义配置,如5、3等。

例如:创建了所述预设数量为2的两个窗口,分别为窗口A及窗口B,经过随机初始化,所述窗口A的尺度为2,所述窗口B的尺度为1,则在所述初始图谱中,以所述目标词所对应的节点为起点,分别以所述窗口A向任意方向移动两步,得到扩展后的扩展节点集合C,以所述窗口B向任意方向移动一步,得到扩展后的扩展节点集合D,计算所述扩展节点集合C与所述扩展节点集合D的并集,即可得到所述目标词所对应的节点的候选节点。

需要说明的是,现有的词义消歧法从词汇资源中检索出不同词义之间的语义和词汇关系来确定单个词在给定上下文中的正确意义。不同词义之间的关系可以有效地表示为一个图,其中,节点对应词义,边映射节点间的关系或依赖性,主要目标是在给定的上下文中为每个目标词找到最合适的意义。但是,大多数现有的图结构为不完全连接,即目标词的一些相关意义可能在语言学上(即语义上或词汇上)与同一领域不相关,这种低连通性问题就是知识不完全,在不考虑相邻语义相关词的情况下对歧义词进行消歧,可能导致产生不连贯的意思,从而造成误解。也就是说,单词即表示节点,语义相关的单词之间缺乏连接(交叉),故映射这些节点的词汇关系是相互独立的,这将导致无法识别每个词在给定的上下文中的意思,从而无法分析歧义词之间可能的情感关系。

在本实施方式中,能够通过扩展图结构来改善连通性,即在节点的上下文扩展一个适当的级别(例如句子级别),该级别包含所有相关的词义信息,使其语义更加丰富,从而增加节点之间的语义连接,提升了构建的知识图的完整性。

S12,连接每两个候选节点作为一条边,并根据得到的边及所述候选节点构建候选图谱。

通过上述实施方式,在进行词义扩展后,根据扩展得到的所述候选节点构建所述候选图谱,为后续进行词义消歧提供数据基础。

S13,计算每条边所对应的两个候选节点间的文本相似度,及计算每条边所对应的两个候选节点间的词义相似度。

在本发明的至少一个实施例中,所述文本相似度可以为文本向量的相似度,表征的是向量空间上的相似度。

具体而言,将每条边所对应的两个候选节点上的词进行向量化处理,得到每条边所对应的两个候选节点所对应的词向量,进一步计算词向量间的相似度,得到每条边所对应的两个候选节点间的文本相似度。

通过使用所述文本相似度,可以有更好的机会绘制两个同义词集之间的边缘,并且在通信中没有重叠,从而实现图中的连接。

在本发明的至少一个实施例中,所述计算每条边所对应的两个候选节点间的词义相似度包括:

将每条边所对应的两个候选节点确定为节点组合;

计算每条边所对应的两个候选节点中每个点的概念概率,及计算对应的节点组合的概念概率;

计算每条边所对应的两个候选节点中每个点的概念概率的负对数作为每个点的信息内容,及计算对应的节点组合的概念概率的负对数作为所述对应的节点组合的信息内容;

计算每条边所对应的两个候选节点中每个点的信息内容的和作为每条边的第一数值,及计算对应的节点组合的信息内容与预设值的乘积作为每条边的第二数值;

计算每条边的第一数值与每条边的第二数值的差值作为每条边的第三数值;

将每条边的第三数值的倒数确定为每条边所对应的两个候选节点间的词义相似度。

其中,所述概念概率的计算公式如下:

p(c)=(tf+if)/N

其中,p(c)表示候选节点c的概念概率,tf表示所述候选节点c的词频,if表示所述候选节点c的总导数概念频率,N表示词频的总和。

则所述信息内容的公式如下:

I(c)=-log(p(c))

其中,I(c)表示所述候选节点c的信息内容。

进一步地,所述词义相似度的计算公式如下:

SIM(c,d)=1/(I(c)+I(d)-m*I(c,d))

其中,SIM(c,d)表示所述候选节点c与候选节点d间的词义相似度,I(d)表示所述候选节点d的信息内容,m表示所述预设值(如m=2),I(c,d)表示所述候选节点c与所述候选节点d对应的节点组合的信息内容。

通过使用所述词义相似度,基于算法本身的优势,计算效率更高。

在上述实施方式中,计算得到的文本相似度表征文本间的相似度,计算得到的词义相似度表征词义间的相似度,能够识别词义间的整体感情倾向。

S14,根据每条边所对应的两个候选节点间的文本相似度及每条边所对应的两个候选节点间的词义相似度计算每条边的权重。

在本发明的至少一个实施例中,所述根据每条边所对应的两个候选节点间的文本相似度及每条边所对应的两个候选节点间的词义相似度计算每条边的权重包括:

计算每条边所对应的两个候选节点间的文本相似度与每条边所对应的两个候选节点间的词义相似度的和作为每条边的相似度值;

对每条边的相似度值进行标准化处理,得到每条边的权重。

其中,所述标准化处理可以包括对每条边的相似度值进行百分化处理,在此不赘述。

通过上述实施方式,同时融合了文本相似度及词义相似度作为每条边的权重,进而捕获到高度语义和情感信息,进而提高了词义消歧的准确度。

S15,根据每条边的权重确定每个候选节点的重要度。

在本发明的至少一个实施例中,所述根据每条边的权重确定每个候选节点的重要度包括:

计算每个候选节点的入度;

获取每个候选节点所连接的边的权重;

根据每个候选节点的入度与每个候选节点所连接的边的权重计算每个候选节点的加权和,得到每个候选节点的重要度。

其中,每个候选节点的入度表示每个候选节点作为图中边的终点的次数之和。

S16,根据每个候选节点的重要度对所述候选图谱进行去干扰处理,得到目标图谱。

在本发明的至少一个实施例中,所述根据每个候选节点的重要度对所述候选图谱进行去干扰处理,得到目标图谱包括:

比较每个候选节点的重要度与配置重要度的大小;

当检测到有候选节点的重要度小于所述配置重要度时,将检测到的候选节点确定为干扰节点;

从所述候选图谱中删除所述干扰节点,及删除所述干扰节点对应的边,得到所述目标图谱。

其中,所述配置重要度可以进行自定义配置,如90。

所述配置重要度可以作为一个判断阈值,小于所述配置重要度则表示对应候选节点的重要性不高,可以被判定为干扰节点。

通过上述实施方式,能够通过删除干扰节点来删除所述候选图谱中的干扰边缘,仅保留了最有意义的节点,进而有效提升了词义消歧的效率。

S17,对所述目标图谱进行中心度量,得到所述目标词的目标词义。

在本发明的至少一个实施例中,所述对所述目标图谱进行中心度量,得到所述目标词的目标词义包括:

确定所述目标图谱中每个节点与其他节点直接连接的连接总数,并将每个节点与其他节点直接连接的连接总数确定为每个节点的度中心性值;

确定所述其他节点的总数量;

计算每个节点的度中心性值与所述总数量的商作为每个节点的标准化度中心性值;

从所述目标图谱中获取所述标准化度中心性值最高的节点确定为相似节点;

将所述相似节点的词义确定为所述目标词的目标词义。

其中,所述度中心性值能够表征图中一个节点与所有其它节点相联系的程度。但是,网络规模越大,度中心性的最大可能值就越高,因此,为了消除网络规模变化对度中心性的影响,需要进行标准化。

标准化处理后,每个节点的标准化度中心性值消除了网络规模的影响,每个节点的标准化度中心性值越大,则表明其中心性越高,越能代表所述目标词的词义。

通过上述实施方式,使用中心度计算来选择最适合的词义,进而基于中心度量实现最终的词义消歧。

需要说明的是,为了提高数据的安全性,避免数据被恶意篡改,目标图谱可存储于区块链节点。

本实施例中的词义消歧方法可以应用于自然语言处理的相关领域,如机器翻译、查询扩展、文本摘要和意见挖掘等,以辅助实现更准确的数据处理。

由以上技术方案可以看出,本发明能够响应于词义消歧指令,根据所述词义消歧指令获取目标词,及获取所述目标词所属的初始图谱,创建窗口,并根据创建的窗口提取所述初始图谱中所述目标词所对应的节点的候选节点,实现了对图谱的扩展,以改善连通性,连接每两个候选节点作为一条边,并根据得到的边及所述候选节点构建候选图谱,计算每条边所对应的两个候选节点间的文本相似度,及计算每条边所对应的两个候选节点间的词义相似度,根据每条边所对应的两个候选节点间的文本相似度及每条边所对应的两个候选节点间的词义相似度计算每条边的权重,根据每条边的权重确定每个候选节点的重要度,进而探索和捕获高度语义和情感信息,提高了词义消歧的准确度,根据每个候选节点的重要度对所述候选图谱进行去干扰处理,得到目标图谱,以便通过去干扰处理提高词义消歧的效率,进一步对所述目标图谱进行中心度量,得到所述目标词的目标词义,实现了对词义消歧效果的提升。

如图2所示,是本发明基于图扩展结构的词义消歧装置的较佳实施例的功能模块图。所述基于图扩展结构的词义消歧装置11包括获取单元110、提取单元111、构建单元112、计算单元113、确定单元114、处理单元115、度量单元116。本发明所称的模块/单元是指一种能够被处理器13所执行,并且能够完成固定功能的一系列计算机程序段,其存储在存储器12中。在本实施例中,关于各模块/单元的功能将在后续的实施例中详述。

响应于词义消歧指令,获取单元110根据所述词义消歧指令获取目标词,及获取所述目标词所属的初始图谱。

在本实施例中,所述词义消歧指令可以由相关工作人员触发,如开发人员等。

在本发明的至少一个实施例中,所述获取单元110根据所述词义消歧指令获取目标词,及获取所述目标词所属的初始图谱包括:

解析所述词义消歧指令,得到所述词义消歧指令所携带的信息,所述词义消歧指令所携带的信息中包括词及地址;

获取与所述词对应的第一预设标签,及获取与所述地址对应的第二预设标签;

根据所述第一预设标签建立第一正则表达式,及根据所述第二预设标签建立第二正则表达式;

利用所述第一正则表达式遍历所述词义消歧指令所携带的信息,并将遍历到的与所述第一正则表达式相匹配的信息确定为所述目标词;

利用所述第二正则表达式遍历所述词义消歧指令所携带的信息,并将遍历到的与所述第二正则表达式相匹配的信息确定为目标地址;

连接至所述目标地址,并将所述目标地址处存储的具有所述目标词的图谱确定为所述初始图谱。

例如:当所述第一预设标签为WORD,所述第二预设标签为ADD时,构建的所述第一正则表达式为WORD(),所述第二正则表达式为ADD(),进一步地,将所述第一正则表达式WORD()遍历到的信息确定为所述目标词,将第二正则表达式ADD()遍历到的信息确定为所述目标地址。

在本实施例中,所述目标地址处存储着所有图谱数据,所述目标地址可以对应于一个数据库,也可以对应于一个文件夹,还可以对应于一个网页,本发明不限制。

其中,所述初始图谱可以包括实验室保险语义知识库(PME),本发明不限制。

通过上述实施方式,能够基于标签及正则表达式快速且准确地进行相关数据的获取,提升了数据获取的效率及准确度。

提取单元111创建窗口,并根据创建的窗口提取所述初始图谱中所述目标词所对应的节点的候选节点。

在本发明的至少一个实施例中,所述提取单元111创建窗口,并根据创建的窗口提取所述初始图谱中所述目标词所对应的节点的候选节点包括:

创建预设数量的窗口,并随机初始化每个窗口的尺度;

将所述目标词所对应的节点确定为起点,并根据每个窗口的尺度,在所述初始图谱中利用每个窗口进行扩展,得到所述预设数量的扩展节点集合;

对所述扩展节点集合进行并集处理,得到所述目标词所对应的节点的候选节点。

其中,所述预设数量可以进行自定义配置,如5、3等。

例如:创建了所述预设数量为2的两个窗口,分别为窗口A及窗口B,经过随机初始化,所述窗口A的尺度为2,所述窗口B的尺度为1,则在所述初始图谱中,以所述目标词所对应的节点为起点,分别以所述窗口A向任意方向移动两步,得到扩展后的扩展节点集合C,以所述窗口B向任意方向移动一步,得到扩展后的扩展节点集合D,计算所述扩展节点集合C与所述扩展节点集合D的并集,即可得到所述目标词所对应的节点的候选节点。

需要说明的是,现有的词义消歧法从词汇资源中检索出不同词义之间的语义和词汇关系来确定单个词在给定上下文中的正确意义。不同词义之间的关系可以有效地表示为一个图,其中,节点对应词义,边映射节点间的关系或依赖性,主要目标是在给定的上下文中为每个目标词找到最合适的意义。但是,大多数现有的图结构为不完全连接,即目标词的一些相关意义可能在语言学上(即语义上或词汇上)与同一领域不相关,这种低连通性问题就是知识不完全,在不考虑相邻语义相关词的情况下对歧义词进行消歧,可能导致产生不连贯的意思,从而造成误解。也就是说,单词即表示节点,语义相关的单词之间缺乏连接(交叉),故映射这些节点的词汇关系是相互独立的,这将导致无法识别每个词在给定的上下文中的意思,从而无法分析歧义词之间可能的情感关系。

在本实施方式中,能够通过扩展图结构来改善连通性,即在节点的上下文扩展一个适当的级别(例如句子级别),该级别包含所有相关的词义信息,使其语义更加丰富,从而增加节点之间的语义连接,提升了构建的知识图的完整性。

构建单元112连接每两个候选节点作为一条边,并根据得到的边及所述候选节点构建候选图谱。

通过上述实施方式,在进行词义扩展后,根据扩展得到的所述候选节点构建所述候选图谱,为后续进行词义消歧提供数据基础。

计算单元113计算每条边所对应的两个候选节点间的文本相似度,及计算每条边所对应的两个候选节点间的词义相似度。

在本发明的至少一个实施例中,所述文本相似度可以为文本向量的相似度,表征的是向量空间上的相似度。

具体而言,将每条边所对应的两个候选节点上的词进行向量化处理,得到每条边所对应的两个候选节点所对应的词向量,进一步计算词向量间的相似度,得到每条边所对应的两个候选节点间的文本相似度。

通过使用所述文本相似度,可以有更好的机会绘制两个同义词集之间的边缘,并且在通信中没有重叠,从而实现图中的连接。

在本发明的至少一个实施例中,所述计算单元113计算每条边所对应的两个候选节点间的词义相似度包括:

将每条边所对应的两个候选节点确定为节点组合;

计算每条边所对应的两个候选节点中每个点的概念概率,及计算对应的节点组合的概念概率;

计算每条边所对应的两个候选节点中每个点的概念概率的负对数作为每个点的信息内容,及计算对应的节点组合的概念概率的负对数作为所述对应的节点组合的信息内容;

计算每条边所对应的两个候选节点中每个点的信息内容的和作为每条边的第一数值,及计算对应的节点组合的信息内容与预设值的乘积作为每条边的第二数值;

计算每条边的第一数值与每条边的第二数值的差值作为每条边的第三数值;

将每条边的第三数值的倒数确定为每条边所对应的两个候选节点间的词义相似度。

其中,所述概念概率的计算公式如下:

p(c)=(tf+if)/N

其中,p(c)表示候选节点c的概念概率,tf表示所述候选节点c的词频,if表示所述候选节点c的总导数概念频率,N表示词频的总和。

则所述信息内容的公式如下:

I(c)=-log(p(c))

其中,I(c)表示所述候选节点c的信息内容。

进一步地,所述词义相似度的计算公式如下:

SIM(c,d)=1/(I(c)+I(d)-m*I(c,d))

其中,SIM(c,d)表示所述候选节点c与候选节点d间的词义相似度,I(d)表示所述候选节点d的信息内容,m表示所述预设值(如m=2),I(c,d)表示所述候选节点c与所述候选节点d对应的节点组合的信息内容。

通过使用所述词义相似度,基于算法本身的优势,计算效率更高。

在上述实施方式中,计算得到的文本相似度表征文本间的相似度,计算得到的词义相似度表征词义间的相似度,能够识别词义间的整体感情倾向。

所述计算单元113根据每条边所对应的两个候选节点间的文本相似度及每条边所对应的两个候选节点间的词义相似度计算每条边的权重。

在本发明的至少一个实施例中,所述计算单元113根据每条边所对应的两个候选节点间的文本相似度及每条边所对应的两个候选节点间的词义相似度计算每条边的权重包括:

计算每条边所对应的两个候选节点间的文本相似度与每条边所对应的两个候选节点间的词义相似度的和作为每条边的相似度值;

对每条边的相似度值进行标准化处理,得到每条边的权重。

其中,所述标准化处理可以包括对每条边的相似度值进行百分化处理,在此不赘述。

通过上述实施方式,同时融合了文本相似度及词义相似度作为每条边的权重,进而捕获到高度语义和情感信息,进而提高了词义消歧的准确度。

确定单元114根据每条边的权重确定每个候选节点的重要度。

在本发明的至少一个实施例中,所述确定单元114根据每条边的权重确定每个候选节点的重要度包括:

计算每个候选节点的入度;

获取每个候选节点所连接的边的权重;

根据每个候选节点的入度与每个候选节点所连接的边的权重计算每个候选节点的加权和,得到每个候选节点的重要度。

其中,每个候选节点的入度表示每个候选节点作为图中边的终点的次数之和。

处理单元115根据每个候选节点的重要度对所述候选图谱进行去干扰处理,得到目标图谱。

在本发明的至少一个实施例中,所述处理单元115根据每个候选节点的重要度对所述候选图谱进行去干扰处理,得到目标图谱包括:

比较每个候选节点的重要度与配置重要度的大小;

当检测到有候选节点的重要度小于所述配置重要度时,将检测到的候选节点确定为干扰节点;

从所述候选图谱中删除所述干扰节点,及删除所述干扰节点对应的边,得到所述目标图谱。

其中,所述配置重要度可以进行自定义配置,如90。

所述配置重要度可以作为一个判断阈值,小于所述配置重要度则表示对应候选节点的重要性不高,可以被判定为干扰节点。

通过上述实施方式,能够通过删除干扰节点来删除所述候选图谱中的干扰边缘,仅保留了最有意义的节点,进而有效提升了词义消歧的效率。

度量单元116对所述目标图谱进行中心度量,得到所述目标词的目标词义。

在本发明的至少一个实施例中,所述度量单元116对所述目标图谱进行中心度量,得到所述目标词的目标词义包括:

确定所述目标图谱中每个节点与其他节点直接连接的连接总数,并将每个节点与其他节点直接连接的连接总数确定为每个节点的度中心性值;

确定所述其他节点的总数量;

计算每个节点的度中心性值与所述总数量的商作为每个节点的标准化度中心性值;

从所述目标图谱中获取所述标准化度中心性值最高的节点确定为相似节点;

将所述相似节点的词义确定为所述目标词的目标词义。

其中,所述度中心性值能够表征图中一个节点与所有其它节点相联系的程度。但是,网络规模越大,度中心性的最大可能值就越高,因此,为了消除网络规模变化对度中心性的影响,需要进行标准化。

标准化处理后,每个节点的标准化度中心性值消除了网络规模的影响,每个节点的标准化度中心性值越大,则表明其中心性越高,越能代表所述目标词的词义。

通过上述实施方式,使用中心度计算来选择最适合的词义,进而基于中心度量实现最终的词义消歧。

需要说明的是,为了提高数据的安全性,避免数据被恶意篡改,目标图谱可存储于区块链节点。

本实施例中的词义消歧方法可以应用于自然语言处理的相关领域,如机器翻译、查询扩展、文本摘要和意见挖掘等,以辅助实现更准确的数据处理。

由以上技术方案可以看出,本发明能够响应于词义消歧指令,根据所述词义消歧指令获取目标词,及获取所述目标词所属的初始图谱,创建窗口,并根据创建的窗口提取所述初始图谱中所述目标词所对应的节点的候选节点,实现了对图谱的扩展,以改善连通性,连接每两个候选节点作为一条边,并根据得到的边及所述候选节点构建候选图谱,计算每条边所对应的两个候选节点间的文本相似度,及计算每条边所对应的两个候选节点间的词义相似度,根据每条边所对应的两个候选节点间的文本相似度及每条边所对应的两个候选节点间的词义相似度计算每条边的权重,根据每条边的权重确定每个候选节点的重要度,进而探索和捕获高度语义和情感信息,提高了词义消歧的准确度,根据每个候选节点的重要度对所述候选图谱进行去干扰处理,得到目标图谱,以便通过去干扰处理提高词义消歧的效率,进一步对所述目标图谱进行中心度量,得到所述目标词的目标词义,实现了对词义消歧效果的提升。

如图3所示,是本发明实现基于图扩展结构的词义消歧方法的较佳实施例的计算机设备的结构示意图。

所述计算机设备1可以包括存储器12、处理器13和总线,还可以包括存储在所述存储器12中并可在所述处理器13上运行的计算机程序,例如基于图扩展结构的词义消歧程序。

本领域技术人员可以理解,所述示意图仅仅是计算机设备1的示例,并不构成对计算机设备1的限定,所述计算机设备1既可以是总线型结构,也可以是星形结构,所述计算机设备1还可以包括比图示更多或更少的其他硬件或者软件,或者不同的部件布置,例如所述计算机设备1还可以包括输入输出设备、网络接入设备等。

需要说明的是,所述计算机设备1仅为举例,其他现有的或今后可能出现的电子产品如可适应于本发明,也应包含在本发明的保护范围以内,并以引用方式包含于此。

其中,存储器12至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器12在一些实施例中可以是计算机设备1的内部存储单元,例如该计算机设备1的移动硬盘。存储器12在另一些实施例中也可以是计算机设备1的外部存储设备,例如计算机设备1上配备的插接式移动硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(SecureDigital,SD)卡、闪存卡(Flash Card)等。进一步地,存储器12还可以既包括计算机设备1的内部存储单元也包括外部存储设备。存储器12不仅可以用于存储安装于计算机设备1的应用软件及各类数据,例如基于图扩展结构的词义消歧程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。

处理器13在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。处理器13是所述计算机设备1的控制核心(Control Unit),利用各种接口和线路连接整个计算机设备1的各个部件,通过运行或执行存储在所述存储器12内的程序或者模块(例如执行基于图扩展结构的词义消歧程序等),以及调用存储在所述存储器12内的数据,以执行计算机设备1的各种功能和处理数据。

所述处理器13执行所述计算机设备1的操作系统以及安装的各类应用程序。所述处理器13执行所述应用程序以实现上述各个基于图扩展结构的词义消歧方法实施例中的步骤,例如图1所示的步骤。

示例性的,所述计算机程序可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器12中,并由所述处理器13执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段,该指令段用于描述所述计算机程序在所述计算机设备1中的执行过程。例如,所述计算机程序可以被分割成获取单元110、提取单元111、构建单元112、计算单元113、确定单元114、处理单元115、度量单元116。

上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、计算机设备,或者网络设备等)或处理器(processor)执行本发明各个实施例所述基于图扩展结构的词义消歧方法的部分。

所述计算机设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指示相关的硬件设备来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。

其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器等。

进一步地,计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

总线可以是外设部件互连标准(peripheral component interconnect,简称PCI)总线或扩展工业标准结构(extended industry standard architecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,在图3中仅用一根直线表示,但并不表示仅有一根总线或一种类型的总线。所述总线被设置为实现所述存储器12以及至少一个处理器13等之间的连接通信。

尽管未示出,所述计算机设备1还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器13逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述计算机设备1还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。

进一步地,所述计算机设备1还可以包括网络接口,可选地,所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该计算机设备1与其他计算机设备之间建立通信连接。

可选地,该计算机设备1还可以包括用户接口,用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在计算机设备1中处理的信息以及用于显示可视化的用户界面。

应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。

图3仅示出了具有组件12-13的计算机设备1,本领域技术人员可以理解的是,图3示出的结构并不构成对所述计算机设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。

结合图1,所述计算机设备1中的所述存储器12存储多个指令以实现一种基于图扩展结构的词义消歧方法,所述处理器13可执行所述多个指令从而实现:

响应于词义消歧指令,根据所述词义消歧指令获取目标词,及获取所述目标词所属的初始图谱;

创建窗口,并根据创建的窗口提取所述初始图谱中所述目标词所对应的节点的候选节点;

连接每两个候选节点作为一条边,并根据得到的边及所述候选节点构建候选图谱;

计算每条边所对应的两个候选节点间的文本相似度,及计算每条边所对应的两个候选节点间的词义相似度;

根据每条边所对应的两个候选节点间的文本相似度及每条边所对应的两个候选节点间的词义相似度计算每条边的权重;

根据每条边的权重确定每个候选节点的重要度;

根据每个候选节点的重要度对所述候选图谱进行去干扰处理,得到目标图谱;

对所述目标图谱进行中心度量,得到所述目标词的目标词义。

具体地,所述处理器13对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。

在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。

因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。

此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。本发明中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一、第二等词语用来表示名称,而并不表示任何特定的顺序。

最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号