首页> 中国专利> 一种融合价值堆叠的异构知识动态表示学习方法

一种融合价值堆叠的异构知识动态表示学习方法

摘要

本发明公开了一种融合价值堆叠的异构知识动态表示学习方法,包括以下步骤:S1、对于知识的固有属性部分,对具体的知识样本,经过多种随机的知识增强操作,得到一系列扩充后的知识样本;S2、在异构知识增强的基础上,通过对比表示学习方式对知识固有属性表征模型进行训练,得到知识固有属性的表征结果;S3、对于知识的价值属性部分,直接通过一个Transformer编码器,得到价值属性的表征结果;S4、将知识固有属性的表征结果和知识价值属性的表征结果共同经过异构知识价值堆叠环节进行融合计算,得到的计算结果通过Transformer解码器最终得到知识的动态标识学习结果。

著录项

  • 公开/公告号CN114818671A

    专利类型发明专利

  • 公开/公告日2022-07-29

    原文格式PDF

  • 申请/专利权人 中国电子科技集团公司第十研究所;

    申请/专利号CN202210235787.4

  • 申请日2022-03-10

  • 分类号G06F40/247(2020.01);G06F16/438(2019.01);G06V10/74(2022.01);G06K9/62(2022.01);G06N5/02(2006.01);G10L15/26(2006.01);

  • 代理机构成都九鼎天元知识产权代理有限公司 51214;

  • 代理人刘世权

  • 地址 610000 四川省成都市金牛区茶店子东街48号

  • 入库时间 2023-06-19 16:11:11

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-05-26

    授权

    发明专利权授予

  • 2022-08-16

    实质审查的生效 IPC(主分类):G06F40/247 专利申请号:2022102357874 申请日:20220310

    实质审查的生效

说明书

技术领域

本发明涉及人工智能技术领域,具体涉及一种融合价值堆叠的异构知识动态表示学习方法。

背景技术

人工智能技术历经六十多年的发展,已经成为现在乃至未来科技革命和产业变革的重要驱动力,将持续对社会进步、经济发展、人类日常生活等方面产生重大而深远的影响。然而,虽然人工智能技术在自然语言处理、图像处理、智能推荐、人机对话等方面取得了不错的成果,但不可否认,依靠“见多而知”模式通过大量样本数据训练提升模型对音视图文等形式客观事物的认知能力显得愈发困难,人工智能在语言理解、视觉场景理解、决策分析等方面仍然举步维艰。要想让人工智能突破“只做对比”的瓶颈,具备类似人类处理信息的“加工、理解、思考”等能力,就必须让现有人工智能系统掌握知识、学会运用知识进行推理,这也是当前业界公认的通往通用人工智能的必经之路。然而,目前人工智能领域对于知识的引入还存在两个主要问题:

一是由于获取来源、存储、管理更新和应用方式的不同,知识存在着多种结构各异的表现形态,如音视图文的数据形态、以三元组为基本单元的图谱形态、规则模板形态等等,这天然带来了异构知识联合应用的问题。当前任何一种针对特定形态知识的单一表示方法都无法让异构知识参与统一计算,导致了异构知识关联融合的困难。

二是现有的所有知识表示技术都没有考虑知识在其全生命周期过程中的使用价值属性,这也带来了相应的知识关联方法中的诸多不合理之处,使得异构知识的联合服务应用效果大打折扣。

因此,亟需发展出一种全新的异构知识表示学习技术,将知识的固有属性特征和全生命周期中的价值属性特征进行综合考量,形成一种灵活、动态的联合表示方法。以此支撑解决面向具体应用时多类型知识难以高效融合处理的问题,并且发掘知识与知识、知识与数据之间的关联性和互补性,增强算法模型的鲁棒性和泛化性,提升多类型知识的联合计算应用服务能力。

发明内容

针对现有技术中的上述不足,本发明提供的一种融合价值堆叠的异构知识动态表示学习方法解决了异构知识在全生命周期过程中需要被动态认知的问题。

为了达到上述发明目的,本发明采用的技术方案为:一种融合价值堆叠的异构知识动态表示学习方法,包括以下步骤:

S1、对于知识的固有属性部分,对具体的知识样本,经过多种随机的知识增强操作,得到一系列扩充后的知识样本;

S2、在异构知识增强的基础上,通过对比表示学习方式对知识固有属性表征模型进行训练,得到知识固有属性的表征结果;

S3、对于知识的价值属性部分,直接通过一个Transformer编码器,得到价值属性的表征结果;

S4、将知识固有属性的表征结果和知识价值属性的表征结果共同经过异构知识价值堆叠环节进行融合计算,得到的计算结果通过Transformer解码器最终得到知识的动态标识学习结果。

进一步地:所述步骤S1中的知识增强具体为:

对于文本知识,经过文本知识增强操作得到增强后的文本知识,所述文本知识增强操作包括非核心词替换、同义词替换、回译;

对于图像知识,经过图像知识增强操作得到增强后的图像知识,所述图像知识增强操作包括缩放、旋转、随机噪声添加、剪裁、对比度变化;

对于音频知识,先经过语音转写为文本知识,再调用文本知识增强方法,得到增强后的文本知识;

对于视频知识,则首先经过音轨提取和关键帧提取,将视频知识转化为音频知识和图像知识,再将音轨提取结果经过语音转写和文本知识增强操作,将关键帧提取结果经过图像知识增强操作,分别得到增强后的文本知识和图像知识;

对于知识图谱,经过图谱知识增强操作得到增强后的知识图谱,所述图谱知识增强操作包括节点删除、边删除、边增加、非核心节点替换。

进一步地:所述步骤S2中对比表示学习的具体步骤为:

S21、采集所有异构知识实例的固有属性部分,包括概念、静态特征、动态特征、关系,形成固有属性集合;

S22、针对固有属性集合中不同形态的知识,包括文本、音频、视频、图像知识、知识图谱,采用不同的知识增强方式,形成m个增强后的样本;

S23、将m个增强后的样本经过Transformer编码器得到m个样本知识固有属性的特征表示h

S24、将m个样本知识固有属性的特征表示投影到对比空间得到投影向量 z

S25、在对比空间中采用余弦相似度衡量任意两个投影向量的相似性;将相似样本设为正例,不相似像本设为负例;

S26、通过最小化噪声对比估计损失函数来增大正例的相似度,降低负例的相似度。

进一步地:所述步骤S25中相似性的计算公式为:

上式中,S(z

进一步地:所述步骤S26中的损失函数具体为:

上式中,NCE为损失函数,z

进一步地:所述步骤S4中异构知识价值堆叠为:某条知识其自身固有属性加上其在该时间点之前的所有价值属性堆叠。

进一步地:将某条知识在不同时间点的固有属性特征与价值属性特征的综合作用定义为泛向认知量;

所述泛向认知量的计算公式为:

上式中,Λ

进一步地:所述t

上式中,N表示任务数量,r

本发明的有益效果为:

(1)本发明针对传统知识表示学习方法没有考虑知识在全生命周期中的使用价值属性,导致异构知识关联及联合服务应用效果不佳的问题,提出了一种全新的融合价值堆叠的异构知识动态表示学习方法,使得知识的表达结果更加合理,提升了知识之间的动态关联性。

(2)本发明提出了基于异构知识增强的对比表示学习技术,在传统的数据增强技术手段基础之上,通过对跨模态数据、非结构化文本、知识图谱等形态的知识样本同时进行对比,实现了形态不同的相同知识之间的融合互补,能够得到异构知识固有属性特征的更本质的学习结果。

(3)本发明提出了知识泛向认知量计算模型,将知识的固有属性特征和价值属性特征进行融合计算,得到对异构知识的综合表示学习结果,能够有效支撑异构知识全生命周期中的动态表征,使得知识关联更加灵活,对下游任务的适应度更高。

附图说明

图1是融合价值堆叠的异构知识动态表示学习总体框图。

图2是异构知识增强操作示意图。

图3是异构知识对比表示学习示意图。

图4是异构知识价值堆叠示意图。

具体实施方式

下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

如图1所示,针对对象知识、规则知识、常识知识等多类型的异构知识,由于来源不同、存储管理方式不同、用于下游任务不同等多种原因,不论相同知识还是不同知识都有着较大差异的表现形态,例如非结构化文本、音视图跨模态数据、知识图谱等等。对于每一类形态各异的知识,都包含两个部分,一是知识固有属性部分,例如概念、静态特征、动态特征、关系等等;二是知识价值属性部分,体现为随时间推移其经过的不同操作,例如被生产、被更新、被用于某任务求解、被收藏、被引用等等。本发明提出的异构知识动态表示学习方法具体步骤如下:

步骤1:对于知识的固有属性部分,对具体的知识样本,经过多种随机的知识增强操作,得到一系列扩充后的知识样本;

步骤2:在异构知识增强的基础上,通过对比表示学习方式对知识固有属性表征模型进行训练,得到知识固有属性最为本质的表征结果;

步骤3:对于知识的价值属性部分,直接通过一个Transformer编码器,得到价值属性的表征结果;

步骤4:将知识固有属性的表征结果和知识价值属性的表征结果共同经过异构知识价值堆叠环节进行融合计算,得到的计算结果通过Transformer解码器最终得到知识的动态表示学习结果。

异构知识增强

参阅图2,本发明处理的异构知识的形态主要有音视图文态以及知识图谱态。针对不同形态的知识,有不同的知识增强方式。具体地:

①对于文本知识,经过文本知识增强操作(包括非核心词替换、同义词替换、回译等),得到增强后的文本知识;

②对于图像知识,经过图像知识增强操作(包括缩放、旋转、随机噪声添加、剪裁、对比度变化等),得到增强后的图像知识;

③对于音频知识,先经过语音转写为文本知识,再调用文本知识增强方法,得到增强后的文本知识;

④对于视频知识,则首先经过音轨提取和关键帧提取,将视频知识转化为音频知识和图像知识,再将音轨提取结果经过语音转写和文本知识增强操作,将关键帧提取结果经过图像知识增强操作,分别得到增强后的文本知识和图像知识;

⑤对于知识图谱,经过图谱知识增强操作(包括节点删除、边删除、边增加、非核心节点替换等),得到增强后的知识图谱。

异构知识经过多种随机增强方式,能够得到增强后的多样化异构知识样本,以支撑后续异构知识固有属性特征的对比表示学习研究开展。

异构知识对比表示学习

在基于深度学习框架的信息智能处理系统中,知识要想参与到下游任务中发挥作用,首先就需要对知识进行表示学习,得到知识的特征,因此知识的表示学习是将多类型知识引入智能系统的基础。而不同知识、或者相同知识在不同场景下往往呈现不同的形态,异构知识的特征表示好坏将直接影响智能系统处理分析结果的准确程度。为了实现对异构知识的良好表征,本发明提出了异构知识的对比表示学习技术,旨在让模型学会区分知识的本质异同而不受知识表现形态的影响。

参阅图3,针对对象知识、规则知识、常识知识等异构知识的固有属性部分,对比表示学习的步骤如下:

步骤1:采集所有异构知识实例的固有属性部分,如概念、静态特征、动态特征、关系等,形成固有属性集合;

步骤2:针对固有属性集合中不同形态的知识(如文本、音频、视频、图像知识,知识图谱等),采用不同的知识增强方式,形成m个增强后的样本;

步骤3:将m个增强后的样本经过Transformer编码器得到m个样本知识固有属性的特征表示h

步骤4:将m个特征表示投影到对比空间得到投影向量z

步骤5:在对比空间中采用余弦相似度衡量任意两个投影向量的相似性:

步骤6:通过最小化噪声对比估计(Noise Contrastive Estimation,NCE)损失函数来增大正例(相似样本)的相似度,降低负例(不相似样本)的相似度:

其中,z

上述异构知识对比表示学习的核心思想在于通过知识增强构造正样本(相似样本)和负样本(不相似样本),将正负样本投影至特征表示空间,并拉近正样本距离,推远负样本距离,从而促使模型忽略样本表层信息,并学习到样本内在一致结构信息。

异构知识价值堆叠

参阅图4,针对对象知识、常识知识、规则知识等异构知识,随着时间推移,不同的知识在不同的时间段会经过不同的操作(如属性被完善、概念被优化、链接被更新、被用于某下游任务求解、被收藏、被引用等等),所以在不同的时间点,如T1、T2、T3等,某条具体的知识在人们的认知中也应该是其自身固有属性加上其在该时间点之前的所有价值属性堆叠(注:在本发明中认为,某条知识经过的操作越多,代表该知识的价值越多元,并非仅仅指该知识的价值评分越高)。因此,在某个时间点上,不同的知识是否应该被关联起来,也应该由知识固有属性与价值属性共同决定。

在本发明中,将某条知识在不同时间点的固有属性特征与价值属性特征的综合作用定义为该知识的“泛向认知量”,其决定了该条知识在不同时间点上应该与哪些其他知识进行动态关联。针对知识K,在时间t

其中,Λ

在实际使用中,为了保证面向下游任务的泛向认知量的实用性,在运用知识价值堆叠方法时,可以无需完全按照时序进行知识操作记录,可将该时刻之前知识操作按照任务用途类型进行聚合,便于后续动态关联时可针对不同下游任务进行适配。Ω

其中,N表示任务数量,r

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号