首页> 中国专利> 一种面向产业知识图谱的企业上下游关系预测方法

一种面向产业知识图谱的企业上下游关系预测方法

摘要

本发明提供一种面向产业知识图谱的企业上下游关系预测方法,首先为充分利用实体的文本描述信息,通过聚类和训练词向量的方式提取企业实体特征,从而增强实体表示。其次使用图注意力网络作为编码器,更好地捕捉实体节点周围邻居节点信息,从而获取实体的高质量嵌入以及图拓扑结构的信息。接着使用TransR子模型给解码器提供实体之间平移性质的信息,从而加速模型训练速度,提升实体关系预测结果精度。与现有技术相比,本发明将图拓扑结构信息和预训练信息进行融合,有效提升预测精度。并且基于本发明的预测结果可有效补全产业知识图谱,有利于构建产业供应链合作体系,实现企业之间的互利共赢,并且推进数字产业化和产业数字化,实现较高的商业价值。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-02-10

    实质审查的生效 IPC(主分类):G06F16/36 专利申请号:2022113184116 申请日:20221026

    实质审查的生效

  • 2023-01-17

    公开

    发明专利申请公布

说明书

技术领域

本发明属于机器学习技术领域,具体涉及一种面向产业知识图谱的企业上下游关系预测方法。

背景技术

知识图谱是一种结构化的语义网络知识库,由实体、关系和属性组成。在资源描述框架(Resource Description Framework,RDF)下,知识可以用(head、relation、tail)形式的事实三元组来表达,例如,(天津广通汽车有限公司,生产,纯电动城市客车)。其中head、tail分别代表头部实体和尾部实体,relation表示头实体和尾实体之间的关系。

现有方法常使用手工或半自动化方式构建知识图谱,但是实体之间大量隐含关系的缺失导致几乎所有的知识图谱都存在不完整的问题,因而提出了知识补全的研究。知识图谱的表示方式从内容上可以分为两种:实体-关系-实体三元组和实体-属性-属性值三元组。因此,三元组是知识图谱表示的一个基本单位,知识图谱补全问题则可以转化为三元组真实可信度的评价问题。

产业知识图谱是知识图谱在工业界的重要应用,对知识的准确性和完整性要求比较高,但同样存在不完整的问题。以新能源汽车产业知识图谱为例,预测企业之间的上下游关系,进而补全产业知识图谱,有利于构建产业供应链合作体系,促进企业之间的互利共赢。

现有的知识补全方法可分为两大类:传统方法和知识表示学习方法。

传统基于概率图的知识补全方法能够结合网络结构和节点属性信息。比较有代表性的是贝叶斯概率图模型,该模型是一个有向环图,适合表达和分析不确定的知识和有效推理。基于图计算的方法模型如PRA(pathranking algorithm)使用随机行走获取知识图谱的具体路径,然后使用获得的路径特征来训练模型。但这些方法存在两个问题:第一,可扩展性差,内存使用量大,对于一组实体对,这类方法需要枚举路径来确定实体对之间是否存在所有可能的关系。第二,面临着大规模数据计算的高复杂性问题。

知识表示学习能够对实体和关系进行高质量的嵌入编码,很好地捕捉实体和关系隐含的语义信息,实现高效率的计算,大幅度提高知识补全效果。然而,现有方法大部分缺乏对知识图谱的图拓扑结构有效信息嵌入以及预训练信息的融合,不能够高效利用现有知识图谱中三元组的语义信息。

此外,在产业知识图谱中存在大量的非结构化文本,例如企业的属性文本描述信息以及专利的文本描述等。现有模型无法直接使用这些非结构化的实体的属性信息强化三元组中企业实体的表示。

因此,亟需设计一种能够克服上述问题的面向产业知识图谱的企业实体关系预测方法。

发明内容

为解决上述问题,提供一种面向产业知识图谱的企业实体关系预测方法,本发明采用了如下技术方案:

本发明提供了一种面向产业知识图谱的企业上下游关系预测方法,用于对产业知识图谱中企业的上下游关系进行预测,其特征在于,包括以下步骤:步骤S1,构建实体关系预测模型,该模型包含图注意力网络、ConvE子模型以及知识补全TransR子模型;步骤S2,将待测产业的知识图谱三元组数据输入至实体关系预测模型,通过聚类和训练词向量的方式提取对应的企业类别特征和企业技术特征作为实体特征;步骤S3,实体关系预测模型基于图注意力网络编码实体特征的实体关系信息,从而获得对应的实体表示;步骤S4,实体关系预测模型基于知识补全模型TransR获取实体特征的实体向量表示和对应的关系向量表示;步骤S5,ConvE子模型采用二维卷积嵌入实体向量表示和关系向量表示,对应输出三元组数据的置信度大小,从而预测待测产业中企业之间在上下游的关系。

本发明提供的一种面向产业知识图谱的企业上下游关系预测方法,还可以具有这样的技术特征,其中,企业类别特征通过对待测产业的知识图谱中企业属性描述信息数据进行主体聚类得到,主体聚类具体为:首先对于企业属性描述信息数据进行预处理,利用正则表达式去除各种无用的字符;然后将每个企业的属性描述信息数据看作一片文章,所有企业的属性描述信息数据看做文档集,基于有效的无监督方法LDA主体聚类模型对每个企业进行类别聚类,从而给每个企业赋予聚类标签。

本发明提供的一种面向产业知识图谱的企业上下游关系预测方法,还可以具有这样的技术特征,其中,企业技术特征通过对待测产业的知识图谱中企业的专利文本信息数据进行技术性关键词抽取得到,具体过程包括:首先对专利文本信息数据进行预处理,根据预处理后的文本数据中的上下文信息预测目标单词向量,从而获取所有词的向量表示;然后基于预先标注的样本向量,根据余弦相似度找出每个专利文本信息中和样本向量相似度频率较高的关键词,作为企业技术特征,用于加强企业的实体表示。

本发明提供的一种面向产业知识图谱的企业上下游关系预测方法,还可以具有这样的技术特征,其中,实体关系预测模型是一个编码器-解码器架构,使用图注意力网络作为编码器从而更好地嵌入知识图谱的图拓扑结构信息,使用二维卷积ConvE子模型作为解码器可以在多个空间维度上解码知识图谱中三元组的语义信息,知识补全模型TransR用于给解码器提供实体之间平移性质的信息。

本发明提供的一种面向产业知识图谱的企业上下游关系预测方法,还可以具有这样的技术特征,其中,图注意力网络具有两个图注意力层,第一个注意力层用于捕获关于中心节点相邻一跳邻居的信息,第二个注意力层用于捕获中心节点相邻两跳邻居的信息,并基于多头注意力采取平均的方式输出实体表示,其中每一层都以实体嵌入矩阵和关系嵌入矩阵作为输入,实体嵌入矩阵表示为

本发明提供的一种面向产业知识图谱的企业上下游关系预测方法,还可以具有这样的技术特征,其中,步骤S3的具体过程如下:为获得实体e

式中,M表示M个注意力头,m表示第m个注意力头,

本发明提供的一种面向产业知识图谱的企业上下游关系预测方法,还可以具有这样的技术特征,其中,将待预测产业的知识图谱三元组数据送到TransR子模型训练得到数据中实体向量表示和关系向量表示,其中记输出实体向量矩阵为H

R″=[W

式中,W

本发明提供的一种面向产业知识图谱的企业上下游关系预测方法,还可以具有这样的技术特征,其中,三元组的置信度的获取过程为:ConvE子模型获取头实体e

本发明提供的一种面向产业知识图谱的企业上下游关系预测方法,还可以具有这样的技术特征,其中,在步骤S5中,采用设置阈值的方法,当两家企业在上下游关系下预测的置信度大于阈值时,判定二者具有上下游关系,否则判定没有上下游关系。

本发明提供的一种面向产业知识图谱的企业上下游关系预测方法,还可以具有这样的技术特征,其中,阈值的设置方法为:根据Hit@50指标获取阈值的最低值,然后不断增大该阈值,并选取F1作为企业上下游关系预测的评判指标,通过最优化F1指标从而确定最终的阈值。

发明作用与效果

根据本发明的一种面向产业知识图谱的企业上下游关系预测方法,首先为充分利用实体的文本描述信息,通过聚类和训练词向量的方式提取企业实体特征,从而增强实体表示。其次使用图注意力网络作为编码器,更好地捕捉实体节点周围邻居节点信息,从而获取实体的高质量嵌入以及图拓扑结构的信息。接着使用TransR子模型给解码器提供实体之间平移性质的信息,从而加速模型训练速度,提升实体关系预测结果精度。与现有技术相比,本发明所采用的知识图谱中实体关系预测方法是灵活的,不局限于某个知识图谱。而且将图拓扑结构信息和预训练信息进行融合,能够发挥很好的作用,有效提升产业知识图谱中企业之间的上下游关系预测的精度。

因此,本发明的面向产业知识图谱的的企业上下游关系预测方法能够基于预测结果补全产业知识图谱,有利于构建产业供应链合作体系,实现企业之间的互利共赢,并且推进数字产业化和产业数字化,实现较高的商业价值。

附图说明

图1是本发明实施例中面向产业知识图谱的企业上下游关系预测方法的流程图;

图2是本发明实施例中实体关系预测模型的结构示意图;

图3是本发明实施例中企业聚类标签的结果示意图;

图4是本发明实施例中企业专利文本信息数据的词向量分布图;

图5是本发明实施例中置信度阈值的选取对精度、召回率和F1的影响结果示意图。

具体实施方式

为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,以下结合实施例及附图对本发明的一种面向产业知识图谱的企业上下游关系预测方法作具体阐述。

<实施例>

图1是本发明实施例中面向产业知识图谱的企业上下游关系预测方法的流程图。

如图1所示,本实施例提供一种针对产业知识图谱进行企业上下游关系预测的具体过程如下:

步骤S1,构建实体关系预测模型,该模型包含图注意力网络、ConvE子模型以及知识补全TransR子模型。

图2是本发明实施例中实体关系预测模型的结构示意图。

如图2所示,本实施例基于编码器-解码器架构构建了实体关系预测模型,该模型使用图注意力网络作为编码器,从而更好地嵌入知识图谱的图拓扑结构信息;使用二维卷积ConvE子模型作为解码器可以在多个空间维度上解码知识图谱中三元组的语义信息;采用知识补全模型TransR给解码器提供实体之间平移性质的信息。

步骤S2,将待测产业的知识图谱三元组数据输入至实体关系预测模型,通过聚类和训练词向量的方式提取对应的企业类别特征和企业技术特征作为实体特征。

本实施例以新能源汽车产业知识图谱为例。

其中,企业类别特征的提取过程如下:

首先,对企业属性描述信息数据进行数据预处理包括清洗和处理,从而得到处理后的数据。具体地:

在企业属性描述信息数据中,对于数据缺失问题,由于缺失信息的公司数量占比非常小,对于整个数据集影响甚微,因此选择直接丢弃该数据信息。对于格式不一致问题,经过仔细观察和对比,使用分词工具进行中文分词,并建立一个常用的停用词词典,通过正则表达式去除带有方括号的字符串,然后按照逗号和分号字符进行字符串分割,抽取出每个词语,最后利用正则表达式去除各种无用的字符符号从而去除无效词的干扰。对于中英文命名混杂的问题,由于数据基本都是中文,所以对于英文描述直接选择忽视。

然后将所有企业的属性描述信息的词语转换为大小为N×D词频矩阵W,其中N代表企业数量,D代表所有词语的数量,设置好主题个数n_topic。

最后使用词频矩阵W训练LDA主题聚类模型,把每个企业的属性描述信息看作一篇文章,所有企业的属性描述信息看作整个文档集,对企业属性描述信息聚类,隐式地给企业增添产业环节信息,从而给每个企业赋予聚类标签。最终得到企业聚类标签的结果如图3所示。

本实施例中,由于产业环节有五个,所以主题个数从[5,6,7,8,9,10]中选择,通过少量标签数据验证,最终确定效果最好的聚类数目为5。

企业技术特征是通过对企业的专利文本信息数据进行技术性关键词抽取得到,具体过程如下:

首先对专利文本信息数据进行预处理,根据预处理后的文本数据中的上下文信息预测目标单词向量,从而获取所有词的向量表示。对于专利文本描述这种非结构化文本数据,处理流程包括去除无用字符和中文分词以及停用词处理。处理过程为:将经过分词和停用词处理后的专利文本信息数据放入word2vec中的词袋模型中,根据上下文预测目标单词向量,最终得到所有词的向量表示。本实施例中,由于专利文本描述中的词语数量较多,所以设置模型输出词向量的维度为256。

然后基于预先标注的样本向量,根据余弦相似度找出每个专利文本信息中和样本向量相似度频率较高的关键词,作为企业技术特征,用于加强企业的实体表示。

在大量专利文本数据中,本实施例选择标注了一批和生产相关的技术词汇,从中发现技术词汇对于近距离的上下文词语依赖较强,不会对远距离的词语产生过多依赖。所以将word2vec模型的最大滑动窗口设置为3,并且模型会在[1,3]之间随机取值。在模型中,滑动窗口大小w代表了中心词上下文的距离,即训练模型时输入数据包含中心词的前w个词和后w个词。负采样的个数设置为5,即在模型训练的反向更新中,对于一个训练样本仅让其更新一小部分权重,包含正样本和5个负样本的权重系数矩阵。

模型训练结束后得到所有词的向量表示。由于输出的词向量维度过大不易展示,使用PCA(Principal component analysis)降维技术将词向量映射到二维空间,并抽取部分词进行可视化,如图4所示,直观地呈现模型挖掘词语之间的相似关系的效果。

步骤S3,实体关系预测模型基于图注意力网络编码实体特征的实体关系信息,从而获得对应的实体表示。

本实施例中的图注意力网络采用两个图注意力层(R-GAT),第一个注意力层用于捕获关于中心节点相邻一跳邻居的信息,第二个注意力层用于捕获中心节点相邻两跳邻居的信息,并基于多头注意力采取平均的方式输出实体表示。其中每一层都以实体嵌入矩阵和关系嵌入矩阵作为输入,实体嵌入矩阵表示为

本步骤S3的具体过程如下:

为获得实体e

然后,实体关系预测模型使用c

式中,M表示M个注意力头,m表示第m个注意力头,

步骤S4,实体关系预测模型基于知识补全TransR子模型获取实体特征的实体向量表示和关系向量表示。

利用经典的Trans系列知识补全TransR子模型给解码器提供实体之间平移性质的信息:将待预测产业的知识图谱三元组数据送到TransR子模型训练分别得到数据中实体和关系的向量表示,其中记输出实体向量矩阵为H

同样地对关系矩阵向量R

R″=[W

式中,W

步骤S5,ConvE子模型采用二维卷积嵌入实体向量表示和关系向量表示来预测知识图谱中缺失链接,对应输出三元组数据的置信度大小,设置阈值θ,当两家企业在上下游关系下预测的概率大于阈值θ时,判定二者具有上下游关系,否则判定没有上下游关系,以此预测出待测产业中企业之间在上下游的关系。

本实施例中,ConvE子模型获取头实体e

最后模型的损失函数定义如下,并最小化交叉熵函数:

式中,p=σ(ψ

本实施例在预测企业上下游关系时,使用的模型参数为:在训练阶段,编码器采取两层的R-GAT训练实体和关系的嵌入,多头注意力机制的头数两层R-GAT都设置为2,并且将dropout=0.3应用于每层的GAT的输入。在解码器中,输入层的dropout=0.2,特征图层的dropout=0.3,隐藏层的dropout=0.3,卷积核大小为3×3。训练中采取的优化器是Adam,损失函数采用交叉熵函数。

本实施例中,首先根据Hit@50指标得到阈值θ的最低值,然后不断增大θ,选取F1作为企业上下游关系预测的评判指标,通过最优化F1指标确定最终的阈值θ。其中正例三元组即出现测试集中,针对每个正例三元组随机替换三元组中尾实体生成有效负例三元组作为F1值的计算。使用sigmod函数计算最终三元组的概率值P,然后再去计算F1值。为说明三元组的置信度阈值θ选取的流程和有效性,在企业上下游关系预测中,本实施例选取θ∈[0.6,1],图5展示了模型Precision、Recall和F1值的变化曲线。最终选取使得F1达到最高值的θ=0.82。

为验证本实施例的实体关系预测模型的性能,以新能源汽车产业知识图谱为例,在预测企业上下游关系上和现有主流模型进行测试,测试结果由下表1所示。

表1企业上下游关系预测结果

上表1证明了模型的GAT编码器模块的有效性,能够从中心顶点的局部邻域学习到高阶信息。比同样基于图注意力网络的KB-GAT模型高出0.07,其原因在于KB-GAT使用ConvKB作为解码器,其中高达14.2%的三元组最终得分相似甚至一致,最终导致许多正确三元组和错误三元组的区分度小。而本实施例的模型加入TransR的预训练信息并采取ConvE作为解码器,能够很好区分正例和负例,所以能够取得很好的预测效果。

为了验证本方法的通用性,选用了知识补全中关系预测任务的数据集:FB15K-237和WN18RR数据集,其中FB15K-237数据集是从FB15K中抽取出来,WN18RR数据集则是来自于WN18。中文百科知识图谱中抽取了近20w条三元组数据当作训练集,包含111377个实体、6667个关系,选取“百度类别“关系中的500条三元组作为验证集,选取500条三元组作为测试集。在这三个数据集上,采用本方法模型和主流模型进行对比实验。将模型和除KB-GAT外的四个基线模型在多个数据集上对比,无论是Mean Rank还是Hit@3、Hit@10都能够取得最好的效果,如下表2所示。

表2中文百科知识图谱、FB15K-237和WN18RR数据集上的对比试验

实施例作用与效果

根据本实施例提供的一种面向产业知识图谱的企业上下游关系预测方法,首先为充分利用实体的文本描述信息,通过聚类和训练词向量的方式提取企业实体特征,从而增强实体表示。其次使用图注意力网络作为编码器,更好地捕捉实体节点周围邻居节点信息,从而获取实体的高质量嵌入以及图拓扑结构的信息。接着使用TransR子模型给解码器提供实体之间平移性质的信息,从而加速模型训练速度,提升实体关系预测结果精度。

与现有技术相比,本实施例所采用的知识图谱中实体关系预测方法是灵活的,不局限于某个知识图谱。而且将图拓扑结构信息和预训练信息进行融合,能够发挥很好的作用,有效提升产业知识图谱中企业之间的上下游关系预测的精度。

综上,本实施例的面向产业知识图谱的的企业上下游关系预测方法能够基于预测结果补全产业知识图谱,有利于构建产业供应链合作体系,实现企业之间的互利共赢,并且推进数字产业化和产业数字化,实现较高的商业价值。

上述实施例仅用于举例说明本发明的具体实施方式,而本发明不限于上述实施例的描述范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号