首页> 中国专利> 一种产业链图谱构建方法及相关设备

一种产业链图谱构建方法及相关设备

摘要

本申请实施例公开了一种产业链图谱构建方法,用于对目标文本进行分析获得产业链模型。本申请实施例方法包括:建立产业链模型,基于产业链模型使用机器学习对目标文本进行识别,获得与产业链模型相关的识别结果;将识别结果对应填充至所述产业链模型,获得产业链图谱。本方案通过对产业链的结构进行预先设置,并使用机器学习对目标文本进行识别,获得与所述产业链模型相关的识别结果。将所获得的识别结果作为产业链的一部分属性对应填充至产业链的结构中,丰富产业链内容,进而获得相应的产业链图谱,通过本方法可处理大量的文本数据并提取出相应的产业链节点和节点相关信息,提高了产业链图谱的获取效率。

著录项

  • 公开/公告号CN113051365A

    专利类型发明专利

  • 公开/公告日2021-06-29

    原文格式PDF

  • 申请/专利权人 深圳证券信息有限公司;

    申请/专利号CN202011434664.0

  • 申请日2020-12-10

  • 分类号G06F16/33(20190101);G06F16/35(20190101);G06F16/36(20190101);G06F40/211(20200101);G06F40/242(20200101);G06F40/295(20200101);

  • 代理机构11227 北京集佳知识产权代理有限公司;

  • 代理人王学强

  • 地址 518000 广东省深圳市福田区红荔西路203栋606室

  • 入库时间 2023-06-19 11:39:06

说明书

技术领域

本申请实施例涉及数据处理领域,尤其涉及一种产业链图谱构建方法及相关设备

背景技术

产业链概念源于产业经济学,是指各个产业部门之间基于一定的技术经济关联,并依据特定的逻辑关系和时空布局关系客观形成的链条式关联关系形态。产业链中大量存在着上中下游关系和相互价值的交换,上游环节向下游环节输送产品或服务,下游环节向上游环节反馈信息。由于产业链可以作为宏观,行业、甚至个股信息和数据的重要载体,基于产业链的研究框架是研究员进行宏观、行业、公司研究的重要工具和手段。基于产业链的研究,起步较早,形成了大量丰富的研究成果。

随着社会分工深入细致,很多企业的产品随着市场需求应运而生,国民经济行业分类难以覆盖,这些细分行业实际上分布在以人类现代社会活动主导的媒体中,如新闻报道、研究报告和上市公司公告文本中。目前行业研究人员主要基于《国民经济行业分类》(GB/T4754-2017)等资料进行产业链的构件与识别,然而在面对海量的文本数据时,行业研究人员经常需要翻阅多篇文档,才能提取出最新的产业链节点和节点相关信息。工作量巨大,对行业研究人员依赖大。

发明内容

本申请实施例第一方面提供了一种产业链图谱构建方法,包括:

建立产业链模型;

基于所述产业链模型使用机器学习对目标文本进行识别,获得与所述产业链模型相关的识别结果;

将所述识别结果对应填充至所述产业链模型,获得产业链图谱。

基于本申请实施例第一方面提供的产业链图谱构建方法,可选的,

所述产业链模型包括:多个产业链节点、所述多个产业链节点的属性信息、所述多个产业链节点之间的关系及所述多个产业链节点之间的关系属性。

基于本申请实施例第一方面提供的产业链图谱构建方法,可选的,

所述产业链节点的属性信息包括:产业链节点关键词、要素文本、典型公司和融资情况中的任意一种或多种,所述要素文本包括:行业规模、发展历史与趋势、竞争格局、行业细分、行业壁垒、商业模式、政策法规、行业驱动力、核心指标、融资事件、节点定义、生命周期等行业数据中的任意一种或多种;

所述多个产业链节点之间的关系包括所述多个产业链节点之间的上下游、包含关系;

所述多个产业链节点之间的关系属性包括所述多个产业链节点之间的影响权重关系,所述影响权重关系包括双向影响权重关系和单向影响权重关系。

基于本申请实施例第一方面提供的产业链图谱构建方法,可选的,

所述基于所述产业链模型对目标文本进行识别,获得与所述产业链模型相关的识别结果,包括:

使用规则引擎对所述目标文本进行识别,获得句子实体,所述句子实体是指由一个或者连续多个句子组成的文本片段;

使用管道模型对所述句子实体进行分类,获得属于要素文本的句子实体;

使用管道模型对所述属于要素文本的句子实体进行进一步分类,将所述属于要素文本的句子实体分类为行业规模、发展历史与趋势、竞争格局、行业细分、行业壁垒、商业模式、政策法规、行业驱动力、核心指标、融资事件、节点定义、生命周期中的任意一种或几种;

使用序列标注模型对所述句子实体进行识别,获得多个产业链节点和所述多个产业链节点之间的关系属性;

使用关系抽取模型对所述句子实体进行识别,获得所述多个产业链节点之间的上下游和包含关系;

使用关系抽取模型对所述产业链节点及所述产业链节点之间的关系属性对应关系进行关联,获得所述多个产业链节点和产业链节点之间的关系属性对应关系;

基于所述产业链节点设置所述产业链节点对应的产业链节点关键词;

使用神经网络模型对所述句子实体进行识别,获得所述典型公司和所述融资情况。

基于本申请实施例第一方面提供的产业链图谱构建方法,可选的,

所述使用神经网络模型对所述产业链节点、产业链节点之间的关系属性对应关系进行关联,获得所述多个产业链节点和产业链节点之间的关系属性对应关系,之后所述方法还包括:

建立不同产业链节点之间的影响权重字典,所述影响权重字典包括权重描述词汇;

基于所述影响权重字典确定所述多个产业链节点之间的关系属性。

基于本申请实施例第一方面提供的产业链图谱构建方法,可选的,

所述方法还包括:

判断所有具有上下游或包含关系的产业链节点之间是否存在影响权重关系;

若不存在则对所述具有上下游或包含关系的产业链节点之间进行影响权重关系补全。

基于本申请实施例第一方面提供的产业链图谱构建方法,可选的,

所述方法还包括:

获取标准产业链节点体系,所述标准产业链节点体系包括多个标准产业链节点;

基于文本表示模型对所述标准产业链节点及所述基于目标文本识别获得的产业链节点进行文本表示,获取所述标准产业链节点与所述基于目标文本识别获得的产业链节点之间的相似度;

判断所述基于目标文本识别获得的产业链节点与所述标准产业链节点之间的相似度是否大于预设阈值;

若所述基于目标文本识别获得的产业链节点与所述标准产业链节点之间的相似度大于等于预设阈值,则设置所述基于目标文本识别获得的产业链节点为普通产业链节点,将所述普通产业链节点与所述标准产业链节点进行对应;

若所述基于目标文本识别获得的产业链节点与所述标准产业链节点之间的相似度小于预设阈值,则设置所述基于目标文本识别获得的产业链节点为展示性产业链节点,添加所述展示性产业链节点至所述标准产业链体系。

本申请实施例第二方面提供了一种产业链图谱构建设备,包括:

建立单元,用于建立产业链模型;

识别单元,用于基于所述产业链模型使用机器学习对目标文本进行识别,获得与所述产业链模型相关的识别结果;

填充单元,用于将所述识别结果填充至所述产业链模型,获得产业链图谱。

本申请实施例第三方面提供了一种产业链图谱构建设备,包括:

中央处理器,存储器,输入输出接口,有线或无线网络接口以及电源;

所述存储器为短暂存储存储器或持久存储存储器;

所述中央处理器配置为与所述存储器通信,在所述产业链图谱构建上执行所述存储器中的指令操作以执行本申请实施例第一方面中任意一项所述的方法。

本申请实施例第四方面提供了一种计算机可读存储介质,包括指令,当所述指令在计算机上运行时,使得计算机执行如本申请实施例第一方面中任意一项所述的方法。

本申请实施例第五方面提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行如本申请实施例第一方面中任意一项所述的方法。

从以上技术方案可以看出,本申请实施例具有以下优点:本方案通过对产业链的结构进行预先设置,并使用基于深度学习的神经网络模型对目标文本进行识别,获得与所述产业链模型相关的识别结果。将所获得的识别结果作为产业链的一部分属性填充至产业链的结构中,丰富产业链内容,进而获得相应的产业链图谱,通过本方法即可使用深度学习的神经网络模型对目标文本进行识别,可处理大量的文本数据并提取出相应的产业链节点和节点相关信息,提高了产业链图谱的获取效率,提供了一种更具有可实施性的产业链图谱获取方法。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1为本申请产业链图谱构建方法实施例的一个流程示意图;

图2为本申请产业链图谱构建方法实施例的另一个流程示意图;

图3为本申请所获得的产业链图谱的一个示意图;

图4为本申请实施例产业链图谱构建设备的一个结构示意图;

图5为本申请实施例产业链图谱构建设备的另一个结构示意图。

具体实施方式

本申请实施例提供了一种产业链图谱构建方法,用于对大量的文本数据进行分析以便获取文本数据中所包含的产业链信息,本方案通过对产业链的结构进行预先设置,并使用基于深度学习的神经网络模型对目标文本进行识别,获得与所述产业链模型相关的识别结果。将所获得的识别结果作为产业链的一部分属性填充至产业链的结构中,丰富产业链内容,进而获得相应的产业链图谱,通过本方法提高了产业链图谱的获取效率,提供了一种更具有可实施性的产业链图谱获取方法。

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

需要说明的是,在本申请中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本申请要求的保护范围之内。

请参阅图1,本申请产业链图谱构建方法的一个实施例包括:步骤101- 步骤103。

101、建立产业链模型。

建立产业链模型,具体的可使用服务器设置相应的产业链模型结构,包括产业链模型中可包括的产业链节点以及各个产业链节点之间的关系和产业链节点的属性信息,如产业链节点的名称获取规则,产业链节点所对应的产业链关键词,产业链节点所对应的要素文本、相应产业的典型公司等信息,产业链节点之间的关联关系具体的可包括:产业链节点之间的上下游关系或产业链节点之间的影响权重关系等类型的关系信息,产业链节点之间的影响权重关系可以理解为某一产业对另一产业的影响程度关系,即当某一产业发生变动时,另一产业因为此变动所产生的的变动程度大小,具体的可通过对文本的分析获得定性或定量的影响权重关系,具体可依据实际情况而定,此处不做限定。可以理解的是,在对产业链模型进行设置的过程中,用户可依据自身需求设置所需要的特定产业链节点属性,如产业的发展历史、政策法规等信息,以便满足用户需求,在本方案实际实施过程中也可由工作人员预先设置产业链模型的具体结构信息,以便快速获得相应的产业链图谱提高本方案的可实施性,具体可依据实际情况而定,此处不做限定。

102、基于所述产业链模型使用机器学习对目标文本进行识别,获得与产业链模型相关的识别结果。

基于所述产业链模型使用机器学习对目标文本进行识别,获得与产业链模型相关的识别结果。基于步骤101所设置的产业链模型对目标文本进行识别,以获得与产业链模型相关的识别结果,具体的工作人员可预先设置产业链模型中各个信息的识别条件,如目标文本中单个产业链节点的识别条件,产业链节点所对应的要素文本识别规则,各个产业链节点之间的关联关系识别规则等条件,并基于该条件设置相应的训练集以便训练获得用于对目标文本进行识别的深度学习神经网络模型,具体的,目标文本可由其他公司的上市公开文本及研究机构所发布的研究报告获得,也可由其他如政府公告,财经杂志等渠道获得,具体可依据实际情况而定,此处不做限定。在对目标文本使用机器学习进行识别前可先对目标文本进行预处理,获得目标文本中具有实际意义的句子实体以便进行识别过程,具体的可使用规则引擎执行该过程,同时还可对目标文本中所包括的表格和图片等内容进行识别,将目标文本中所包括的非结构化数据转换为可被机器学习识别的结构化数据,便于识别过程的进行。

基于对目标文本的识别目的不同可使用不同种类的深度学习神经网络模型,如使用序列标注模型识别获得产业链节点,使用管道模型对要素文本进行分类。可以理解的是,识别过程中可使用多个预先训练完成的神经网络模型配合完成对目标文本的识别过程,以便更好的获得产业链模型的相应信息,如使用不同的神经网络模型识别产业链节点中的不同属性特征,以便更好的发挥不同结构的神经网络模型的效果,提高对目标文本的识别准确程度,获得更加完善的产业链图谱。具体可依据实际情况而定,此处不做限定。

103、将所述识别结果对应填充至所述产业链模型,获得产业链图谱。

将所述识别结果对应填充至所述产业链模型,获得产业链图谱。获取机器学期所输出的识别结果,并基于识别结果所附带的属性标签添加至产业链模型中,以获取完整的产业链图谱,具体的可依据产业链模型所设置的结构分别将识别结果添加至产业链模型中,并依据机器学习识别获得的上下游、影响权重等关系添加不同产业连接点之间的连接关系,以使得产业链模型中不同产业链节点之间的关系更加清晰,再将所获得的识别结果添加至产业链模型后,即获得了目标文本所包含的产业链信息,进一步的可将各个产业链节点所对应的属性信息进行可视化处理,获得易于用户获取的产业链图谱,以便用户基于产业链图谱所提供的信息即可得知各个产业的具体情况,具体可依据实际情况而定,此处不做限定。

从以上技术方案可以看出,本申请实施例具有以下优点:本方案通过对产业链的结构进行预先设置,并使用基于深度学习的神经网络模型对目标文本进行识别,获得与所述产业链模型相关的识别结果。将所获得的识别结果作为产业链的一部分属性填充至产业链的结构中,丰富产业链内容,进而获得相应的产业链图谱,通过本方法即可使用深度学习的神经网络模型对目标文本进行识别,可处理大量的文本数据并提取出相应的产业链节点和节点相关信息,提高了产业链图谱的获取效率,提供了一种更具有可实施性的产业链图谱获取方法。

基于图1所描述的实施例,下面提供一种本方案在实施过程中可选择执行的详细实施例,请参阅图2,本申请产业链图谱构建方法的一个实施例包括:步骤201-步骤211。

201、建立产业链模型。

建立产业链模型。具体的,产业链模型包括多个产业链节点、所述多个产业链节点的属性信息及所述多个产业链节点之间的关系及所述多个产业链节点之间的关系属性。产业链节点的属性信息包括:产业链节点关键词、要素文本、典型公司和融资情况。

产业链节点关键词是指描述产业链节点的词汇,如人工智能节点下的产业关键词包含“人工智能,AI(Artificial Intelligence),自然语言处理,遗传算法”等关键词,在识别出目标文本所包括的产业后,可依据相应算法确定在该产业范围内出现频率最高的词汇确定为产业关键词或通过其他算法得出相应的产业关键词,具体可依据实际情况而定,此处不做限定。

要素文本是以行业研究视角确定的,对产业链的研究具有重要参考价值的文本数据,对于要素文本而言,还可以细分为行业规模、发展历史与趋势、竞争格局、行业细分、行业壁垒、商业模式、政策法规、行业驱动力、核心指标、融资事件、节点定义和生命周期等多种类别,具体的分类情况可依据实际需求而定,此处不做限定。

典型公司是指在特定的细分产业下具有代表性的企业,一般为占有市场份额较大的龙头企业、海内外上市公司或新三板挂牌企业等类型的企业,可基于这类公司反应产业的发展信息,具有较高的参考价值。

融资情况是指该产业在市场上的投融资表现。通过对该产业内的各个公司企业的融资信息进行收集,经过聚合整理并排序等方式的数据加工处理,获得一系列反应该产业经济融资情况的指标。

多个产业链节点之间的关系属性包括所述多个产业链节点之间的影响权重关系,所述影响权重关系包括双向影响权重关系和单向影响权重关系。即上游产业对下游产业的影响权重和下游产业对上游产业的影响权重。

202、使用规则引擎对所述目标文本进行识别,获得句子实体。

使用规则引擎对所述目标文本进行识别,获得句子实体。在对目标文本进行识别时首先需对目标文本进行句子实体的抽取,所述句子实体是指由一个或者连续多个句子组成的文本片段。由于原始数据由大量的非结构化文本、图片和图表组成,因此需先使用规则引擎对文本进行预处理,以获得可进行后续神经网络模型识别处理的结构化数据。其中文本又分为目录,章节,段落,句子四个层级,在经过规则引擎处理后,可获得便于进行识别的句子实体。规则引擎是一种嵌入在应用程序中的组件,基于业务人员的设定可用于从大量的非结构化数据中获得包括有效信息的句子实体。

203、使用管道模型对所述句子实体进行分类,获得属于要素文本的句子实体。

使用管道模型对所述句子实体进行分类,获得属于要素文本的句子实体。具体的,使用pipeline模型进行一个分类任务,将步骤202所获得的句子实体进行分类,预设的分类标签包括要素文本、公司数据和宏观数据,取概率超过预设阈值的第一标签作为该句子实体所对应的标签。具体的分类过程可参照表1,在获得句子实体的类别后可对所获得的属于要素文本的数据进行进一步的分类,而其中属于公司数据或宏观数据的句子实体则可用于对典型公司或融资情况的分析过程中,具体此处不做限定。可以理解的是,上述在pipeline模型中预先设置的分类标签及下面表格中所提及的分类标准以及示例均为解释说明本方法所提供,在本方案实际实施过程中可依据自身需求进行调整,并不对本方案造成限制。

表1

206、使用管道模型对所述属于要素文本的句子实体进行进一步分类。

使用管道模型对所述属于要素文本的句子实体进行进一步分类。使将所述属于要素文本的句子实体分类为行业规模,发展历史与趋势,政策法规和竞争格局中的任意一种,具体的,分类过程可参照表2。在进行分类过程中其他类别还可包括:行业壁垒、商业模式、行业驱动力、核心指标、融资事件、节点定义和生命周期等类别,对这些类别的分类过程可参照上述分类过程,具体此处不再赘述。可以理解的是,识别所获得的要素文本种类可为一个或多个,具体此处不做限定。

表2

在对属于要素文本的句子的句子实体进行识别时是使用与上述步骤203 中所使用的pipeline模型作为该模型的第二个任务进行处理。可以理解的是,上述在pipeline模型中预先设置的分类标签及表格中所提及的分类标准以及示例均为解释说明本方法所提供,在本方案实际实施过程中可依据自身需求进行调整,并不对本方案造成限制。

205、使用序列标注模型对所述句子实体进行识别,获得多个产业链节点和所述多个产业链节点之间的关系属性。

使用序列标注模型对所述句子实体进行识别,获得多个产业链节点。使用序列标注模型对所获得的句子实体进行识别,进而获得目标文本中的产业链节点,序列标注模型可识别文本中包括但不限于的产业实体、权重实体等产业链要素,若发现新的产业,则作为产业链中一个新的节点进行输出。进而获得目标文本中所包括的多个产业链节点。多个产业链节点之间的关系属性即不同产业链节点之间的影响权重关系,值得注意的是,产业链节点之间的关系属性可被序列标注模型识别获得,但对于该关系属性具体的与产业链节点之间的对应关系无法由序列标注模型识别得出,如基于序列标注模型对目标文本进行识别后获得产业链节点A、产业链节点B、产业链节点C、以及产业链节点之间的关系属性D、关系属性E、关系属性F,需对其进行进一步识别才可获得产业链节点A和产业链节点B之间的关系属性具体为D或E或F。

可以理解的是,在使用序列标注模型前,应对该模型使用相应的文本作为训练集进行训练,以使得训练好的序列标注模型具有识别产业链节点的能力,具体此处不做赘述。在对产业链节点的识别过程中所使用的神经网络模型可为序列标注模型中的任意一种,如隐马尔可夫模型(Hidden Markov Model,HMM),最大熵模型(The Maximum EntropyPrinciple)、和条件随机场(Conditional Random Field,CRF)具体此处不做限定,为提高产业链节点的识别效果也可对所使用的神经网络模型进行结构上的调整,即使用序列标注模型的变种进行产业链节点、权重实体等产业链要素的识别,具体此处不做限定。

206、基于所述产业链节点设置所述产业链节点对应的产业链节点关键词。

基于所述产业链节点设置所述产业链节点对应的产业链节点关键词。具体的可由工作人员手动设置也可由具有该功能的神经网络模型执行。具体的可由工作人员依据该产业链节点的名称确定相关的词汇作为产业关键词,也可由其他神经网络通过词汇出现的频率或词汇在文本中的重要程度是被获得产业关键词,具体可依据实际情况而定,此处不做限定。

207、使用关系抽取模型对所述句子实体进行识别,获得所述多个产业链节点之间的上下游和包含关系。

207、使用关系抽取模型对所述句子实体进行识别,获得所述多个产业链节点之间的上下游和包含关系。基于关系抽取模型自动实现上下游关系识别,进而获得多个产业链节点上下游关系以及包含关系,并以有向箭头的形式结合产业链图谱进行不同节点之间的自动连接。

208、使用关系抽取模型对所述产业链节点、产业链节点之间的关系属性对应关系进行关联,获得所述多个产业链节点和产业链节点之间的关系属性对应关系。

使用关系抽取模型对所述产业链节点、产业链节点之间的关系属性对应关系进行关联,获得所述多个产业链节点和产业链节点之间的关系属性对应关系,具体的可使用权重字典参与进行关系属性设置,如

设置权重字典包括:最重要,重要,一般,影响较小等。基于深度学习模型实现对目标文本中的影响权重与产业实体对之间的对应关系。

例1:

文本:注塑机下游广泛,受周期波动较小,未来将保持稳健增长,预计2015 年市场规模达400亿。目前家电、汽车是最大下游,医疗、3C则是增长亮点。

上游:注塑机

下游:家电、汽车

权重系数:最大

权重类型:定性描述

权重方向:下游

例2:

文本:目前硅片在整个光伏电池成本中占比约33%,因为金融危机减少了各国新能源行业补贴同时产能庞大难以消化,2009年以后硅片行业利润急速下降,对成本控制更加重视。

上游:硅片

下游:光伏电池

权重系数:33%

权重类型:成本定量

权重方向:下游

可以理解的是,在识别过程中也以百分比的形式将所获得的重要、非常重要等形式的定性影响权重表述方式转换为数值描述,如最大转换为0.8,非常重要转换为0.6重要转换为0.4等形式,具体可依据实际情况而定,此处不做限定。

基于关系抽取模型对产业链节点及产业链节点之间的关系属性进行关联,如产业链节点A与产业链节点B之间对应的关系属性为影响权重F。值得注意的是,本步骤所使用的关系抽取模型于上述步骤207所使用的关系抽取模型可为同一模型但使用不同的算法或训练方式,具体此处不做限定。

209、使用神经网络模型对所述句子实体进行识别,获得所述典型公司和所述融资情况

使用基于深度学习的神经网络模型对所述句子实体进行识别,获得所述典型公司和所述融资情况,并将所获得的典型公司和融资情况作为产业链节点的一部分属性信息添加至产业链节点,以便提高产业链模型所能表达的内容,在执行本步骤过程中所具体使用的基于深度学习的神经网络模型可依据实际情况自主进行选择和设置,以便符合用户的使用需求,便于完成相应的筛选过程。具体的节将典型公司的公司主页网址及相应描述添加至产业链节点的相应信息中。

210、基于所述识别结果填充至所述产业链模型,获得产业链图谱。

将基于上述步骤所获得产业链节点的属性信息:产业链节点关键词、要素文本、典型公司和融资情况,以及要素文本所包括的:行业规模,发展历史与趋势,政策法规和竞争格局中等信息填充至产业链模型中的产业链节点部分,并将识别所获得的产业链节点之间的关系包括所述多个产业链节点之间的上下游关系和/或所述多个产业链节点之间的影响权重关系。添加至产业链模型中,进而获得完整的产业链图谱,具体的所获得的产业链图谱可参照图3。

从以上技术方案可以看出,本申请实施例具有以下优点:本方案通过对产业链的结构进行预先设置,并使用基于深度学习的神经网络模型对目标文本进行识别,获得与所述产业链模型相关的识别结果。将所获得的识别结果作为产业链的一部分属性填充至产业链的结构中,丰富产业链内容,进而获得相应的产业链图谱,通过本方法即可使用深度学习的神经网络模型对目标文本进行识别,可处理大量的文本数据并提取出相应的产业链节点和节点相关信息,提高了产业链图谱的获取效率,提供了一种更具有可实施性的产业链图谱获取方法。

在本方案实施过程中获取影响权重部分的过程可进行进一部的细化执行过程,以便获得更加准确的影响权重数据,具体的请参照图4,包括:

401、建立不同产业链节点之间的影响权重字典。

建立不同产业链节点之间的影响权重字典。

402、基于所述影响权重字典确定所述多个产业链节点之间的关系属性。

基于所述影响权重字典确定所述多个产业链节点之间的关系属性。

上述步骤401至步骤402与本申请图2对应的实施例中步骤208的实施过程类似,具体此处不再赘述。

404、判断所有具有上下游或包含关系的产业链节点之间是否存在影响权重关系。

判断所有具有上下游或包含关系的产业链节点之间是否存在影响权重关系,若不存在,则执行步骤405、对所述具有上下游或包含关系的产业链节点之间进行影响权重关系补全。

405、对所述具有上下游或包含关系的产业链节点之间进行影响权重关系补全。

对所述具有上下游或包含关系的产业链节点之间进行影响权重关系补全。即对产业链中已识别出存在上下游或包含关系,但并未识别获得影响权重属性的产业链节点进行权重补全,具体的补全方式包括定性和定量两种。

对于定量的权重属性,具体是指获取文本中两个产业之间相互的“成本占比”或“需求占比”等属性。获取此类属性并将对应数值加入到连边,作为连边属性。对于无法获取到此类属性的上下游产业链节点可由从业人员基于经验设置对应的影响权重值,也可采用数值计算的方式推算获得可能的数值,也可将已知的份额扣除,对剩余的数值进行平均计算的方式获得影响权重值。

对于定性的影响权重属性。可由从业人员手动设置为“最重要”,“重要”,“一般”三个种类,对于此类属性也可被数值化后加入到连边,作为连边的属性。具体可依据实际情况而定,此处不做限定。

可以理解的是,在获取到影响权重属性后,还可根据实时数据重复以上步骤实现权重的动态调整。以便获得实时有效的影响权重数据。通过上述方式提高了产业链图谱中影响权重数据的有效性。

在获取到产业链图谱后,还可对产业链图谱所包括的产业链节点的名称进行对应处理,以使得产业链节点的名称更加准确与标准,具体的请参照图5。

501、获取标准产业链节点体系。

获取标准产业链节点体系,所述标准产业链节点体系包括多个标准产业链节点。首先需建立标准行业节点体系,标准行业节点体系所包括的产业链节点为行业研究人员对国民经济行业及行业属性进行研究后所得出的集合。基于现有的数据结合《国民经济行业分类》、《全国投入产出表》以及全球行业分类标准(Global Industry ClassificationStandard,GICS)等标准分类体系建立出的标准行业节点体系,其中,每个标准行业节点对应多个产业链节点。

502、基于文本表示模型对所述标准产业链节点及所述基于目标文本识别获得的产业链节点进行文本表示,获取所述标准产业链节点与所述基于目标文本识别获得的产业链节点之间的相似度

基于文本表示模型对所述标准产业链节点及所述基于目标文本识别获得的产业链节点进行文本表示,获取所述标准产业链节点与所述基于目标文本识别获得的产业链节点之间的相似度。使用文本表示模型对标准产业链节点及识别获得的产业链节点进行处理计算得出识别获得的产业链节点与标准产业链节点之间的相似度。

基于文本表示模型对所述标准产业链节点及所述基于目标文本识别获得的产业链节点进行识别,获取标准产业链节点与所述基于目标文本识别获得的产业链节点之间的相似度。首先使用文本表示模型,包括但不限于热编码技术、词袋模型、预训练语言模型等,对标准产业链节点体系进行分析,得到标准产业向量矩阵,再将基于目标文本识别获得的产业链节点的名称输入文本表示模型,得到其表示向量,最终使用相似度度量指标,包括但不限于余弦相似度(Cosine)、斯皮尔曼秩相关系数(Spearman's rank correlationcoefficient)等,计算与标准产业链节点之间的相似度。

503、判断所述基于目标文本识别获得的产业链节点与所述标准产业链节点之间的相似度是否大于预设阈值。

判断所述基于目标文本识别获得的产业链节点与所述标准产业链节点之间的相似度是否大于预设阈值。若大于等于预设阈值,则执行步骤504、设置所述基于目标文本识别获得的产业链节点为普通产业链节点,将所述普通产业链节点与所述标准产业链节点进行对应。若小于预设阈值,则执行步骤505、设置所述基于目标文本识别获得的产业链节点为展示性产业链节点,添加所述展示性产业链节点至所述标准产业链体系。预设阈值可依据实际情况进行设置,具体此处不做限制。

504、设置所述基于目标文本识别获得的产业链节点为普通产业链节点,将所述普通产业链节点与所述标准产业链节点进行对应。

若基于目标文本识别获得的产业链节点与所述标准产业链节点之间的相似度大于等于预设阈值,则说明该节点在标准产业链节点体系中已有相应体现,因此可设置所述基于目标文本识别获得的产业链节点为普通产业链节点,将所述普通产业链节点与所述标准产业链节点进行对应。具体的,可添加标注,注明具体对应的标准产业链节点,具体此处不做赘述。

505、设置所述基于目标文本识别获得的产业链节点为展示性产业链节点,添加所述展示性产业链节点至所述标准产业链体系。

若基于目标文本识别获得的产业链节点与所述标准产业链节点之间的相似度小于预设阈值,则说明在标准产业链体系中不存在该产业链节点,则可设置所述基于目标文本识别获得的产业链节点为展示性产业链节点,添加所述展示性产业链节点至所述标准产业链体系。具体的可将展示性产业链节点与普通产业链节点进行区别展示,以便用户可直观确定展示性产业链节点并对其进行分析。可以理解的是,由于机器学习方式所获得的产业链节点可能存在错误,因此可由人工对展示性产业链节点进行相应检查,对于错误的产业链节点或实际不存在的产业链节点进行删除,以便保证结果的准确性,具体此处不做限定。

上面对申请实施例中的产业链图谱构建方法进行了描述,下面对本发明实施例中的产业链图谱构建装置进行描述。请参阅图3,本申请的一个实施例包括:

建立单元601,用于建立产业链模型;

识别单元602,用于基于所述产业链模型使用机器学习对目标文本进行识别,获得与所述产业链模型相关的识别结果;

填充单元603,用于将所述识别结果对应填充至所述产业链模型,获得产业链图谱。

本实施例中,产业链图谱构建装置中各单元所执行的流程与前述图1所对应的实施例中描述的产业链图谱构建方法流程类似,此处不再赘述。

服务器可以包括一个或一个以上中央处理器(central processing units, CPU)和存储器,该存储器中存储有一个或一个以上的应用程序或数据。

本实施例中,中央处理器中的具体功能模块划分可以与前述图1中所描述的各单元的功能模块划分方式类似,此处不再赘述。

其中,存储器可以是易失性存储或持久存储。存储在存储器的程序可以包括一个或一个以上模块,每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器可以设置为与存储器通信,在服务器上执行存储器中的一系列指令操作。

服务器还可以包括一个或一个以上电源,一个或一个以上有线或无线网络接口,一个或一个以上输入输出接口,和/或,一个或一个以上操作系统,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等。

该中央处理器可以执行前述图1所示实施例中产业链图谱构建方法所执行的操作,具体此处不再赘述。

本发明还提供了一种计算机可读存储介质,该计算机可读存储介质用于实现产业链图谱构建方法的功能,其上存储有计算机程序,计算机程序被处理器执行时,处理器,可以用于执行如图1所述的方法。

可以理解的是,所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在相应的一个计算机可读取存储介质中或集成为计算机程序产品以便执行上述方法。基于这样的理解,本发明实现上述相应的实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random AccessMemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号