首页> 中国专利> 一种基于企业知识图谱的企业识别方法及装置

一种基于企业知识图谱的企业识别方法及装置

摘要

本发明公开了一种基于企业知识图谱的企业识别方法及装置,所述方法包括:获取各个企业实体的舆情信息中的中文关键词;根据象形要素对关键词分别进行语义拆分,并根据语义拆分结果输出企业实体的词向量;通过语义关联度解释模型对词向量进行识别,得到企业实体的舆情识别结果;根据各个企业实体的舆情识别结果和企业实体之间的经济关系构建企业知识图谱;根据企业知识图谱确定确定各个企业实体的级别。本发明能够从小微企业的舆情信息中提取出企业实体词向量,结合小微企业之间的经济关系挖掘出更为精准的小微企业情况和小微企业间关系,构建准确的企业知识图谱,从而为服务小微企业保驾护航,保障自身的数据、财产安全。

著录项

  • 公开/公告号CN114579764A

    专利类型发明专利

  • 公开/公告日2022-06-03

    原文格式PDF

  • 申请/专利权人 上海淇玥信息技术有限公司;

    申请/专利号CN202210226612.7

  • 发明设计人 陈雪清;刘然;孙涛;

    申请日2022-03-09

  • 分类号G06F16/36;G06F40/30;G06K9/62;

  • 代理机构北京清诚知识产权代理有限公司;

  • 代理人宋红艳

  • 地址 201500 上海市崇明区横沙乡富民支路58号A2-8914室

  • 入库时间 2023-06-19 15:32:14

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-06-03

    公开

    发明专利申请公布

说明书

技术领域

本发明涉及计算机信息处理技术领域,具体而言,涉及一种基于企业知识图谱的企业识别方法、装置、电子设备及计算机可读介质。

背景技术

据统计,我国总计有超过四千万的中小企业,而其中实现信息化的比例不足10%。由于缺乏信息化的支持,大多数小微企业的管理呈现粗放、混乱的状态,导致其在市场竞争中处于下风,很容易因为大型和中型企业的竞争而倒闭破产,也是因为这样,对于小微企业而言,由于各种经营或者社会环境的问题,小微企业在运行过程中经常需要进行融资以维持运行。

在实际工作过程中,针对小微企业的支持,不仅需要准确确定出小微企业的自身情况,也需要对小微企业之间的经营关系进行确定,而可见的账面数据往往不可靠,容易造假,而且小微企业的客群不够稳定,小微企业之间的交易或者对外经营情况往往十分复杂,因此,现有的技术对企业及企业关系之间的刻画都不够准确,若在识别过程中将存在数据安全、财产安全问题的企业识别为安全的白名单企业进行正常的业务往来,会对企业自身的数据安全、财产安全造成巨大隐患。

发明内容

有鉴于此,本发明主要目的在于提出一种基于企业知识图谱的企业识别方法、装置、电子设备及计算机可读介质,以期至少部分地解决上述技术问题中的至少之一,比如,小微企业的企业状态难以确定。

为了解决上述技术问题,本发明第一方面提出一种基于企业知识图谱的企业识别方法,所述方法包括:

获取各个企业实体的舆情信息,并获取所述舆情信息中的中文关键词;

根据象形要素对所述关键词分别进行语义拆分,并根据语义拆分结果输出所述企业实体的词向量;

通过语义关联度解释模型对所述词向量进行识别,得到所述企业实体的舆情识别结果,所述语义关联度解释模型用于识别所述词向量对应的所述关键词与文本训练数据中各个词或汉字的语义关联度,并将语义关联度符合预设条件的词或汉字作为舆情识别结果对所述关键词进行语义层面的解释说明;

获取各个企业实体的经济信息,并根据所述经济信息确定所述企业实体之间的经济关系;

根据各个企业实体的舆情识别结果和所述企业实体之间的经济关系构建企业知识图谱;

根据所述企业知识图谱对所述企业实体进行分级,确定各个所述企业实体的级别。

根据本发明一种优选实施方式,所述根据象形要素对所述关键词分别进行语义拆分包括:

将关键词转换成繁体字;

将繁体字根据象形要素进行拆分映射处理,得到语义拆分结果。

根据本发明一种优选实施方式,所述象形要素包括中文五笔字根,所述将繁体字根据象形要素进行拆分映射处理包括:

将繁体字通过中文五笔字根进行拆分映射,得到多个英文映射单元,每个英文映射单元对应一个象形要素,并代表一种语义单元;

将所述多个英文映射单元进行组合,得到多个代表所述关键词不同语义的组合特征。

根据本发明一种优选实施方式,所述象形要素包括繁体字的最小分割元素,所述将繁体字根据象形要素进行拆分映射处理包括:

将繁体字根据象形要素进行拆分;

将拆分结果进行映射;得到多个映射单元,每个映射单元对应一个象形要素,并代表一种语义单元;

将所述多个映射单元进行组合,得到多个代表所述关键词不同语义的组合特征。

根据本发明一种优选实施方式,所述根据语义拆分结果输出所述企业实体的词向量包括:

对语义拆分结果进行one-hot编码,得到企业实体的词向量。

根据本发明一种优选实施方式,所述根据各个企业实体的舆情识别结果和所述企业实体之间的经济关系构建企业知识图谱,包括:

构建每个所述企业实体对应的节点,并将所述企业实体的舆情识别结果和企业实体之间的经济关系作为节点的属性信息;

根据所述企业实体之间的经济关系确定所述节点之间的连接边;

基于所述连接边和所述节点构建所述企业知识图谱。

根据本发明一种优选实施方式,所述经济关系包括:企业实体之间的交易信息和经济关联关系;

将所述企业实体的舆情识别结果和企业实体之间的经济关系作为节点的属性信息,包括:

通过所述经济关联关系对企业实体之间的交易信息进行调整,使得经济关联关系包括预设关系的企业实体之间的交易信息的数值降低;

将所述企业实体的舆情识别结果和企业实体之间的交易信息作为节点的属性信息;

根据所述企业实体之间的经济关系确定所述节点之间的连接边,包括:

根据所述企业实体之间的交易信息确定所述节点之间的连接边。

根据本发明一种优选实施方式,所述经济关联关系包括:投资关系、负债关系、担保关系、上下游关系中的至少一种;

通过所述经济关联关系对每个所述节点的交易信息进行调整,包括:

调整后的所述企业实体之间的交易信息的数值y

其中:x

为解决上述技术问题,本发明第二方面提供一种基于企业知识图谱的企业识别装置,所述装置包括:

第一获取模块,用于获取各个企业实体的舆情信息,并获取所述舆情信息中的中文关键词;

词向量处理模块,用于根据象形要素对所述关键词分别进行语义拆分,并根据语义拆分结果输出所述企业实体的词向量;

识别模块,用于通过通过语义关联度解释模型对所述词向量进行识别,得到所述企业实体的舆情识别结果,所述语义关联度解释模型用于识别所述词向量对应的所述关键词与文本训练数据中各个词或汉字的语义关联度,并将语义关联度符合预设条件的词或汉字作为舆情识别结果对所述关键词进行语义层面的解释说明;

第二获取模块,用于获取各个企业实体的经济信息,并根据所述经济信息确定所述企业实体之间的经济关系;

构建模块,用于根据各个企业实体的舆情识别结果和所述企业实体之间的经济关系构建企业知识图谱;

确定模块,用于根据所述企业知识图谱对所述企业实体进行分级,确定各个所述企业实体的级别。

根据本发明一种优选实施方式,所述词向量处理模块包括:

转换模块,用于将关键词转换成繁体字;

拆分映射模块,用于将繁体字根据象形要素进行拆分映射处理,得到语义拆分结果。

根据本发明一种优选实施方式,所述象形要素包括中文五笔字根,所述拆分映射模块包括:

第一拆分映射模块,用于将繁体字通过中文五笔字根进行拆分映射,得到多个英文映射单元,每个英文映射单元对应一个象形要素,并代表一种语义单元;

第一组合模块,用于将所述多个英文映射单元进行组合,得到多个代表所述关键词不同语义的组合特征。

根据本发明一种优选实施方式,所述象形要素包括繁体字的最小分割元素,所述拆分映射模块包括:

拆分模块,用于将繁体字根据象形要素进行拆分;

映射模块,用于将拆分结果进行映射;得到多个映射单元,每个映射单元对应一个象形要素,并代表一种语义单元;

第二组合模块,用于将所述多个映射单元进行组合,得到多个代表所述关键词不同语义的组合特征。

根据本发明一种优选实施方式,所述词向量处理模块还包括:

编码模块,用于对语义拆分结果进行one-hot编码,得到企业实体的词向量。

根据本发明一种优选实施方式,所述构建模块,具体用于构建每个所述企业实体对应的节点,并将所述企业实体的舆情识别结果和企业实体之间的经济关系作为节点的属性信息;根据所述企业实体之间的经济关系确定所述节点之间的连接边;基于所述连接边和所述节点构建所述企业知识图谱。

根据本发明一种优选实施方式,所述经济关系包括:企业实体之间的交易信息和经济关联关系;

所述构建模块,具体用于通过所述经济关联关系对企业实体之间的交易信息进行调整,使得经济关联关系包括预设关系的企业实体之间的交易信息的数值降低;将所述企业企业实体的舆情识别结果和企业实体之间的交易信息作为节点的属性信息;

所述构建模块,还具体用于根据所述企业实体之间的交易信息确定所述节点之间的连接边。

根据本发明一种优选实施方式,所述经济关联关系包括:投资关系、负债关系、担保关系、上下游关系中的至少一种;

所述构建模块通过如下公式确定调整后的所述企业实体之间的交易信息的数值y

其中:x

为解决上述技术问题,本发明第三方面提供一种电子设备,包括:

处理器;以及

存储计算机可执行指令的存储器,所述计算机可执行指令在被执行时使所述处理器执行上述的方法。

为解决上述技术问题,本发明第四方面提供一种计算机可读存储介质,其中,所述计算机可读存储介质存储一个或多个程序,当所述一个或多个程序被处理器执行时,实现上述方法。

本发明考虑到汉字象形文字的特点,根据象形要素对各个企业实体的舆情信息中的关键词分别进行语义拆分,使关键词的每个语义拆分结果都能够准确的解释该关键词的不同语义,再对各个语义拆分结果进行词向量处理,输出各个语义拆分结果对应的词向量,通过语义关联度解释模型识别出所述关键词与文本训练数据中各个词或汉字的语义关联度,并将语义关联度符合预设条件的词或汉字作为舆情识别结果对所述关键词进行语义层面的解释说明;因此,本发明能够从小微企业的舆情信息中提取出企业实体词向量,结合小微企业之间的经济关系挖掘出更为精准的小微企业情况和小微企业间关系,构建准确的企业知识图谱,从而为服务小微企业保驾护航,保障自身的数据、财产安全。

附图说明

为了使本发明所解决的技术问题、采用的技术手段及取得的技术效果更加清楚,下面将参照附图详细描述本发明的具体实施例。但需声明的是,下面描述的附图仅仅是本发明的示例性实施例的附图,对于本领域的技术人员来讲,在不付出创造性劳动的前提下,可以根据这些附图获得其他实施例的附图。

图1是本发明实施例一种基于企业知识图谱的企业识别方法的流程示意图;

图2a是本发明实施例一种将繁体字根据象形要素进行拆分映射处理的流程示意图;

图2b是本发明实施例另一种将繁体字根据象形要素进行拆分映射处理的流程示意图;

图3是本发明实施例一种基于企业知识图谱的企业识别装置的结构框架示意图;

图4是根据本发明的一种电子设备的示例性实施例的结构框图;

图5是本发明一种计算机可读介质实施例的示意图。

具体实施方式

现在将参考附图来更加全面地描述本发明的示例性实施例,虽然各示例性实施例能够以多种具体的方式实施,但不应理解为本发明仅限于在此阐述的实施例。相反,提供这些示例性实施例是为了使本发明的内容更加完整,更加便于将发明构思全面地传达给本领域的技术人员。

在符合本发明的技术构思的前提下,在某个特定的实施例中描述的结构、性能、效果或者其他特征可以以任何合适的方式结合到一个或更多其他的实施例中。

在对于具体实施例的介绍过程中,对结构、性能、效果或者其他特征的细节描述是为了使本领域的技术人员对实施例能够充分理解。但是,并不排除本领域技术人员可以在特定情况下,以不含有上述结构、性能、效果或者其他特征的技术方案来实施本发明。

附图中的流程图仅是一种示例性的流程演示,不代表本发明的方案中必须包括流程图中的所有的内容、操作和步骤,也不代表必须按照图中所显示的的顺序执行。例如,流程图中有的操作/步骤可以分解,有的操作/ 步骤可以合并或部分合并,等等,在不脱离本发明的发明主旨的情况下,流程图中显示的执行顺序可以根据实际情况改变。

附图中的框图一般表示的是功能实体,并不一定必然与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

各附图中相同的附图标记表示相同或类似的元件、组件或部分,因而下文中可能省略了对相同或类似的元件、组件或部分的重复描述。还应理解,虽然本文中可能使用第一、第二、第三等表示编号的定语来描述各种器件、元件、组件或部分,但是这些器件、元件、组件或部分不应受这些定语的限制。也就是说,这些定语仅是用来将一者与另一者区分。例如,第一器件亦可称为第二器件,但不偏离本发明实质的技术方案。此外,术语“和/或”、“及/或”是指包括所列出项目中的任一个或多个的所有组合。

请参阅图1,图1是本发明提供的一种基于企业知识图谱的企业识别方法,如图1所示,所述方法包括:

S1、获取各个企业实体的舆情信息,并获取所述舆情信息中的中文关键词;

本发明实施例中,所述企业实体的舆情信息可以从企业的宏观环境分析、微观环境分析,和/或,企业舆情分析相关的文本数据中提取,所述中文关键词可以是对舆情信息进行分析得到的描述文本,该描述文本可以是汉字、也可以是词语。

本发明实施例中,互联网是舆论的汇集地,互联网信息来源十分广泛,包括了各地区、各领域甚至世界各国的信息。互联网信息特别是网络媒体信息,没有过多的周转环节和层层报批的手续,揭露问题也比较尖锐、比较及时,特别是在新兴的自媒体发布的信息,以每秒更新的速度逞现在我们面前,我们从中会发现许多有价值的舆情点。所述舆情信息可以是企业的相关舆情新闻,比如,相关舆情新闻可以是涉及到相关企业的负面新闻或者负面报道;舆情信息还可以是企业公开的财务报表中的提示内容或者被金融机构确定的风险项。

示例性的,所述关键词可以是从企业的宏观环境分析,和/或,微观环境分析,和/或,企业舆情分析得到的对企业进行描述的单个汉字或者词语;得到的关键词可以作为企业实体的节点属性对企业实体进行解释、说明,从而准确刻画企业画像。其中,宏观环境分析可以包括:行业分析、产业分析、供应链分析,等等;微观环境分析可以包括:预定时间段的财务分析、业务分析、客户分析,等等。

本发明实施例中,获取舆情信息中的关键词可以通过对舆情信息进行文本清洗,对舆情信息进行分词,去除停留词、助词等,进而确定舆情信息中的关键词,还可以通过统计清洗过后的数据中语义相近的词语的词频来确定舆情信息中的关键词,还可以人工标记或者通过大数据处理的方式确定舆情信息中的关键词。

S2、根据象形要素对所述关键词分别进行语义拆分,并根据语义拆分结果输出所述企业实体的词向量;

考虑到汉字象形文字的特点,本发明实施例根据象形要素对所述关键词进行语义拆分,并根据语义拆分结果输出企业实体的词向量;其中,象形要素可以是代表完整语义的汉字最小结构,在一种示例中,考虑到中文五笔字根均能代表完整语义,可以采用中文五笔字根作为象形要素。在另一示例中,考虑到繁体字的最小分割元素也均能代表完整语义,可以采用繁体字的最小分割元素作为象形要素。此外,还可以根据语义预先指定汉字结构作为象形要素,比如:将知作为一个象形要素,代表知识,等等。

本发明实施例中,可以根据象形要素直接对所述关键词进行语义拆分。考虑到繁体字相比于简体字能够包含更多的象形要素,具有更多的语义信息,优选先将关键词转换为繁体字,再将繁体字根据象形要素进行拆分映射处理,得到语义拆分结果,该语义拆分结果包含了关键词的多个不同语义,最后对语义拆分结果进行词向量提取,得到关键词多个不同语义对应的词向量。

在一种示例中,所述象形要素包括中文五笔字根,如图2a所示,所述将繁体字根据象形要素进行拆分映射处理包括:

S21、将繁体字通过中文五笔字根进行拆分映射,得到多个英文映射单元;

其中:每个英文映射单元对应一个象形要素,并代表一种语义单元;比如“男”通过中文五笔字根拆分映射,得到英文映射单元“l”“l”“b”,“勇”字通过中文五笔字根拆分映射得到英文映射单元“c”“e”“l”“b”。这样拆分映射后不论是语义、构词法还是组合后的输入顺序都有非常好的解释意义。

S22、将所述多个英文映射单元进行组合,得到多个代表所述关键词不同语义的组合特征。

本实施例中,每个英文映射单元代表一种语义单元,则对多个英文映射单元进行组合后,可以得到不同语义。

若拆分映射出N个英文映射单元,则本实施例中的组合指从N个英文映射单元中取出m个英文映射单元进行组合,其中:m小于等于N。优选的,在组合过程中,可以采用n-gram模型对该多个英文映射单元进行 n-gram处理,得到关键词的n-gram特征。比如:选择3-gram,关键词“男”将会处理得到3-gram特征为:^ll,llb,lb^(这里^代表占位符)。

在另一种示例中,所述象形要素包括繁体字的最小分割元素,如图2b 所示,所述将繁体字根据象形要素进行拆分映射处理包括:

S201、将繁体字根据象形要素进行拆分,将拆分结果进行映射,得到多个映射单元,

其中:每个映射单元对应一个象形要素,并代表一种语义单元;

本步骤中,将繁体字根据象形要素拆分后得到该繁体字包含的象形要素,所述映射将象形要素处理为字符,可以通过将繁体字包含的象形要素进行字符化处理来实现,用字符代表一种象形要素,最终将拆分结果映射为字符。其中,字符可以采用数字,则将象形要素进行数字化处理,用数字代表一种象形要素,字符也可以采用英文字符,则将象形要素进行字符化处理,用英文字符代表一种象形要素。

比如:雾的繁体字霧,根据象形要素可以拆分为雨、矛和务,雨进行数字化处理后对应数字2,矛经数字化处理后对应数字4,务经数字化处理后对应数字1,则霧会拆分映射得到映射单元“2”“4”“1”。

S202、将所述多个映射单元进行组合,得到多个代表所述关键词不同语义的组合特征。

本实施例中,每个映射单元代表一种语义单元,则对多个映射单元进行组合后,可以得到不同语义。

若拆分映射出N个映射单元,则本实施例中的组合指从N个映射单元中取出m个映射单元进行组合,其中:m小于等于N。优选的,在组合过程中,可以采用n-gram模型对该多个映射单元进行n-gram处理,得到关键词的n-gram特征。比如:选择3-gram,关键词“霧”将会处理得到 3-gram特征:241,124,412。

至此,得到多个代表所述关键词不同语义的组合特征作为语义拆分结果,本实施例中,可以对该语义拆分结果进行one-hot编码,得到企业实体的词向量。

S3、通过语义关联度解释模型对所述词向量进行识别,得到所述企业实体的舆情识别结果;

其中:所述语义关联度解释模型用于识别所述词向量对应的所述关键词与文本训练数据中各个词或汉字的语义关联度,并将语义关联度符合预设条件的词或汉字作为舆情识别结果对所述关键词进行语义层面的解释说明;示例性的,可以将one-hot编码得到的各个词向量输入语义关联度解释模型中进行识别,得到语义关联度符合预设条件的词或汉字的词向量作为目标词向量输出。进一步的,语义关联度解释模型还可以对识别出的目标词向量进行词嵌入(embedding)处理,直接输出embedding后的目标词向量,这样,embedding后的目标词向量可以直接作为企业知识图谱中的节点属性,方便后续对企业知识图谱的应用。

本发明实施例中,语义关联度符合预设条件的词或汉字可以通过确定关键词与文本训练数据中各个词或汉字的语义关联度,将语义关联度从大至小的顺序中排名在前预设名次的词或汉字作为符合预设条件的词或汉字;还可以通过设置预设关联度阈值,将语义关联度大于预设关联度阈值的词或汉字作为符合预设条件的词或汉字。

需要说明的是:在通过语义关联度解释模型对所述词向量进行识别之前,需要对语义关联度解释模型进行训练,使其能够从关键词的多个语义中区分出最能准确解释企业实体的词向量。该训练过程可以包括:

S11、从语料库中抽取训练文本;

其中:语料库可以是汉语拆字字典数据库、中文新闻数据库等语料库。其中:训练文本可以是语料库中完整的文章。本步骤中抽取的文章越多,语义关联度解释模型的效果越好。

S12、根据象形要素对各篇训练文本中的汉字分别进行语义拆分;

示例性的,对于某个训练文本中的单个汉字而言,本步骤可以先将该汉字转换成繁体字;再将繁体字根据象形要素进行拆分映射处理,得到语义拆分结果。

其中:所述象形要素可以是中文五笔字根,所述将繁体字根据象形要素进行拆分映射处理包括:

将繁体字通过中文五笔字根进行拆分映射,得到多个英文映射单元,每个英文映射单元对应一个象形要素,并代表一种语义单元;

将所述多个英文映射单元进行组合,得到多个代表所述关键词不同语义的组合特征。

所述象形要素也可以是繁体字的最小分割元素,所述将繁体字根据象形要素进行拆分映射处理包括:

将繁体字根据象形要素进行拆分;

将拆分结果进行映射;得到多个映射单元,每个映射单元对应一个象形要素,并代表一种语义单元;

将所述多个映射单元进行组合,得到多个代表所述关键词不同语义的组合特征。

S13、将每篇训练文本中的汉字的语义拆分结果进行one-hot编码后得到的词向量作为训练集对语义关联度解释模型进行训练,使得所述模型用于确认文章中不同关键词之间的相关性或关联度。

在本实施例中,文章中不同关键词之间的相关性或关联度,可以通过不同文章中各关键词的重复情况来得到关键词之间的关联度;比如,雾,这个字可以组成不同的词语或者单独使用,组成雾霾时,与雾霾相关的文章可能大部分都会描述与雾霾治理或防治相关的词语,而单独使用时,大部分都是在描述雾天气,不会出现治理相关的词语,此时,根据文章中的词语重复次数以及出现“雾”的文章分别所述的类别,进一步确定“雾”与其他“关键词”之间的相关性或关联度;同理,“霾”这个词出现时,相关的文章基本都是在描述雾霾治理,所以,这类词语对应的关键词相关性或关联度反而会更加准确。

优选的,在步骤S12中,得到语义拆分结果后,可以根据语义拆分结果构建词库,该词库包含每个象形要素对应的语义拆分结果,后续在步骤 S2中可以将关键词转换为繁体字,拆分繁体字中包含的目标象形要素后,直接从词库中查询目标象形要素对应的语义拆分结果即可。免去了映射、组合的过程。

S4、获取各个企业实体的经济信息,并根据所述经济信息确定所述企业实体之间的经济关系;

在本发明实施例中,经济关系可以是社会生产总过程中发生的生产、分配、交换和消费关系,考虑到企业实体的经营特点,本实施例中,所述经济关系包括:企业实体之间的交易信息、生产关系、销售关系、投资关系、融资关系、负债关系、担保关系、上下游关系中的至少一种。

在本发明实施例中,对于小微企业而言,可以根据其经营信息来确定小微企业之间的交易信息和上下游行业,还可以通过其公开的信息确定其负债关系、投资关系、股权穿透等关系,可以通过获取企业查询网站中公开的企业的股权关系和企业经营等信息来确定不同两个企业之间的关系,也可以通过企业公开的债务信息来确定企业负债情况以及债权人,还可以根据证券市场中公开的信息来确定公司持股信息、股权抵押等信息。

S5、根据各个企业实体的舆情识别结果和所述企业实体之间的经济关系构建企业知识图谱;

本发明实施例中,通过企业实体的舆情识别结果对企业进行精准刻画,同时,结合企业之间的经济关系挖掘出更为精准的企业及企业关系,构建更为准确的企业知识图谱,从而有效的确定企业的风险情况,保证数据安全和财产安全。

在一种示例中,根据各个企业实体的舆情识别结果和所述企业实体之间的经济关系构建企业知识图谱,包括:

S51、构建每个所述企业实体对应的节点,并将所述企业实体的舆情识别结果和企业实体之间的经济关系作为节点的属性信息;

本发明实施例中,针对每个企业实体构建相应的节点,将上述步骤中确定的舆情识别结果和企业实体之间的经济关系作为节点的属性信息,当然,节点的属性信息中还可以包括企业实体的名称、所属行业等相关信息,本方案对此不再赘述。

S52、根据所述企业实体之间的经济关系确定所述节点之间的连接边;

本发明实施例中,根据企业实体之间的经济关系确定两个企业实体之间是否存在关联,并以此来确定节点是否关联,若存在关联可以将两个企业实体对应的节点进行连接,提高知识图谱的分类准确度。

S53、基于所述连接边和所述节点构建所述企业知识图谱;

本发明实施例中,根据所生成的节点和确定的节点之间的连接边构建相应的企业知识图谱,方便系统或用户根据企业知识图谱快速确定不同企业实体之间的关系,提高数据处理效率。

进一步的,在一个具体的示例中,所述经济关系包括:企业实体之间的交易信息和经济关联关系;

其中:交易信息可以反映企业之间的交易往来,比如,A、B两个企业实体,A向B采购原材料,并向B支付相应货款m,对于企业实体A 所对应的节点中的交易信息为向B支出货款m,而对于企业实体B所对应的节点中的交易信息为收到A支付的货款m。

经济关联关系可以反映企业是否存在财务隐患和造假欺诈隐患,经济关联关系可以是实控人为亲属关系、持股关系、抵押贷款关系、投资关系、负债关系、担保关系、上下游关系等各种企业之间的关系。

步骤S51中将所述企业实体的舆情识别结果和企业实体之间的经济关系作为节点的属性信息,包括:

S511、通过所述经济关联关系对企业实体之间的交易信息进行调整,使得经济关联关系包括预设关系的企业实体之间的交易信息的数值降低;

S512、将所述企业企业实体的舆情识别结果和企业实体之间的交易信息作为节点的属性信息。

本发明实施例中,由于企业实体之间如果存在经济关联关系,那企业实体之间的交易可能就会存在一定的造假欺诈隐患,比如,两个公司之间存在股权交叉或者经济上的关系时,两家公司之间的交易信息可能会因为多种原因存在真实性存疑或者内部交易的问题,此时,将经济关联关系包括预设关系的企业实体之间的交易信息的数值调整降低,从而提高对于企业实体的营收能力的判断。其中:预设关系可以是经济关联关系中的至少两种关系,或者,经济关联关系中的指定几种关系。比如:将经济关联关系包含担保关系和投资关系的企业实体之间的交易信息的数值调整降低。

依此,不同企业实体之间的交易信息,对应在生成的节点中添加属性信息。在本方案中,在节点的属性信息中仅保留企业实体之间的交易信息,纯粹的从公司自身的营收能力出发,确定企业实体的经营状况,降低因为企业实体存在持股企业或者担保企业而错误的估计企业实体的经营能力,同时避免因为内部交易错误地高估企业的经营能力,提高对于企业实体的分级准确度。

S52中根据所述企业实体之间的经济关系确定所述节点之间的连接边,包括:根据所述企业实体之间的交易信息确定所述节点之间的连接边。示例性的,可以先根据企业实体之间的交易信息确定二者之间的交易关系,再根据二者之间的交易关系确定节点之间的连接边。比如:根据企业实体之间的交易信息确定两个企业实体之间是否存在交易关系,并以此来确定节点是否关联,若存在关联可以将两个企业实体对应的节点进行连接,反之,则两个企业实体对应的节点无连接。

本发明实施例中,在上述方案的基础上,对企业知识图谱的连接关系进行优化,使得企业实体之间存在交易关系的节点连接,减少因为其他经济关系而连接导致的误判,同时,降低企业知识图谱的信息量,提高企业知识图谱的应用效率。

本发明实施例中,每个公司的成立其实都是为了实现营收并良好的运转,不同公司之间的经济关联关系并不会提高公司自身的产品的质量或者服务的好坏,反而容易出现内部交易或者内部扶持的情况,本方案根据企业实体的交易信息和经济关联关系来调整企业实体的属性信息,从企业实体本身的营收能力来确定企业实体的实际情况,确定企业实体在实际运营过程中的竞争力,特别是对于小微企业来说,确定小微企业的竞争力才是对小微企业提供扶持的核心标准。

为了能更准确的反映企业之间错综复杂的经济关系,所述经济关联关系包括:投资关系、负债关系、担保关系、上下游关系中的至少一种;调整后的所述企业实体之间的交易信息的数值y

其中:x

本发明实施例中,若两个公司之间是上下游关系,且两个公司存在投资关系,可能会在不考虑公司的产品质量的情况下直接进行采购,这样做不仅不会提高公司的产品的竞争力,反而会使得产品因为无需进行更新而被淘汰,为避免因为一些内部交易导致的对于企业实体的误判,本方案中对经济关联关系符合公式中的情况的交易信息的数值进行调整,以提高对于企业实体的情况的判断准确度。

这样,企业实体间的关联关系不再是独立或者线性关系,对于存在交叉关系的企业(比如:既存在投资关系又存在担保关系的企业)之间,对其交易关系进行调整,削弱存在特定关系的企业之间通过关联交易提升数据量的可能性,从而提高企业实体关系之间的准确性。

示例性的,在构建企业知识图谱过程中,可以基于M个企业实体,及所述M个实体之间的N个交易信息,构建企业知识图谱。比如:对M 个企业实体以及N个交易信息进行知识融合,利用知识融合后的数据构建企业知识图谱。其中:所述企业知识图谱包括M个节点、M个节点属性及具有交易信息的节点之间的有向边;所述M个节点与所述M个企业实体一一对应,每个企业实体的舆情识别结果可以作为对应节点的属性信息。

S6、根据所述企业知识图谱对所述企业实体进行分级,确定各个所述企业实体的级别。

在本方案中,可以通过企业知识图谱中各节点连接的节点数量、实际经营情况,来对企业实体进行分级,确定具备核心竞争力的企业或者具备发展潜力的企业,同时,也可以筛选出竞争力不足企业,甚至可以确定出单纯的套取资金的小微企业,通过本方案既方便于确定对不同的小微企业提供扶持的力度,也有效的避免了帮扶导致的经济损失。

示例性的,在构建后的企业知识图谱上,可以查询到各个节点的属性信息、以及各个节点之间的边,利用企业知识图谱,可以查询出目标企业关联的其他企业实体,通过图谱中的连接关系,可以直接根据企业知识图谱中的舆情识别结果、企业实体之间的交易信息和关联企业情况来对企业实体进行分级,或者,还可以通过企业知识图谱中的数据训练出对企业实体进行分级的分级模型,通过该分级模型来确定企业实体的级别。

图3是本发明一种基于企业知识图谱的企业识别装置,如图3所示,所述装置包括:

第一获取模块31,用于获取各个企业实体的舆情信息,并获取所述舆情信息中的中文关键词;

词向量处理模块32,用于根据象形要素对所述关键词分别进行语义拆分,并根据语义拆分结果输出所述企业实体的词向量;

识别模块33,用于通过语义关联度解释模型对所述词向量进行识别,得到所述企业实体的舆情识别结果,所述语义关联度解释模型用于识别所述词向量对应的所述关键词与文本训练数据中各个词或汉字的语义关联度,并将语义关联度符合预设条件的词或汉字作为舆情识别结果对所述关键词进行语义层面的解释说明;

第二获取模块34,用于获取各个企业实体的经济信息,并根据所述经济信息确定所述企业实体之间的经济关系;

构建模块35,用于根据各个企业实体的舆情识别结果和所述企业实体之间的经济关系构建企业知识图谱;

确定模块36,用于根据所述企业知识图谱对所述企业实体进行分级,确定各个所述企业实体的级别。

在一种实施方式中,所述词向量处理模块32包括:

转换模块,用于将关键词转换成繁体字;

拆分映射模块,用于将繁体字根据象形要素进行拆分映射处理,得到语义拆分结果。

可选的,所述象形要素包括中文五笔字根,所述拆分映射模块包括:

第一拆分映射模块,用于将繁体字通过中文五笔字根进行拆分映射,得到多个英文映射单元,每个英文映射单元对应一个象形要素,并代表一种语义单元;

第一组合模块,用于将所述多个英文映射单元进行组合,得到多个代表所述关键词不同语义的组合特征。

可选的,所述象形要素包括繁体字的最小分割元素,所述拆分映射模块包括:

拆分模块,用于将繁体字根据象形要素进行拆分;

映射模块,用于将拆分结果进行映射;得到多个映射单元,每个映射单元对应一个象形要素,并代表一种语义单元;

第二组合模块,用于将所述多个映射单元进行组合,得到多个代表所述关键词不同语义的组合特征。

进一步的,所述词向量处理模块32还包括:

编码模块,用于对语义拆分结果进行one-hot编码,得到企业实体的词向量。

优选的,所述构建模块35,具体用于构建每个所述企业实体对应的节点,并将所述企业实体的舆情识别结果和企业实体之间的经济关系作为节点的属性信息;根据所述企业实体之间的经济关系确定所述节点之间的连接边;基于所述连接边和所述节点构建所述企业知识图谱。

所述经济关系包括:企业实体之间的交易信息和经济关联关系;

优选的,所述构建模块35,具体用于通过所述经济关联关系对企业实体之间的交易信息进行调整,使得经济关联关系包括预设关系的企业实体之间的交易信息的数值降低;将所述企业企业实体的舆情识别结果和企业实体之间的交易信息作为节点的属性信息;

优选的,所述构建模块35,还具体用于根据所述企业实体之间的交易信息确定所述节点之间的连接边。

所述经济关联关系包括:投资关系、负债关系、担保关系、上下游关系中的至少一种;

所述构建模块35通过如下公式确定调整后的所述企业实体之间的交易信息的数值y

其中:x

本领域技术人员可以理解,上述装置实施例中的各模块可以按照描述分布于装置中,也可以进行相应变化,分布于不同于上述实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。

下面描述本发明的电子设备实施例,该电子设备可以视为对于上述本发明的方法和装置实施例的实体形式的实施方式。对于本发明电子设备实施例中描述的细节,应视为对于上述方法或装置实施例的补充;对于在本发明电子设备实施例中未披露的细节,可以参照上述方法或装置实施例来实现。

图4是根据本发明的一种电子设备的示例性实施例的结构框图。图4 显示的电子设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。

如图4所示,该示例性实施例的电子设备400以通用数据处理设备的形式表现。电子设备400的组件可以包括但不限于:至少一个处理单元 410、至少一个存储单元420、连接不同电子设备组件(包括存储单元420 和处理单元410)的总线430、显示单元440等。

其中,所述存储单元420存储有计算机可读程序,其可以是源程序或都只读程序的代码。所述程序可以被处理单元410执行,使得所述处理单元410执行本发明各种实施方式的步骤。例如,所述处理单元410可以执行如图1所示的步骤。

所述存储单元420可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)4201和/或高速缓存存储单元4202,还可以进一步包括只读存储单元(ROM)4203。所述存储单元420还可以包括具有一组(至少一个)程序模块4205的程序/实用工具4204,这样的程序模块4205 包括但不限于:操作电子设备、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线430可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备400也可以与一个或多个外部设备100(例如键盘、显示器、网络设备、蓝牙设备等)通信,使得用户能经由这些外部设备100与该电子设备400交互,和/或使得该电子设备400能与一个或多个其它数据处理设备(例如路由器、调制解调器等等)进行通信。这种通信可以通过输入 /输出(I/O)接口450进行,还可以通过网络适配器460与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)进行。网络适配器460可以通过总线430与电子设备400的其它模块通信。应当明白,尽管图4中未示出,电子设备400中可使用其它硬件和 /或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID电子设备、磁带驱动器以及数据备份存储电子设备等。

图5是本发明的一个计算机可读介质实施例的示意图。如图5所示,所述计算机程序可以存储于一个或多个计算机可读介质上。计算机可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的电子设备、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。当所述计算机程序被一个或多个数据处理设备执行时,使得该计算机可读介质能够实现本发明的上述方法,即:获取各个企业实体的舆情信息,并获取所述舆情信息中的中文关键词;根据象形要素对所述关键词分别进行语义拆分,并根据语义拆分结果输出所述企业实体的词向量;通过语义关联度解释模型对所述词向量进行识别,得到所述企业实体的舆情识别结果,所述语义关联度解释模型用于识别所述词向量对应的所述关键词与文本训练数据中各个词或汉字的语义关联度,并将语义关联度符合预设条件的词或汉字作为舆情识别结果对所述关键词进行语义层面的解释说明;根据各个企业实体的舆情识别结果和所述企业实体之间的经济关系构建企业知识图谱;根据所述企业知识图谱对所述企业实体进行分级,确定各个所述企业实体的级别。

通过以上的实施方式的描述,本领域的技术人员易于理解,本发明描述的示例性实施例可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本发明实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个计算机可读的存储介质(可以是 CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台数据处理设备(可以是个人计算机、服务器、或者网络设备等)执行根据本发明的上述方法。

所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行电子设备、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。

可以以一种或多种程序设计语音的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语音包括面向对象的程序设计语音—诸如 Java、C++等,还包括常规的过程式程序设计语音—诸如“C”语音或类似的程序设计语音。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

综上所述,本发明可以执行计算机程序的方法、装置、电子设备或计算机可读介质来实现。可以在实践中使用微处理器或者数字信号处理器 (DSP)等通用数据处理设备来实现本发明的一些或者全部功能。

以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,本发明不与任何特定计算机、虚拟装置或者电子设备固有相关,各种通用装置也可以实现本发明。以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号