首页> 中国专利> 一种基于产业知识图谱的产业大脑数据分析系统

一种基于产业知识图谱的产业大脑数据分析系统

摘要

本发明公开一种基于产业知识图谱的产业大脑数据分析系统。包括显示单元及通过web服务器相互交互连通的产业图谱单元、产业报告单元、产业链报告单元、企业标签建模单元、产业标签建模单元以及数据采集存储单元;通过本发明建立了一套智能的、基于大数据的、高度抽象的自动化产业图谱生成和分析系统,可用于各个产业的产业链分析,自动生成产业图谱、产业分布平面图、产业分布热力图、节点龙头企业等专业产业图表。本发明结构化数据体系,包含产业节点标签、产业画像、企业标签和企业画像,并在数据的广度与深度上都形成了足够厚的竞争壁垒。

著录项

  • 公开/公告号CN113032496A

    专利类型发明专利

  • 公开/公告日2021-06-25

    原文格式PDF

  • 申请/专利权人 北京华数云网科技有限公司;

    申请/专利号CN202110417976.9

  • 申请日2021-04-19

  • 分类号G06F16/28(20190101);G06F16/26(20190101);G06F16/25(20190101);G06F16/215(20190101);

  • 代理机构52105 贵州科峰专利商标事务所(普通合伙);

  • 代理人穆元城

  • 地址 100193 北京市海淀区东北旺西路8号9号楼2区3层316-1号

  • 入库时间 2023-06-19 11:35:49

说明书

技术领域

本发明公开一种基于产业知识图谱的产业大脑数据分析系统。

背景技术

产业图谱主要是对各个产业及各细分市场规模及发展现状、趋势等数据进行研究分析和探索,每一个领域范畴内有一个产业图谱,用图谱清楚的准确的反映出一个行业每一个领域的数据。可让企业对这一产业信息得到了解。

现有产业图谱分析系统都是基于人工的方法进行每个产业的上、中、下游的产业链分析,手工绘制产业图谱,然后通过手工查询企业数据、行业报告、产业报告等信息来提供产业链各节点的企业数据、科研数据和人才数据。因为主要是基于人工的处理,存在数据采集量大、分析结果不全面、容易出错等缺点。

发明内容

本发明要解决的技术问题是提供一种智能的、基于大数据的、高度抽象的自动化产业图谱生成的基于产业知识图谱的产业大脑数据分析系统。

为了解决上述技术问题,本发明的技术方案为:一种基于产业知识图谱的产业大脑数据分析系统,包括显示单元及通过web服务器相互交互连通的产业图谱单元、产业报告单元、产业链报告单元、企业标签建模单元、产业标签建模单元以及数据采集存储单元;

所述显示单元用于显示生成的产业链报告和图谱,通过web服务器基于 HTTP和REST协议对外访问;

所述产业图谱单元是通过产业标签建模单元,生成产业图谱完整结构;

所述产业报告单元用于产业数据的生成和融合;

所述产业链报告单元是通过产业标签建模单元和企业标签建模单元,生成完整的产业链分析报告;

所述企业标签建模单元是用于建立企业的元数据并标记,然后进行标签的抽取、查询以及管理,供系统进行处理整合;

所述产业标签建模单元是用于建立产业元数据并标记,然后进行标签的抽取、查询以及管理,供系统进行处理整合;

所述数据采集存储单元是通过第三方合作平台的API接口接入获取原始数据,包括原始的产业数据、企业数据、行业数据,然后经过清洗、转换和集成将数据加载到数据仓库中进行存储,供给产业图谱单元、产业报告单元、产业链报告单元、企业标签建模单元、产业标签建模单元进行数据的调配。

所述产业图谱单元包括图谱计算模块及产业标签融合模块;

所述图谱计算模块是基于产业图谱的标签数据计算图谱的树形结构,用于前端的页面展示;同时也提供了基于地理信息的图谱分布平面图和热力图的经纬度数据接口,用于前端页面的地图展示;

所述产业标签融合模块用于基于产业元数据提取产业标签的结构,分级计算各节点的标签数据和节点企业情况。

所述产业报告单元包括产业报告生成模块及产业数据融合模块;

所述产业报告生成模块是基于产业图谱和产业链分析,生成完整的产业报告,包括产业分析、产业前景预期、产业龙头企业等关键信息,支持以PDF格式的文件导出;

所述产业数据融合模块是基于产业标签,企业标签和产业链数据,聚合出产业报告所需要的数据。

所述产业链报告单元包括产业链报告模块和产业节点计算模块;

所述产业链报告模块是基于产业节点数据和对应的企业数据,分析产业链各节点的优势、薄弱、缺失和机会,对于每个产业的发展提供了智能分析报告;

所述产业节点计算模块是通过分析计算产业节点的企业情况,给出各节点龙头企业、高成长企业和创新型企业的分析。

所述企业标签建模单元包括企业元数据模块、标签抽取模块二、标签查询模块二及标签管理模块二;

所述企业元数据模块是客观描述企业的相关数值、状态等属性,分为统计类元数据、规则类元数据、机器学习类元数据;

所述标签抽取模块二是基于自然语言处理、TF-IDF算法和深度学习模型,通过对产业数据的分析,进行标签数据的抽取;

所述标签查询模块二是用于支持按标签名精准查询、模糊查询、同义词查询等多维度查询操作,可以组合多个标签,添加时间、地区等维度信息的查询;

所述标签管理模块二是用于提供标签的增删改查的管理功能,可以动态定义新的标签,设置标签树的父子关系;对于规则类标签,可以定义规则逻辑。

所述产业标签建模单元包括产业元数据模块、标签抽取模块一、标签查询模块一及标签管理模块一;

所述产业元数据模块是用于客观描述产业的相关数值、状态等属性,分为统计类元数据、规则类元数据、机器学习类元数据,统计类元数据是最基础也是最常见的元数据,此类元数据构成了产业画像的基础;

所述标签抽取模块一是基于自然语言处理、TF-IDF算法和深度学习模型,通过对产业数据的分析,进行标签数据的抽取;

所述标签查询模块一是用于支持按标签名精准查询、模糊查询、同义词查询等多维度查询操作,可以组合多个标签,添加时间、地区等维度信息的查询;

所述标签管理模块一是用于提供标签的增删改查的管理功能,可以动态定义新的标签,设置标签树的父子关系;对于规则类标签,可以定义规则逻辑。

所述数据采集存储单元包括数据接入模块、数据清洗模块、数据计算模块及数据存储模块;

所述数据接入模块是通过不同的第三方合作平台的不同API接口获得,不同平台返回的数据结构不同,需要进行数据整合,调整为统一的数据格式,然后通过本发明系统进行数据聚合;

所述数据清洗模块是用于将接入的脏数据进行处理,处理后输出符合系统标准数据格式的数据集;

所述数据计算模块是用于对某些数据字段进行计算和抽取;

所述是基于Elasticsearch的开源分布式数据存储引擎,大幅降低了PB级海量数据存储、检索、分析门槛

与现有技术相比,本发明的有益效果为:

通过本发明建立了一套智能的、基于大数据的、高度抽象的自动化产业图谱生成和分析系统,可用于各个产业的产业链分析,自动生成产业图谱、产业分布平面图、产业分布热力图、节点龙头企业等专业产业图表;本发明结构化数据体系,包含产业节点标签、产业画像、企业标签和企业画像,并在数据的广度与深度上都形成了足够厚的竞争壁垒。运用先进人工智能引擎,以自然语言识别技术进行数据结构化归类,形成丰富的知识图谱,在此基础上以精细化人工运营进行二次深度加工,确保了数据的真实、准确性。

附图说明

图1为本发明的系统结构框图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步说明。在此需要说明的是,对于这些实施方式的说明用于帮助理解本发明,但并不构成对本发明的限定。此外,下面所描述的本发明各个实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互组合。

参照图1,本发明的一种基于产业知识图谱的产业大脑数据分析系统,包括显示单元及通过web服务器相互交互连通的产业图谱单元、产业报告单元、产业链报告单元、企业标签建模单元、产业标签建模单元以及数据采集存储单元;显示单元用于显示生成的产业链报告和图谱,通过web服务器基于HTTP和 REST协议对外访问;产业图谱单元是通过产业标签建模单元,生成产业图谱完整结构;产业报告单元用于产业数据的生成和融合;产业链报告单元是通过产业标签建模单元和企业标签建模单元,生成完整的产业链分析报告;企业标签建模单元是用于建立企业的元数据并标记,然后进行标签的抽取、查询以及管理,供系统进行处理整合;产业标签建模单元是用于建立产业元数据并标记,然后进行标签的抽取、查询以及管理,供系统进行处理整合;

数据采集存储单元是通过第三方合作平台的API接口接入获取原始数据,包括原始的产业数据、企业数据、行业数据,然后经过清洗、转换和集成将数据加载到数据仓库中进行存储,供给产业图谱单元、产业报告单元、产业链报告单元、企业标签建模单元、产业标签建模单元进行数据的调配。

产业图谱单元包括图谱计算模块及产业标签融合模块;

图谱计算模块是基于产业图谱的标签数据计算图谱的树形结构,用于前端的页面展示;同时也提供了基于地理信息的图谱分布平面图和热力图的经纬度数据接口,用于前端页面的地图展示;

产业标签融合模块用于基于产业元数据提取产业标签的结构,分级计算各节点的标签数据和节点企业情况。

产业报告单元包括产业报告生成模块及产业数据融合模块;

产业报告生成模块是基于产业图谱和产业链分析,生成完整的产业报告,包括产业分析、产业前景预期、产业龙头企业等关键信息,支持以PDF格式的文件导出;

产业数据融合模块是基于产业标签,企业标签和产业链数据,聚合出产业报告所需要的数据。

产业链报告单元包括产业链报告模块和产业节点计算模块;

产业链报告模块是基于产业节点数据和对应的企业数据,分析产业链各节点的优势、薄弱、缺失和机会,对于每个产业的发展提供了智能分析报告;

产业节点计算模块是通过分析计算产业节点的企业情况,给出各节点龙头企业、高成长企业和创新型企业的分析。

企业标签建模单元包括企业元数据模块、标签抽取模块二、标签查询模块二及标签管理模块二;

企业元数据模块是客观描述企业的相关数值、状态等属性,分为统计类元数据、规则类元数据、机器学习类元数据;

标签抽取模块二是基于自然语言处理、TF-IDF算法和深度学习模型,通过对产业数据的分析,进行标签数据的抽取;

标签查询模块二是用于支持按标签名精准查询、模糊查询、同义词查询等多维度查询操作,可以组合多个标签,添加时间、地区等维度信息的查询;

标签管理模块二是用于提供标签的增删改查的管理功能,可以动态定义新的标签,设置标签树的父子关系;对于规则类标签,可以定义规则逻辑。

产业标签建模单元包括产业元数据模块、标签抽取模块一、标签查询模块一及标签管理模块一;

产业元数据模块是用于客观描述产业的相关数值、状态等属性,分为统计类元数据、规则类元数据、机器学习类元数据,统计类元数据是最基础也是最常见的元数据,此类元数据构成了产业画像的基础;

标签抽取模块一是基于自然语言处理、TF-IDF算法和深度学习模型,通过对产业数据的分析,进行标签数据的抽取;

标签查询模块一是用于支持按标签名精准查询、模糊查询、同义词查询等多维度查询操作,可以组合多个标签,添加时间、地区等维度信息的查询;

标签管理模块一是用于提供标签的增删改查的管理功能,可以动态定义新的标签,设置标签树的父子关系;对于规则类标签,可以定义规则逻辑。

数据采集存储单元包括数据接入模块、数据清洗模块、数据计算模块及数据存储模块;

数据接入模块是通过不同的第三方合作平台的不同API接口获得,不同平台返回的数据结构不同,需要进行数据整合,调整为统一的数据格式,然后通过本发明系统进行数据聚合;

数据清洗模块是用于将接入的脏数据进行处理,处理后输出符合系统标准数据格式的数据集;原始数据可能包含一些脏数据,比如缺少某些字段的数据、含有非法字符的数据、重复的数据等,需要铜鼓数据清洗功能对于这些脏数据进行处理,处理后输出符合系统标准数据格式的数据集。

数据计算模块是用于对某些数据字段进行计算和抽取;某些数据字段是需要通过本系统进行计算和抽取的,比如企业的地理信息,需要根据企业的地址信息来计算企业的经纬度,用于产业分布。此类计算工作在数据计算模块进行,所有计算功能以链式方式管理,支持动态添加计算单元,调整执行计算单元的顺序。

数据存储模块是基于Elasticsearch的开源分布式数据存储引擎,大幅降低了 PB级海量数据存储、检索、分析门槛;支持分布式实时文件存储、检索、分析,零配置、集群自动发现,索引自动分片、副本机制,多数据源和自动搜索负载。

在本发明中,web服务器是通过Vue.js前端框架和Jetty Web服务器提供前端页面的展示功能,Vue.js框架支持动态页面展示图谱树形结构,地图嵌入和列表展示。JettyWeb服务器提供了基于HTTP和REST协议的对外访问。

本发明建立了一套智能的、基于大数据的、高度抽象的自动化产业图谱生成和分析系统,可用于各个产业的产业链分析,自动生成产业图谱、产业分布平面图、产业分布热力图、节点龙头企业等专业产业图表;本发明结构化数据体系,包含产业节点标签、产业画像、企业标签和企业画像,并在数据的广度与深度上都形成了足够厚的竞争壁垒。运用先进人工智能引擎,以自然语言识别技术进行数据结构化归类,形成丰富的知识图谱,在此基础上以精细化人工运营进行二次深度加工,确保了数据的真实、准确性。

以上结合附图对本发明的实施方式作了详细说明,但本发明不限于所描述的实施方式。对于本领域的技术人员而言,在不脱离本发明原理和精神的情况下,对这些实施方式进行多种变化、修改、替换和变型,仍落入本发明的保护范围内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号