首页> 中国专利> 数据信息融合系统及目标决策的生成方法

数据信息融合系统及目标决策的生成方法

摘要

本申请公开了一种数据信息融合系统及目标决策的生成方法。其中,该系统包括:数据云层模块、软件即服务模块、应用层模块以及价值层模块,其中,数据云层模块,用于获取并存储数据;软件即服务模块,用于从数据云层模块接收数据,以及提供支撑应用层模块正常运行所需的算法;应用层模块,用于从软件即服务模块获取数据和算法,并依据算法对数据进行处理,得到处理结果;价值层模块,用于依据处理结果生成目标决策。本申请解决了由于公司管理者在制定相关决策时无法及时了解最新资讯以调整各项工作安排造成的制定的相关决策滞后的技术问题。

著录项

说明书

技术领域

本申请涉及信息处理领域,具体而言,涉及一种数据信息融合系统及目标决策的生成方法。

背景技术

目前,公司管理者在制定相关决策时无法及时了解最新资讯以调整各项工作安排,导致制定的相关决策滞后,影响公司的发展。

针对上述的问题,目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种数据信息融合系统及目标决策的生成方法,以至少解决由于公司管理者在制定相关决策时无法及时了解最新资讯以调整各项工作安排造成的制定的相关决策滞后的技术问题。

根据本申请实施例的一个方面,提供了一种数据信息融合系统,包括:数据云层模块、软件即服务模块、应用层模块以及价值层模块,其中,数据云层模块,用于获取并存储数据;软件即服务模块,用于从数据云层模块接收数据,以及提供支撑应用层模块正常运行所需的算法;应用层模块,用于从软件即服务模块获取数据和算法,并依据算法对数据进行处理,得到处理结果;价值层模块,用于依据处理结果生成目标决策。

可选地,数据云层模块包括:外部数据云模块,用于利用爬虫技术从多个网站上爬取数据;内部数据云模块,用于利用爬虫技术从执行目标决策的公司内部的信息资源中获取数据。

可选地,爬虫技术包括如下至少之一算法:Backlink,PageRank及Forwardlink。

可选地,数据云层模块利用爬虫技术通过以下方法获取数据:确定爬虫爬取不同网页页面所需的时间;依据时间设置爬虫的爬虫任务队列。

可选地,数据云层模块利用爬虫技术通过以下方法获取数据:依据正则表达式对网页页面的内容进行解析,判断网页页面的内容中是否存在js动态内容;如果网页页面的内容中存在js动态内容,对网页页面的内容进行爬取。

可选地,应用层模块还用于依据预设关键词和检索起止时间将数据生成处理结果。

根据本申请实施例的另一方面,还提供了一种目标决策的生成方法,该方法应用于以上的数据信息融合系统,包括以下步骤:利用爬虫技术从多个网站上爬取第一数据,以及利用爬虫技术从执行目标决策的公司内部的信息资源中获取第二数据;对第一数据和第二数据进行处理,得到处理结果;依据处理结果生成目标决策。

可选地,利用爬虫技术从多个网站上爬取第一数据,以及利用爬虫技术从执行目标决策的公司内部的信息资源中获取第二数据,包括:确定爬虫爬取不同网页页面所需的时间;依据时间设置爬虫的爬虫任务队列。

可选地,利用爬虫技术从多个网站上爬取第一数据,以及利用爬虫技术从执行目标决策的公司内部的信息资源中获取第二数据,还包括:依据正则表达式对网页页面的内容进行解析,判断网页页面的内容中是否存在js动态内容;如果网页页面的内容中存在js动态内容,对网页页面的内容进行爬取。

可选地,对第一数据和第二数据进行处理,得到处理结果,还包括:依据预设关键词和检索起止时间将数据生成处理结果。

在本申请实施例中,提供了一种数据信息融合系统,包括:数据云层模块、软件即服务模块、应用层模块以及价值层模块,其中,数据云层模块,用于获取并存储数据;软件即服务模块,用于从数据云层模块接收数据,以及提供支撑应用层模块正常运行所需的算法;应用层模块,用于从软件即服务模块获取数据和算法,并依据算法对数据进行处理,得到处理结果;价值层模块,用于依据处理结果生成目标决策,通过融合公司内外部海量政策新闻数据,构建了智能化内外部环境动态监测分析体系,从而实现了为公司领导决策提供精准参考的技术效果,进而解决了由于公司管理者在制定相关决策时无法及时了解最新资讯以调整各项工作安排造成的制定的相关决策滞后技术问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:

图1是根据本申请实施例的一种数据信息融合系统的结构框图;

图2是根据本申请实施例的一种数据信息融合系统的应用爬虫的工作流程示意图;

图3是根据本申请实施例的一种目标决策的生成方法的流程图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。

需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本申请实施例,提供了一种数据信息融合系统的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本申请实施例的一种数据信息融合系统的结构框图,如图1所示,该系统包括:

数据云层模块10、软件即服务模块12、应用层模块14以及价值层模块16,其中,

数据云层模块10,用于获取并存储数据;

根据本申请的一个可选的实施例,数据云层模块10包括:外部数据云模块,用于利用爬虫技术从多个网站上爬取数据;内部数据云模块,用于利用爬虫技术从执行目标决策的公司内部的信息资源中获取数据。

数据云层作为最底层数据层,承担大数据辅助决策体系所需所有原始数据的集成与存储功能,分为内外部数据云。以电网公司为例,数据云层从国内外重要的门户网站、媒体、社交网络、专业网站及国内主要论坛、博客、微博等公开信息来源,数据库、网站、期刊、图书、会议资料、研究报告等外购信息资源,以及有关单位部门或个人交流获取的信息资源,用以全面支持公司在电力供需、电力购销、优质服务、线损管理、电力市场、增量配电、区块链技术在电网优化运行等方面的工作,为公司领导及时了解最新资讯、调整各项工作安排提供有力的政策支撑。

软件即服务模块12,用于从数据云层模块10接收数据,以及提供支撑应用层模块14正常运行所需的算法;

软件即服务(Software as a Service,SaaS)接收、存储数据和所需算法,支撑应用层运行。

应用层模块14,用于从软件即服务模块12获取数据和算法,并依据算法对数据进行处理,得到处理结果;

应用层从SaaS层获取数据和算法,输出成果既导向价值层又以数据形式反馈会SaaS层。

价值层模块16,用于依据处理结果生成目标决策。价值层用于支撑各部门各单位决策。

上述系统围绕外部数据信息融合、内部监测体系共享的辅助决策管理应用需求,构建服务于公司各层级的辅助决策四层架构,筑基呼吸式生态圈。其运行机制体现了互融互通、快速高效、数据共享及实用转化四个特点。

通过上述系统,通过融合公司内外部海量政策新闻数据,构建了智能化内外部环境动态监测分析体系,从而实现了为公司领导决策提供精准参考的技术效果。

根据本申请的一个可选的实施例,爬虫技术包括如下至少之一算法:Backlink,PageRank及Forwardlink。

根据本申请的另一个可选的实施例,数据云层模块利用爬虫技术通过以下方法获取数据:确定爬虫爬取不同网页页面所需的时间;依据时间设置爬虫的爬虫任务队列。

外部数据和内部数据获取,主要应用了爬虫技术。并且采用Erlang排队模型,预先计算了爬取不同页面的周期以及其时间消耗,提前模拟爬虫运行,设置合理的爬虫任务队列。

在本申请的一个可选的实施例中,数据云层模块利用爬虫技术通过以下方法获取数据:依据正则表达式对网页页面的内容进行解析,判断网页页面的内容中是否存在js动态内容;如果网页页面的内容中存在js动态内容,对网页页面的内容进行爬取。

在爬虫调度方面,通过一个爬虫任务调度后台控制爬虫任务的分配,爬虫任务之间可以并发,并采用基于最后修改时间的缓存机制,避免重爬带来的流量损失以及爬虫被封风险。

为了应对网站对爬虫的查封,采用了IP池技术来避免单IP爬取的过于频繁。在对网页内容的解析中,先采取直接的正则文本解析,然后检测网页是否有js动态内容,如果有则采用selenium动态模拟正常用户访问来爬取数据。

最后,爬取到的数据最后都被清洗存储到Es服务器中,可以方便进行分词以及情感分析等任务。

在本申请的一些可选的实施例中,应用层模块还用于依据预设关键词和检索起止时间将数据生成处理结果。

图2是根据本申请实施例的一种数据信息融合系统的应用爬虫的工作流程示意图,如图2所示,包括以下步骤:

步骤S1,从门户网站、社交网络等公开信息来源获取数据,在本步骤中主要通过Backlink,PageRank及Forwardlink等算法实现。

步骤S2,设置爬虫队列任务并发,通过一个爬虫任务调度后台控制爬虫任务的分配,爬虫任务之间可以并发,并采用基于最后修改时间的缓存机制,避免重爬带来的流量损失以及爬虫被封风险。

步骤S3,任务调度,为了应对网站对爬虫的查封,采用了IP池技术来避免单IP爬取的过于频繁。在对网页内容的解析中,先采取直接的正则文本解析,然后检测网页是否有js动态内容,如果有则采用selenium动态模拟正常用户访问来爬取数据。

S4,将数据存储至ES服务器,爬取到的数据最后都被清洗存储到Es服务器中,可以方便进行分词以及情感分析等任务。

S5,关键词、检索起止时间,依据预设关键词和检索起止时间将数据生成处理结果,构建了智能化“周监测、月解读、季专题、年分析”全周期内外部环境动态监测分析体系。

S6,输出新闻文档及数据信息到指定文件路径。

S7,输出分析报告。

S8,辅助决策。

本发明安全融合了内外部海量政策新闻数据,构建了智能化“周监测、月解读、季专题、年分析”全周期内外部环境动态监测分析体系,为公司领导决策提供精准参考。此外,本发明通过实时监测客户对公司服务的差异化需求,为公司做到“优服务、降投诉、树形象”的精细化管理及优质服务质量再提升提供了可靠支撑。

本申请提供的数据信息融合系统具备以下特点:

(1)设计原则遵循先进开放性原则、交互性原则、安全可靠性原则、扩展前瞻性原则、灵活可定制原则、以服务为导向等原则;

(2)能够有效的提高搜索结果的准确性和可靠性,保证搜索引擎可高效率、高准确度、高覆盖率的响应用户,支撑公司精准辅助决策的需求;

(3)可筛选识别重要民生相关意见建议,依据问题的重要性、紧急性等安排处理顺序,及时上报相关业务部门,提高了需求响应的精度和效率,进而提高客户的满意度;

(4)建立了以项目为依托、以产品为载体的“周监测、月解读、季专题、年分析”的全周期动态监测分析体系,全面承接国网具有中国特色国际领先的能源互联网企业建设战略,推动公司高质量发展和数字化转型升级。

图3是根据本申请实施例的一种目标决策的生成方法的流程图,该方法应用于以上的数据信息融合系统,如图3所示,该方法包括以下步骤:

步骤S302,利用爬虫技术从多个网站上爬取第一数据,以及利用爬虫技术从执行目标决策的公司内部的信息资源中获取第二数据;

步骤S304,对第一数据和第二数据进行处理,得到处理结果;

步骤S306,依据处理结果生成目标决策。

根据本申请的一个可选的实施例,步骤S302通过以下方法实现:确定爬虫爬取不同网页页面所需的时间;依据时间设置爬虫的爬虫任务队列。

外部数据和内部数据获取,主要应用了爬虫技术。并且采用Erlang排队模型,预先计算了爬取不同页面的周期以及其时间消耗,提前模拟爬虫运行,设置合理的爬虫任务队列。

根据本申请的另一个可选的实施,步骤S302还可以通过以下方法实现:依据正则表达式对网页页面的内容进行解析,判断网页页面的内容中是否存在js动态内容;如果网页页面的内容中存在js动态内容,对网页页面的内容进行爬取。

在爬虫调度方面,通过一个爬虫任务调度后台控制爬虫任务的分配,爬虫任务之间可以并发,并采用基于最后修改时间的缓存机制,避免重爬带来的流量损失以及爬虫被封风险。

为了应对网站对爬虫的查封,采用了IP池技术来避免单IP爬取的过于频繁。在对网页内容的解析中,先采取直接的正则文本解析,然后检测网页是否有js动态内容,如果有则采用selenium动态模拟正常用户访问来爬取数据。

在本申请的一些可选的实施例中,步骤S304通过以下方法实现:依据预设关键词和检索起止时间将数据生成处理结果。

在本步骤中,依据预设关键词和检索起止时间将数据生成处理结果,构建了智能化“周监测、月解读、季专题、年分析”全周期内外部环境动态监测分析体系。

本申请实施例还提供了一种非易失性存储介质,非易失性存储介质用于存储程序,程序运行时控制非易失性存储介质所在的设备执行以上的目标决策的生成方法。

非易失性存储介质用于存储执行以下功能的程序:利用爬虫技术从多个网站上爬取第一数据,以及利用爬虫技术从执行目标决策的公司内部的信息资源中获取第二数据;对第一数据和第二数据进行处理,得到处理结果;依据处理结果生成目标决策。

本申请实施例还提供了一种处理器,处理器用于运行程序,程序运行时执行以下功能的程序:利用爬虫技术从多个网站上爬取第一数据,以及利用爬虫技术从执行目标决策的公司内部的信息资源中获取第二数据;对第一数据和第二数据进行处理,得到处理结果;依据处理结果生成目标决策。

上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。

在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对相关技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,ReBJDLd-Only Memory)、随机存取存储器(RBJDLM,RBJDLndom BJDLccess Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号