公开/公告号CN104346376A
专利类型发明专利
公开/公告日2015-02-11
原文格式PDF
申请/专利权人 克拉玛依红有软件有限责任公司;
申请/专利号CN201310330159.5
申请日2013-07-31
分类号G06F17/30(20060101);G06F9/44(20060101);
代理机构11337 北京市盛峰律师事务所;
代理人赵建刚
地址 834000 新疆维吾尔自治区克拉玛依市长征路22号
入库时间 2023-12-17 04:14:53
法律状态公告日
法律状态信息
法律状态
2017-11-03
授权
授权
2017-11-03
著录事项变更 IPC(主分类):G06F17/30 变更前: 变更后: 申请日:20130731
著录事项变更
2015-03-11
实质审查的生效 IPC(主分类):G06F17/30 申请日:20130731
实质审查的生效
2015-02-11
公开
公开
技术领域
本发明属于数据挖掘技术领域,具体涉及一种数据挖掘算法动态插入到数 据挖掘平台的方法及系统。
背景技术
数据挖掘,又称为数据库中知识发现(Knowledge Discovery from Database, 简称KDD),是一个从大量数据中抽取挖掘出未知的、有价值的模式或规律等知 识的复杂过程。在数据挖掘过程中,根据数据挖掘目的或实际业务需求,需要 使用不同的数据挖掘算法。
现有技术中,在数据挖掘平台设计初期,为提高数据挖掘平台的处理能力, 使数据挖掘平台满足各种数据挖掘目的,常常需要在数据挖掘平台中引入多个 固定的数据挖掘算法。
上述方法存在的主要问题为:(1)在数据挖掘平台设计过程中,需要尽可能 设计多种数据挖掘算法,一方面,延长了数据挖掘平台设计周期;另一方面, 由于数据挖掘算法的整体设计工作复杂,也增大了数据挖掘平台设计的工作量; (2)在数据挖掘平台开发结束后,当出现改进的数据挖掘算法时,所改进的数 据挖掘算法无法适用于原来的数据挖掘平台,开发人员需要重新设计数据挖掘 平台,因此,原数据挖掘平台具有可扩展性和兼容性差的问题。
发明内容
针对现有技术存在的缺陷,本发明提供一种数据挖掘算法动态插入到数据 挖掘平台的方法及系统,数据挖掘平台开发过程中,具有开发简单灵活的优点; 在数据挖掘平台开发结束后,还可以动态插入新的数据挖掘算法,从而提高了 数据挖掘平台的可扩展性和兼容性。
本发明采用的技术方案如下:
本发明提供一种数据挖掘算法动态插入到数据挖掘平台的方法,包括以下 步骤:
S1,构建数据挖掘平台;其中,所述数据挖掘平台包括基本功能框架;
S2,构建数据挖掘算法插入容器,将所述数据挖掘算法插入容器植入所述 数据挖掘平台;并且,所述数据挖掘算法插入容器预留有数据挖掘算法插入容 器接口;
S3,设置算法组件动态插入标准,以及,构建算法插入组件,所述算法插 入组件用于选择符合预设要求的新算法组件;
S4,按照所述算法组件动态插入标准,将所述算法插入组件所选择的新算 法组件导入到所述数据挖掘算法插入容器接口。
优选的,S3中,所述算法组件动态插入标准包括:算法组件初始化标准、 算法插入参数调整标准、算法插入过程中的中间结果反馈标准以及算法异常的 处理机制。
优选的,S3中,所述算法插入组件选择符合预设要求的新算法组件具体包 括以下步骤:
S31,接收外界输入的一个以上新算法组件;
S32,对接收到的一个以上新算法组件进行选择,获得第一次循环对应的新 算法组件;
S33,对第一次循环对应的新算法组件进行算法测试,得到测试结果;
S34,对得到的所述测试结果进行检验,判断本次所选择的新算法组件是否 符合预设要求,如果符合,则本次所选择的新算法组件即为最终的算法组件; 如果不符合,则选择下一个新算法组件,对所述新算法组件进行算法测试过程 和结果检验过程,循环该过程,直到选择到符合预设要求的最优新算法组件, 该最优新算法组件即为最终的算法组件;
S35,向数据挖掘算法插入容器接口输出所述最终的算法组件。
优选的,S4中,将所述算法插入组件所选择的新算法组件导入到所述数据 挖掘算法插入容器接口,具体包括以下步骤:
S41,将所述新算法组件导入到指定路径下;
S42,通过所述指定路径,读取所述新算法组件,然后将读取到的所述新算 法组件配置到所述数据挖掘算法插入容器接口;
S43,所述数据挖掘算法插入容器接口向所述数据挖掘平台基本功能框架发 送配置新算法的通知消息;
S43,所述数据挖掘平台基本功能框架根据该通知消息,读取所述新算法组 件;
S44,所述数据挖掘平台基本功能框架对所述新算法组件进行测试,当测试 成功后,所述新算法组件成功插入到所述数据挖掘平台基本功能框架。
本发明提供一种数据挖掘算法动态插入到数据挖掘平台的系统,包括:
数据挖掘平台;其中,所述数据挖掘平台包括数据挖掘基本功能框架;
数据挖掘算法插入容器,所述数据挖掘算法插入容器被植入所述数据挖掘 平台;并且,所述数据挖掘算法插入容器预留有数据挖掘算法插入容器接口;
动态插入标准设置模块,用于设置算法组件动态插入标准;
算法插入组件,用于选择符合预设要求的新算法组件;
导入模块,用于按照所述算法组件动态插入标准,将所述算法插入组件所 选择的新算法组件导入到所述数据挖掘算法插入容器接口。
优选的,所述动态插入标准设置模块所设置的算法组件动态插入标准包括: 算法组件初始化标准、算法插入参数调整标准、算法插入过程中的中间结果反 馈标准以及算法异常的处理机制。
优选的,所述算法插入组件包括:
算法接收子模块,用于接收外界输入的一个以上新算法组件;
算法选择子模块,用于根据业务需求,对接收到的一个以上新算法组件进 行选择,获得第一次循环对应的新算法组件;
算法测试子模块,用于对第一次循环对应的新算法组件进行算法测试,得 到测试结果;
算法结果检验子模块,用于对得到的所述测试结果进行检验,判断本次所 选择的新算法组件是否符合预设要求,如果符合,则本次所选择的新算法组件 即为最终的算法组件;如果不符合,则选择下一个新算法组件,对所述新算法 组件进行算法测试过程和结果检验过程,循环该过程,直到选择到符合预设要 求的最优新算法组件,该最优新算法组件即为最终的算法组件;
算法输出子模块,用于向数据挖掘算法插入容器接口输出所述最终的算法 组件。
优选的,所述导入模块包括:
导入子模块,用于将所述新算法组件导入到指定路径下;
第一读取子模块,用于通过所述指定路径,读取所述新算法组件;
配置子模块,用于将读取到的所述新算法组件配置到所述数据挖掘算法插 入容器接口;
通知子模块,用于向所述数据挖掘平台基本功能框架发送配置新算法的通 知消息;
所述数据挖掘平台基本功能框架包括:
通知接收子模块,用于接收所述通知子模块发送的配置新算法的通知消息;
第二读取子模块,用于根据所述通知消息,读取所述新算法组件;
新算法组件测试子模块,用于对所述第二读取子模块读取到的所述新算法 组件进行测试,当测试成功后,所述新算法组件成功插入到所述数据挖掘平台 基本功能框架。
本发明的有益效果如下:
(1)数据挖掘平台开发初期,只需要集中典型的数据挖掘算法,而整体框 架固定,尤其是算法组件结构固定;在数据挖掘平台使用过程中,当需要通过 该数据挖掘平台使用新的算法时,只需要依据算法组件动态插入标准把每一种 算法按照固定要求加入即可,因此,减少了数据挖掘平台开发初期的准备工作 量以及代码量,从而缩短了数据挖掘平台开发周期。
(2)动态向数据挖掘平台插入新的数据挖掘算法,提高了数据挖掘平台的 可扩展性和兼容性。
(3)维护人员只需要根据算法组件动态插入标准对出现问题的算法组件进 行处理即可,具有工作量小、所需开发知识少的优点,从而降低了对维护人员 的技术要求。
(4)采用算法组件动态插入标准向数据挖掘平台插入算法,原有数据挖掘 平台的基本功能框架均保留,极大地增强了平台的复用性;而且,新算法依照 算法组件动态插入标准可简单方便的插入到数据挖掘平台,节约了人力、物力 和时间。
附图说明
图1为本发明提供的数据挖掘算法动态插入到数据挖掘平台的方法流程示 意图;
图2为本发明提供的数据挖掘算法动态插入到数据挖掘平台的一种系统结 构示意图;
图3为本发明提供的数据挖掘算法动态插入到数据挖掘平台的另一种系统 结构示意图;
图4为本发明提供的算法插入组件选择符合预设要求的新算法组件的示意 图。
具体实施方式
以下结合附图对本发明进行详细说明:
如图1所示,本发明提供一种数据挖掘算法动态插入到数据挖掘平台的方 法,包括以下步骤:
S1,构建数据挖掘平台基本功能框架;
本发明中,数据挖掘平台基本功能框架与传统数据挖掘平台基本功能框架 基本相同,主要用于实现数据挖掘基本功能,包括但不限于:查看数据、修改 数据、特征提取等数据的预处理功能;以及,数据源可视化、数据预处理可视 化、挖掘算法可视化、挖掘结果表示可视化等可视化展示功能。另外,在数据 挖掘平台基本功能框架中植入固定数据挖掘算法,例如,SVM、EM、C4.5等一 些泛化性能好、学习精度高的固定算法。
S2,构建数据挖掘算法插入容器,将所述数据挖掘算法插入容器植入所述 数据挖掘平台基本功能框架;并且,所述数据挖掘算法插入容器预留有数据挖 掘算法插入容器接口;
通过数据挖掘算法插入容器接口,实现算法名称传送、算法调用、处理文 件路径以及算法相关设置等功能。
S3,设置算法组件动态插入标准,以及,构建算法插入组件,所述算法插 入组件用于选择符合预设要求的新算法组件;
其中,算法组件动态插入标准包括:算法组件初始化标准、算法插入参数 调整标准、算法插入过程中的中间结果反馈标准以及算法异常的处理机制。
如图4所示,算法插入组件选择符合预设要求的新算法组件具体包括以下 步骤:
S31,接收外界输入的一个以上新算法组件;
在数据挖掘平台已开发结束后,根据实际业务变更需求、标准规范、数据 挖掘目标、特征数据等情况,开发人员又设计出若干个新算法组件,通过算法 插入组件,选择最符合某种需求的算法组件。本发明中,算法组件是指开发帮 助文档和算法共同构成的组件。
S32,对接收到的一个以上新算法组件进行选择,获得第一次循环对应的新 算法组件;
新算法组件选择标准包括:实际业务变更需求、标准规范、数据挖掘目标、 特征数据、管理人员指定的参数以及设备环境等。
S33,对第一次循环对应的新算法组件进行算法测试,得到测试结果;
S34,对得到的所述测试结果进行检验,判断本次所选择的新算法组件是否 符合预设要求,如果符合,则本次所选择的新算法组件即为最终的算法组件; 如果不符合,则选择下一个新算法组件,对所述新算法组件进行算法测试过程 和结果检验过程,循环该过程,直到选择到符合预设要求的最优新算法组件, 该最优新算法组件即为最终的算法组件;
S35,向数据挖掘算法插入容器接口输出所述最终的算法组件。
S4,按照所述算法组件动态插入标准,将所述算法插入组件所选择的新算 法组件导入到所述数据挖掘算法插入容器接口。
本步骤中,将所述算法插入组件所选择的新算法组件导入到所述数据挖掘 算法插入容器接口,具体包括以下步骤:
S41,将所述新算法组件导入到指定路径下;
S42,通过所述指定路径,读取所述新算法组件,然后将读取到的所述新算 法组件配置到所述数据挖掘算法插入容器接口;
S43,所述数据挖掘算法插入容器接口向所述数据挖掘平台基本功能框架发 送配置新算法的通知消息;
S43,所述数据挖掘平台基本功能框架根据该通知消息,读取所述新算法组 件;
S44,所述数据挖掘平台基本功能框架对所述新算法组件进行测试,当测试 成功后,所述新算法组件成功插入到所述数据挖掘平台基本功能框架。
如图2-3所示,本发明还提供一种数据挖掘算法动态插入到数据挖掘平台的 系统,包括:
数据挖掘平台,所述数据挖掘平台包括基本功能框架;
数据挖掘算法插入容器,所述数据挖掘算法插入容器被植入所述数据挖掘 平台;并且,所述数据挖掘算法插入容器预留有数据挖掘算法插入容器接口;
动态插入标准设置模块,用于设置算法组件动态插入标准;其中,算法组 件动态插入标准包括:算法组件初始化标准、算法插入参数调整标准、算法插 入过程中的中间结果反馈标准以及算法异常的处理机制。
算法插入组件,用于选择符合预设要求的新算法组件;
算法插入组件包括:
算法接收子模块,用于接收外界输入的一个以上新算法组件;
算法选择子模块,用于根据业务需求,对接收到的一个以上新算法组件进 行选择,获得第一次循环对应的新算法组件;
算法测试子模块,用于对第一次循环对应的新算法组件进行算法测试,得 到测试结果;
算法结果检验子模块,用于对得到的所述测试结果进行检验,判断本次所 选择的新算法组件是否符合预设要求,如果符合,则本次所选择的新算法组件 即为最终的算法组件;如果不符合,则选择下一个新算法组件,对所述新算法 组件进行算法测试过程和结果检验过程,循环该过程,直到选择到符合预设要 求的最优新算法组件,该最优新算法组件即为最终的算法组件;
算法输出子模块,用于向数据挖掘算法插入容器接口输出所述最终的算法 组件。
导入模块,用于按照所述算法组件动态插入标准,将所述算法插入组件所 选择的新算法组件导入到所述数据挖掘算法插入容器接口。
导入模块包括:
导入子模块,用于将所述新算法组件导入到指定路径下;
第一读取子模块,用于通过所述指定路径,读取所述新算法组件;
配置子模块,用于将读取到的所述新算法组件配置到所述数据挖掘算法插 入容器接口;
通知子模块,用于向所述数据挖掘平台基本功能框架发送配置新算法的通 知消息;
所述数据挖掘平台基本功能框架包括:
通知接收子模块,用于接收所述通知子模块发送的配置新算法的通知消息;
第二读取子模块,用于根据所述通知消息,读取所述新算法组件;
新算法组件测试子模块,用于对所述第二读取子模块读取到的所述新算法 组件进行测试,当测试成功后,所述新算法组件成功插入到所述数据挖掘平台 基本功能框架。
本发明提供的数据挖掘算法动态插入到数据挖掘平台的方法及系统,具有 以下优点:
(1)数据挖掘平台开发初期,只需要集中典型的数据挖掘算法,而整体框 架固定,尤其是算法组件结构固定;在数据挖掘平台使用过程中,当需要通过 该数据挖掘平台使用新的算法时,只需要依据算法组件动态插入标准把每一种 算法按照固定要求加入即可,因此,减少了数据挖掘平台开发初期的准备工作 量以及代码量,从而缩短了数据挖掘平台开发周期。
(2)动态向数据挖掘平台插入新的数据挖掘算法,提高了数据挖掘平台的 可扩展性和兼容性。
(3)维护人员只需要根据算法组件动态插入标准对出现问题的算法组件 进行处理即可,具有工作量小、所需开发知识少的优点,从而降低了对维护人 员的技术要求。
(4)采用算法组件动态插入标准向数据挖掘平台插入算法,原有数据挖掘 平台的基本功能框架均保留,极大地增强了平台的复用性;而且,新算法依照 算法组件动态插入标准可简单方便的插入到数据挖掘平台,节约了人力、物力 和时间。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通 技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰, 这些改进和润饰也应视本发明的保护范围。
机译: 用于评估数据挖掘算法的方法,系统和程序产品
机译: 用于量化数据挖掘算法捕获输入数据中有用信息的程度的系统和方法
机译: 使用数据挖掘算法从聚合数据实时生成智能输出的方法