数据挖掘是从大量数据中发现有用知识的一种手段,已成为目前国际上数据库和信息决策领域最前沿的研究方向之一,受到了学术界和工业界的广泛关注。但随着数据量越来越大和数据位置上的分布性,传统的计算模式己满足不了实际要求,而网格具有资源共享和协同求解的特点,为大规模分布式数据提供了良好的分析和计算平台。本文以网格服务为基础,重点研究了网格数据挖掘的若干关键技术,包括海量数据分割、网格资源分配和调度以及分布式函数挖掘算法等,主要工作如下所示: (1)利用现有的算法和理论,提出基于属性约简的粗糙集海量数据分割算法(Mass DataPartition for Rough Set on Attribute Reduction,MDPRS-AR),使得算法的分割效率提高了约70%,同时使得算法能在数据网格的相关方面中很好地应用; (2)提出了基于粗糙集和折半查找的最优属性约简算法(Optimum AttributionReduction on Rough Set and Binary Search Algorithm, OAR-RSBSA),通过OAR-RSBSA 算法可以快速找到一个约简,在此基础上构造新的样本数据。同时在传统GEp算法的基础上,结合折半查找和网格服务的思想,提出了网格下基于粗糙集、GEp和折半查找的分布式函数挖掘算法(Distributed Function Mining on Rough Set ,GEpand Binary Search in Grid,DFMRSGBS)。DFMRSGBS 算法利用属性约简提高函数挖掘的效率和成功率,同时在全局模型生成中给出了函数一致性合并算法,使得到的全局模型能够拟合大部分的样本数据。仿真实验表明,OAR-RSBSA 算法求解最优约简比传统的算法要快,DFMRSGBS 算法比GEp和并行GEPSA 算法的平均耗时要小,且随着网格节点个数的增加,DFMRSGBS 算法的全局拟合误差明显下降 ; (3)根据本文的需要,给出了一种面向服务的网格数据挖掘体系架构,并详细论述了该体系结构下的各个功能模块的内容和相互之间的关系 ; (4)利用Eclipse 平台,结合基因表达式编程算法(GEP),实现一个网格数据挖掘原型系统(Grid Data Mining System, GDMS)。详细介绍了网格数据挖掘原型系统各个主要功能模块的设计和相应门户的实现,用户通过该门户可以方便地远程执行分布式数据挖掘。
展开▼