首页> 中文学位 >基于粗糙集和遗传算法的大数据集数据挖掘应用研究
【6h】

基于粗糙集和遗传算法的大数据集数据挖掘应用研究

代理获取

目录

文摘

英文文摘

声明

第1章绪论

1.1研究背景

1.2研究内容

第2章数据挖掘的理论及应用

2.1数据挖掘综述

2.2粗糙集与数据挖掘

2.3遗传算法与数据挖掘

第3章基于大数据集的数据挖掘系统研究

3.1粗糙集理论及其算法

3.2遗传算法理论及其算法

3.3大数据集数据挖掘系统构建

3.4数据准备层的设计与实现

3.4.1数据准备

3.4.2数据清理

3.5数据预处理层的设计与实现

3.5.1数据离散

3.5.2数据过滤

3.6挖掘评价层的设计与实现

3.6.1属性约简

3.6.2规则提取

3.6.2结果评价

第4章短信数据挖掘系统应用研究

4.1数据挖掘在电信系统中的应用

4.2短信网关系统的数据挖掘过程

4.2.1网关系统与开发平台

4.2.2数据准备

4.2.3数据离散化

4.2.4属性约简

4.2.5规则提取

4.3短信查询分析模块

4.4流量监测模块

4.5系统验证

第5章结束语

5.1研究工作总结

5.2进一步的研究方向

参考文献

致谢

攻读学位期间发表的学术论文目录

附录

展开▼

摘要

数据挖掘(DM)是从存放在数据库、数据仓库或其他信息库中大量的不完全的有噪声的模糊的随机的数据中提取隐含在其中的人们事先未知、但是潜在有用的信息和知识的过程。 粗糙集理论由 Z.Pawlak提出,经历了20年的发展。该理论作为一种全新的数学概念,已经在理论和应用上取得了丰硕的成果。它不依赖于数据集之外的附加信息,是处理含有噪声、不精确、不完整数据的有力工具,在医疗诊断、模式识别、专家系统、机器学习、数据挖掘等领域获得广泛应用,是进行数据挖掘的有力工具。 遗传算法是Holland于1975年首先提出来的一种基于自然群体遗传演化机制的高效探索算法。它摒弃了传统的搜索方式,模拟自然界生物进化过程,采用人工进化的方式对目标空间进行随机化搜索。它将问题域中的可能解看作是群体的一个个体或染色体,并将每一个体编码成符号串形式,模拟达尔文的遗传选择和自然淘汰的生物进化过程,对群体反复进行基于遗传学的操作(选择,交叉和变异),根据预定的目标适应度函数对每个个体进行评价,依据适者生存,优胜劣汰的进化规则,不断得到更优的群体。 本文应用粗糙集理论对知识分类的特点,结合遗传算法进化理论,对大型决策表中最优规则提取做了深入研究,提出了一个新的数据挖掘模型。在应用该模型的系统中包含有数据预处理,数据离散化,知识约简,规则提取一数据挖掘的一些基本过程。针对大数据表字段过多,信息冗余大的特点,本文采用粗糙集的理论方法进行处理,在数据预处理和数据离散化的基础上,对条件属性进行约简。属性约简是挖掘的核心步骤,这里运用粗化算法通过判断表的相容性进行约简;对于数据量大的决策表仅仅属性约简是不够的,对大量的规则还要进行筛选提取。使用遗传算法进行优化筛选处理,通过选择,交叉,变异后从大量的规则中得到较优的规则集。在系统的构建上,采用VC++开发工具和SQL SERVER数据库具体实现了一个基于粗糙集理论和遗传算法为核心模块算法的数据挖掘系统。最后,介绍了该模型在太原网通公司小灵通短信系统中的应用,提取出用户收发短信息成功与否的规则模式。通过验证分析,结果表明该系统是合理、有效的,实验结果有助于维护人员分析故障原因。其中群发短信查询分析模块已经安装在监控设备上运行了一年,及时发现了多起设备故障,为企业挽回了大量的经济损失。事实证明对于提高短信系统运行效率,改善网络运行质量有着显著作用。该方法模型的应用同时也是对多方法融合进行数据挖掘的有益探索。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号