首页> 中文学位 >全局和局部相结合的数据挖掘方法及应用研究
【6h】

全局和局部相结合的数据挖掘方法及应用研究

代理获取

目录

文摘

英文文摘

论文说明:图表目录

第一章绪论

1.1引言

1.2全局和局部数据挖掘

1.2.1全局模型挖掘

1.2.2局部数据挖掘(模式发现)

1.3基于局部信息的全局数据挖掘

1.3.1基于数据粒度表示的挖掘

1.3.2基于局部模式的全局模型挖掘

1.3.3基于局部模式的全局信息获取

1.4本文的工作及结构

第二章基于数据粒表示的频繁模式挖掘

2.1引言

2.2相关工作

2.2.1数据的粒度表示

2.2.2 EMASK算法概述

2.3基于粒度表示的频繁模式挖掘算法GB-FIM

2.4基于粒度推理的频繁模式挖掘算法GrC-FIM

2.4.1支持度计算

2.4.2算法GrC-FIM

2.5实验与性能分析

2.5.1数据集

2.5.2效率分析

2.5.3准确性分析

2.6本章小节

第三章基于相似性的局部模式总结算法

3.1引言

3.2相关工作

3.2.1模式压缩

3.2.2序列模式挖掘

3.2.3偏序模型

3.3基于偏序的频繁序列模式压缩算法

3.3.1基本定义

3.3.2算法过程

3.4实验与性能分析

3.4.1数据集

3.4.2实验性能分析

3.4.3偏序实例

3.5本章小节

第四章基于局部特征的全局序列挖掘算法

4.1引言

4.2相关工作

4.2.1全局偏序模型

4.2.2动态贝叶斯网络

4.3基于频繁序列模式的启发式全局偏序算法

4.3.1启发式搜索

4.3.2构造全局偏序模型

4.3.3算法描述

4.3.4算法总结

4.3.5实验与性能分析

4.4基于传递闭包的动态贝叶斯网络构建算法

4.4.1传递闭包

4.4.2先验模型

4.4.3评分函数

4.4.4算法过程

4.4.5网络表达

4.4.6实验结果和分析

4.5本章小节

第五章全局和局部挖掘在文献数据分析中的应用

5.1引言

5.2 LDA主题模型

5.3基于贝叶斯网络理解研究领域的变化

5.3.1研究背景

5.3.2基本假设

5.3.3构造方法

5.3.4实验结果和分析

5.4基于模块化网络的主题影响研究

5.4.1研究背景

5.4.2研究思路

5.4.3方法描述

5.4.4实验结果和分析

5.5本章小节

第六章总结与展望

6.1总结

6.2展望

参考文献

攻读博士学位期间主要的研究成果

致谢

展开▼

摘要

数据挖掘经过十几年的蓬勃发展,产生了丰硕的成果。各式各样的数据挖掘理论被提出与采用;各式各样的数据被挖掘;各种各样的数据挖掘平台被不断地开发。 本文针对全局和局部挖掘的集成问题进行了分析,重点研究了基于局部信息的全局数据挖掘方法及应用。首先,根据数据挖掘的过程,我们将该问题的研究划分成三个阶段,即利用粒度数据表示进行挖掘,利用局部信息改善全局挖掘的效率和利用局部模式结果获得全局数据理解,并对每个阶段进行了研究,最后将所研方法应用于文献数据挖掘中。 本文所做的主要工作如下: (1)在数据表示上:提出了基于数据粒度表示的两个高效挖掘算法GB-FIM和GrC-FIM。本文针对隐私保护造成数据扭曲使得挖掘效率下降的问题,我们提出了基于数据粒度表示的粒度位向量挖掘算法GB-FIM和粒度推理计算挖掘算法GrC-FIM。这两个挖掘算法分别利用数据的粒度表示和粒度计算推理技术挖掘了扭曲数据集。GrC-FIM算法在GB-FIM的基础上利用粒度推理的方法简化了支持度计算。实验结果表明这两个算法的运行效率较传统算法提高较大,特别在稠密数据集上,利用粒度推理技术的方法不仅能够提高运算效率,而且能够提高挖掘的准确性。 (2)在结果精简上:提出了基于支持度和模式相似性的混合距离模式压缩算法。本文针对闭合序列模式数量较多影响理解的问题,研究了对其压缩的方法,方便了信息的表达。我们针对基于模式支持集进行聚类方法的缺陷,提出了将支持度和序列模式本身相结合的混合距离方法。利用此距离,可以高效对闭合序列模式进行聚类,且取得很好的聚类效果。利用从聚类中总结出精简偏序的方法可将模式进行精简表示。试验结果显示本算法能够在效率与准确性之问得到较好的折衷,获得理想的结果。 (3)在挖掘过程中:提出了基于启发式搜索的全局偏序改进算法和基于传递闭包的动态贝叶斯网络构造算法。利用局部模式能够反映数据的局部特征,从而改进全局挖掘算法,提高其效率。首先我们利用序列的局部频繁特征改进了全局偏序挖掘算法,在保证准确性的前提下提高了挖掘效率;然后,我们针对全局偏序表达容易丢失局部信息的问题,提出了基于传递闭报的动态贝叶斯网络方法来反映序列数据的特征,该算法能够在不增加复杂度的前提下更加准确地对序列进行构造。 (4)在应用上:研究了基于文献数据理解主题演化和影响的问题。当前,随着数字图书馆技术的发展,大量文献数据为研究者进行研究工作提供了便利,但同时使得如何更加快速和准确地理解领域的发展和演化变得困难。针对这一问题,我们首先利用本文所提出的基于传递闭包的动态贝叶斯网络构造模型分析了研究者的出版文章序列,获取了对领域演化的理解;然后,我们运用模块化网络构造技术研究了丰题的影响,通过线性分段技术获得了丰题强度的趋势信息,通过模块化网络的全局模型构造分析了丰题的影响关系。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号