首页> 中文学位 >基于度量学习的不完整数据聚类方法研究
【6h】

基于度量学习的不完整数据聚类方法研究

代理获取

目录

封面

中文摘要

英文摘要

目录

第1章 绪论

1.1 课题背景及研究的目的和意义

1.2 国内外研究现状与分析

1.3 本文的研究内容与组织结构

第2章 基于树结构的度量学习方法研究

2.1 引言

2.2 问题定义与符号

2.3 基于树结构的特征表示方法

2.4 基于随机树的度量学习方法

2.5 实验结果与分析

2.6 本章小结

第3章 基于回归分析的不完整数据处理方法研究

3.1 引言

3.2 回归分析简介

3.3 基于特征表示的不完整数据处理方法

3.4 实验结果与分析

3.5 本章小结

第4章 基于度量学习的不完整数据聚类方法研究

4.1 引言

4.2 聚类方法简介

4.3 不完整数据聚类

4.4 聚类结果的评价标准

4.5 实验结果与分析

4.6 本章小结

结论

参考文献

攻读硕士学位期间发表的论文及其他成果

声明

致谢

展开▼

摘要

随着互联网技术的发展,网络中产生了越来越多的数据,在数据收集、传输以及存储的过程中经常会出现问题导致数据出现了不完整性。对于收集到的数据人们很关心其内部的特定关系以及含义,因此数据挖掘技术得到了广泛的应用。聚类分析技术是数据挖掘领域中核心技术之一,然而在面对不完整数据时传统的聚类分析技术效果并不理想。
  由于Mahalanobis距离度量函数在处理非线性空间变换以及复杂分布的数据时的不足,针对聚类分析中的距离度量问题,本文给出了基于树叶子节点特征表示算法、决策路径特征表示算法,提出了基于随机树结构的度量学习算法。结合树结构的特点,构造非线性的特征,利用非线性的空间变换扩展数据中的隐含结构信息。利用随机树结构的度量学习方法可以很好的降低结构泛化误差,增加结果的稳定性,同时从理论上证明了提出的算法的有效性,并且对比实验的结果体现了本文提出的度量学习方法具有很好的表现。
  由于基于协同过滤的处理方法以及基于期望最大化的处理方法在针对数据随机缺失的情况下的处理能力不足,本文针对不完整数据往往存在数据缺失的问题,提出了基于自动编码的不完整数据处理算法,算法结合回归分析的思想对不完整数据进行处理。因为传统的回归分析方法需要基于某种特定分布进行预测,并且需要确定输入的形式。本文提出的基于自动编码的不完整数据处理算法可以很好的解决数据的随机缺失情况,并且对于不完整数据的预测和恢复并不需要依赖特定的分布。通过实验对比可以看到,本文提出的不完整数据处理算法可以很好处理不完整数据的预测与恢复任务。
  在不完整数据进行聚类分析时,单一的聚类方法往往依赖特定的假设,而由于不完整数据的分布的未知性,仅利用单一的聚类方法在实际中效果较差。本文结合不完整数据的特点,利用Graph Laplacian性质生成聚类特征。结合提出的不完整数据处理方法以及基于随机树结构的度量学习方法,利用Graph Laplacian的特性在不完整数据进行聚类分析,从理论上证明了算法在处理聚类问题上的有效性,并且通过在UCI数据集上的对比实验,验证了本文提出的聚类算法可以很好的处理在不完整数据上的聚类任务。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号