基于度量学习的不完整数据聚类方法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着互联网技术的发展，网络中产生了越来越多的数据，在数据收集、传输以及存储的过程中经常会出现问题导致数据出现了不完整性。对于收集到的数据人们很关心其内部的特定关系以及含义，因此数据挖掘技术得到了广泛的应用。聚类分析技术是数据挖掘领域中核心技术之一，然而在面对不完整数据时传统的聚类分析技术效果并不理想。
　　由于Mahalanobis距离度量函数在处理非线性空间变换以及复杂分布的数据时的不足，针对聚类分析中的距离度量问题，本文给出了基于树叶子节点特征表示算法、决策路径特征表示算法，提出了基于随机树结构的度量学习算法。结合树结构的特点，构造非线性的特征，利用非线性的空间变换扩展数据中的隐含结构信息。利用随机树结构的度量学习方法可以很好的降低结构泛化误差，增加结果的稳定性，同时从理论上证明了提出的算法的有效性，并且对比实验的结果体现了本文提出的度量学习方法具有很好的表现。
　　由于基于协同过滤的处理方法以及基于期望最大化的处理方法在针对数据随机缺失的情况下的处理能力不足，本文针对不完整数据往往存在数据缺失的问题，提出了基于自动编码的不完整数据处理算法，算法结合回归分析的思想对不完整数据进行处理。因为传统的回归分析方法需要基于某种特定分布进行预测，并且需要确定输入的形式。本文提出的基于自动编码的不完整数据处理算法可以很好的解决数据的随机缺失情况，并且对于不完整数据的预测和恢复并不需要依赖特定的分布。通过实验对比可以看到，本文提出的不完整数据处理算法可以很好处理不完整数据的预测与恢复任务。
　　在不完整数据进行聚类分析时，单一的聚类方法往往依赖特定的假设，而由于不完整数据的分布的未知性，仅利用单一的聚类方法在实际中效果较差。本文结合不完整数据的特点，利用Graph Laplacian性质生成聚类特征。结合提出的不完整数据处理方法以及基于随机树结构的度量学习方法，利用Graph Laplacian的特性在不完整数据进行聚类分析，从理论上证明了算法在处理聚类问题上的有效性，并且通过在UCI数据集上的对比实验，验证了本文提出的聚类算法可以很好的处理在不完整数据上的聚类任务。

著录项

作者
闫铭;
展开▼
作者单位

哈尔滨工业大学;

展开▼
授予单位哈尔滨工业大学;
学科计算机科学
授予学位硕士
导师姓名张岩;
年度 2015
页码
总页数
原文格式 PDF
正文语种中文
中图分类自动推理、机器学习;
关键词
度量学习; 不完整数据处理; 聚类算法; 数据挖掘; 协同过滤;

相似文献

中文文献
外文文献
专利

1. 不完整高维大数据的相似度度量方法研究 [J] . 漆世钱 . 信息工程大学学报 . 2019,第004期
2. 基于改进高斯核度量和KPCA的数据聚类新方法 [J] . 余文利 ,余建军 ,方建文 . 计算机系统应用 . 2017,第010期
3. 基于异构值差度量的SOM混合属性数据聚类算法 [J] . 张宇献 ,彭辉灯 ,王建辉 . 仪器仪表学报 . 2016,第11期
4. 基于密度和混合距离度量方法的混合属性数据聚类研究 [J] . 陈晋音 ,何辉豪 . 控制理论与应用 . 2015,第008期
5. 基于相似性度量的高维数据聚类算法研究 [J] . 王晓阳 ,张洪渊 ,沈良忠 . 计算机技术与发展 . 2013,第005期
6. 高维数据聚类中相似性度量方法的研究 [C] . 潘国涛 ,黄德才 . 2011年青年通信国际会议(ICYC2011) . 2011
7. 基于度量学习的复杂数据聚类算法研究 [A] . 刘弱南 . 2019

基于度量学习的不完整数据聚类方法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅