基于种子对象约束的半监督聚类算法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

目前随着科学技术的发展，互联网数据呈现出了指数级的爆炸式增长，这就使得人工标注数据样本的代价急速增加。所以，怎样用较少的人力和财力来获取更好的效果，是人们一直在致力解决的问题。
　　本课题旨在提出新颖有效的半监督聚类算法，解决现有半监督聚类算法准确度较小和需要一定数量标记样本的问题。针对这些问题，提出了基于密度峰值和基于协同聚类的半监督聚类算法，该方法可以在一定程度上减小成本的消耗，并能取得较高的准确率。本课题主要从以下几个方面进行了相关的研究：
　　设计了种子对象扩展先验知识和简单约束条件提取的方法，与此同时利用密度峰值聚类算法来对数据集的聚类中心自动提取。自动提取的概念就是说不需要人工给定的K值，其算法可以较准确地计算出数据集合类簇的个数。不但如此，在这个算法进行过程中，因为种子数据（有类标的样本）是事先给定的，其具有一定的先验性知识。根据得到的种子数据之间的先验性知识，可以更加准确地对数据类簇个数和聚类中心位置进行确定。
　　通过观察和分析种子对象之间的限制条件和约束对，并利用种子对象对类簇的聚类中心点进行标记打分。通过对所有的数据样本进行数学建模，建立数据点的多叉树或图。利用已知的种子对象来对聚类中心点进行打分标记。具体打分标记是利用迪杰斯特拉方法，找到种子对象到每个簇中心点的最短路径。找到这个路径其实只是解决问题的一个步骤，关键是利用这个最短路径上的最大距离作为衡量数据标记的标准。这其实就是利用类簇与类簇之间桥的大小，来决定类簇中心最终的类标。基于以上的研究，最后对所有样本数据进行聚类。此时可以选用基于密度的聚类算法，方便找出各种形状的聚类簇。
　　针对单一聚类算法得到的聚类结果会存在偶然性误差，设计了协同聚类算法，其主要思路是利用种子对象约束限制来扩充训练样本集合。通过对种子对象进行多个步骤的扩充，最终利用多个聚类算法进行整个数据的聚类，此算法在实验中取得了较高的正确率和召回率。

著录项

作者
李伟峰;
展开▼
作者单位

哈尔滨工业大学;

展开▼
授予单位哈尔滨工业大学;
学科计算机科学与技术
授予学位硕士
导师姓名徐晓飞;
年度 2015
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP311.13;
关键词
互联网数据; 半监督聚类算法; 种子对象; 密度峰值; 打分标记; 协同机制;

相似文献

中文文献
外文文献
专利

1. 基于密度的半监督聚类算法研究 [J] . 姜美羡 . 现代计算机（专业版） . 2018 ,第023期
2. 基于密度的半监督聚类算法研究 [J] . 姜美羡 . 现代计算机：上半月版 . 2018 ,第008期
3. 基于半监督聚类的MQAM信号盲识别算法研究 [J] . 李苹苹 ,孙钢灿 ,申金媛 . 科学技术与工程 . 2014 ,第022期
4. 基于半监督聚类的免疫入侵检测算法研究 [J] . 王小伟 ,王素芳 . 计算机应用与软件 . 2013 ,第002期
5. 基于主动学习策略的半监督聚类算法研究 [J] . 芦世丹 ,崔荣一 . 计算机应用研究 . 2013 ,第006期
6. 一种基于类标记和成对约束的半监督聚类算法 [C] . Sheng Junjie ,盛俊杰 ,Xie Licong . 2012云计算与信息技术应用学术会议 . 2012
7. 基于成对约束的半监督聚类算法研究 [A] . 李晁铭 . 2018

基于种子对象约束的半监督聚类算法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅