基于核函数和自定类别数目的文本聚类问题研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

近年来，Internet的迅速发展给人们带来了诸多的方便，但随着互联网上信息不断动态变化，经常会出现新的文本很难用己有的分类体系来刻画。如果重新进行分类，就必须重新建立分类好的训练文本集，而获得大量带有类别标注的样本的代价是很大的。因此，对文本聚类技术的研究受到越来越广泛的关注。目前比较经典的聚类方法，K-均值、模糊 K-均值聚类方法只能对一些典型分布的样本奏效，都没有对样本的特征进行优化，而是直接利用样本的特征进行聚类。这样聚类和模糊聚类方法的有效性很大程度上取决于样本的分布情况。例如一类样本散布较大，而另一类散布较小的话，这些方法效果就比较差；如果样本分布更加混乱，则聚类的结果就会面目全非。核函数不仅可以把一个低维空间中的非线性问题映射到高维空间后变成线性问题，而且高维空间中特征向量的内积可以通过核函数用低维空间中的输入向量直接计算得到，从而使得计算量并没有随着维数升高而增加很多。本文在了解核函数的基本理论上，提出了基于核函数的文本聚类算法，即核模糊聚类算法。通过利用Mercer核，我们把输入空间的样本映射到高维特征空间，增加对样本特征的优化，并且在特征空间中进行聚类。本文在详细分析图论中连通图知识的理论基础上，提出了一种能自动确定聚类类别数目的图核聚类方法。每个数据样本看作图中的顶点V，这样所有的数据样本就构成一个以相似度为权值的无向加权图G=，该文从图论连通图的角度定义了能充分反映最佳聚类数目的连通系数T。该系数不仅将相似的文本划分到一个连通图中，而且具有清晰的物理意义。

著录项

作者
张永鹏;
展开▼
作者单位

哈尔滨理工大学;

展开▼
授予单位哈尔滨理工大学;
学科计算机应用技术
授予学位硕士
导师姓名丁华福;
年度 2008
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;文字处理软件;
关键词
计算机网络; 网络信息; 文本聚类; 核函数;

相似文献

中文文献
外文文献
专利

1. 基于核函数的改进k-means文本聚类 [J] . 张国锋 ,吴国文 . 计算机应用与软件 . 2019,第009期
2. 基于强类别特征近邻传播的半监督文本聚类 [J] . 文翰 ,肖南峰 . 模式识别与人工智能 . 2014,第007期
3. 应用HITS算法对文本聚类结果进行类别描述的可行性分析 [J] . 赵悦阳 ,崔雷 . 医学信息学杂志 . 2012,第012期
4. 一种自动确定特征向量与类别数目的谱聚类算法 [J] . 卢鹏丽 ,才彦姣 . 兰州理工大学学报 . 2018,第002期
5. C-SVM在不同类别样本数目不均衡下的优化 [J] . 张秋余 ,赵付清 ,王静 . 兰州理工大学学报 . 2007,第004期
6. 类别数目自动估计的极化SAR图像非监督地物分类 [C] . Zhang Yue ,张月 ,Zou Huanxin . 第四届高分辨率对地观测学术年会 . 2017
7. 基于生物序列分析的核函数设计及应用——基于距离量度的边际核函数设计及应用 [A] . 黄正华 . 2007

基于核函数和自定类别数目的文本聚类问题研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅