首页> 中文学位 >非负稀疏信号分析理论及在文本聚类中的应用
【6h】

非负稀疏信号分析理论及在文本聚类中的应用

代理获取

目录

文摘

英文文摘

独创性声明和关于论文使用授权的说明

第一章引言

1.1课题背景

1.2课题任务

1.3内容组织

第二章理论背景概述

2.1文本矢量空间模型及相异性的量化

2.1.1文本矢量空间模型

2.1.2向量相异性量化

2.2文本聚类及算法

2.2.1文本聚类及经典算法概述

2.2.2文本聚类新近算法概述

2.3 NMF算法

2.3.1 NMF概述

2.3.2 NMF算法

2.3.3基于NMF的文本聚类算法

第三章基于非负稀疏矩阵分解的文本聚类算法

3.1引言

3.2 SNMF算法

3.2.1稀疏分解算法概述

3.2.2 SNMF算法描述

3.3基于SNMF的文本聚类算法

3.3.1算法描述

3.3.2实验结果

3.4小结

第四章基于球形k-平均+SNMF的文本聚类

4.1引言

4.2球形k-平均+SNMF算法

4.3基于球形k-平均+SNMF的文本聚类算法

4.4小结

第五章基于LPI+SNMF的文本聚类

5.1引言

5.2 LPI算法

5.3基于LPI+SNMF的文本聚类算法

5.4小结

第六章增量NMF算法初探

6.1引言

6.2增量NMF算法

6.3增量NMF算法在文本流主题提取中的应用

6.4小结

第七章结论

7.1总结

7.2将来的工作

致谢

参考文献

个人简历及攻读硕士期间的成果

附录1:符号表

附录2:算法索引表

附录3:图索引表

附录4:表格索引表

展开▼

摘要

文本聚类作为一种对大规模文本信息进行有效地组织、导航、检索和概括汇总的关键的、基本的技术而日益受到关注,其主要目的是在语义空间里以无监督的方式将文本集中的文本划分成不同的类。基于文本空间的文本聚类因为其具有高维的特征而不容易直接实现,所以文本聚类的首要步骤就是将文本空间的数据投影到较低维的语义空间里,使在文本空间里相邻的数据向量在语义空间里根据某些提取的特征参数而相似。与PCA(主分量分析)和VQ(矢量量化)等降维算法不同,NMF(非负矩阵分解)算法能够分解出非负的,稀疏的特征矩阵和编码矩阵,能够提取原始数据向量的局部特征,使基于局部特征进行分类的聚类算法更容易实现。如果将一篇文档看作是由许多文本主题组合而成,而文本主题与语义空间的特征向量相对应的话,则我们可以直接根据NMF算法所提取的特征向量及相对于特征向量各文档的编码向量将文本集划分成不同的类。因此,NMF算法用于文本聚类的优点就是可以直接利用其分解得到的编码矩阵结合特征矩阵进行聚类操作。 本文主要采用SNMF(非负稀疏矩阵分解)算法作为降维和提取特征向量的工具,该算法是在NMF算法的基础上加上显式地稀疏因子控制而形成的一种非负矩阵分解方法。同时采用球形k-平均算法和NNLS(非负最小平方差)算法的结果初始化SNMF算法以达到改进和优化SNMF算法的目的;通过结合SNMF算法与LPI(局部保留索引)算法以实现在无监督的方式下取得更准确聚类结果的算法。与基于NMF算法的文本聚类不同,我们的算法力求以无监督的方式,在时间复杂度允许的范围内,找到更适合于分类操作的数据向量间的几何局部特征向量及相应的各文档的编码向量。实验结果显示,在聚类的容易度、准确度、时间复杂度上均取得较NMF算法更合理的效果。 最后对iNMF(增量NMF)算法进行了实验性初探,并将其运用于网络文本流主题的提取,在动态提取文本流主题研究方面取得了比较好的实验效果。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号