结合概率潜在语义分析的文本谱聚类方法研究

张玉芳; 张洪; 熊忠阳; 李文田

首页> 中文期刊>计算机工程与应用 >结合概率潜在语义分析的文本谱聚类方法研究

结合概率潜在语义分析的文本谱聚类方法研究

开具论文收录证明 >>

期刊封面封底目录下载 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

传统谱聚类的相似矩阵建立在VSM(Vector Space Model)之上,该模型把词看作孤立的单元,没有考虑自然语言中存在大量的同义词、多义词现象.针对这一问题,提出一种用概率潜在语义分析(Probabilistic Latent Semantic Analysis,PLSA)来提取文本中隐含语义信息的方法,并构建文本集的相似矩阵,从语义的角度考虑了文本之间的相关性.实验结果表明,利用该方法得到的聚类精度有较大提高,结果要好于传统的谱聚类算法,从而验证了该方法的有效性.%Traditional similar matrix of spectral clustering is dependent on vector space model, which regards index word as independent unit and ignores a large number of synonyms and polysemy existing in natural language.To solve this prob lem, the paper comes up with a new method of extracting semantic information implicit in the text and constructing the simi lar matrix based on Probabilistic Latent Semantic Analysis(PLSA) .which takes into account the similarities of the texts.Ex periments indicate that such similar matrix built by PLSA can greatly improve categorization precision, and bring better re sults than traditional way like spectral clustering,further proves the availability of PLSA.

著录项

来源
《计算机工程与应用》|2011年第36期|134-136179|共4页
作者
张玉芳; 张洪; 熊忠阳; 李文田;
展开▼
作者单位

重庆大学计算机学院,重庆400044;

重庆大学计算机学院,重庆400044;

重庆大学计算机学院,重庆400044;

重庆大学计算机学院,重庆400044;

展开▼
原文格式 PDF
正文语种 chi
中图分类文字信息处理;
关键词
文本聚类; 概率潜在语义分析; 谱聚类; 相似矩阵;
入库时间 2022-08-18 04:36:42

相似文献

中文文献
外文文献
专利

1. 概率潜在语义分析的KNN文本分类算法 [J] . 戚后林 ,顾磊 . 计算机技术与发展 . 2017,第007期
2. 基于概率潜在语义分析的中文文本分类研究 [J] . 王奕 . 甘肃联合大学学报（自然科学版） . 2011,第004期
3. 改进的概率潜在语义分析下的文本聚类算法 [J] . 张玉芳 ,朱俊 ,熊忠阳 . 计算机应用 . 2011,第003期
4. 基于概率潜在语义分析和Adaboost算法的文本分类技术研究 [J] . 刘苗 ,谢邦昌 . 统计与决策 . 2010,第19期
5. 基于概率潜在语义分析的文本聚类研究 [J] . 吴金学 . 青岛理工大学学报 . 2008,第002期
6. 结合谱聚类的标记分布学习 [C] . WANG Yibin ,王一宾 ,LI Tianli . 第六届中国计算机学会大数据学术会议 . -1
7. 结合概率潜在语义分析的文本谱聚类研究 [A] . 张洪 . 2012

结合概率潜在语义分析的文本谱聚类方法研究

摘要

著录项

相似文献

相关主题

期刊订阅