一种基于SA_LDA模型的文本相似度计算方法

邱先标; 陈笑蓉

首页> 中文期刊>计算机科学 >一种基于SA_LDA模型的文本相似度计算方法

一种基于SA_LDA模型的文本相似度计算方法

开具论文收录证明 >>

期刊封面封底目录下载 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

Many information processing techniques are based on computing the similarity of text.However,the tradi-tional method of similarity calculation based on vector space model has the problems of high dimension and poor seman-tic sensitivity,so the performance is not very satisfactory.This paper proposed a self-adaptive LDA (SA_LDA)model based on traditional LDA model.It can manually determine the number of topic.Applying it in text similarity calcula-tion,it can solve the high dimensional and sparse problem.Experiments show that this method improves the accuracy of similarity calculation and the effect of text clustering compared with VSM.%计算文本的相似度是许多文本信息处理技术的基础.然而,常用的基于向量空间模型(VSM)的相似度计算方法存在着高维稀疏和语义敏感度较差等问题,因此相似度计算的效果并不理想.在传统的 LDA(Latent Dirichlet Allocation)模型的基础上,针对其需要人工确定主题数目的问题,提出了一种能通过模型自身迭代确定主题个数的自适应 LDA(SA_LDA)模型.然后,将其引入文本的相似度计算中,在一定程度上解决了高维稀疏等问题.通过实验表明,该方法能自动确定模型主题的个数,并且利用该模型计算文本相似度时取得了比 VSM模型更高的准确度.

著录项

来源
《计算机科学》|2018年第z1期|106-109,139|共5页
作者
邱先标; 陈笑蓉;
展开▼
作者单位

贵州大学计算机科学与技术学院贵阳 550025;

贵州大学计算机科学与技术学院贵阳 550025;

展开▼
原文格式 PDF
正文语种 chi
中图分类信息处理（信息加工）;
关键词
文本相似度; SA_LDA模型; 主题模型; 文本挖掘;
入库时间 2023-07-24 19:22:45

相似文献

中文文献
外文文献
专利

1. 一种基于语义与句法结构的短文本相似度计算方法 [J] . 赵谦 ,荆琪 ,李爱萍 . 计算机工程与科学 . 2018,第007期
2. 一种基于随机n-Grams的文本相似度计算方法 [J] . 王贤明 ,胡智文 ,谷琼 . 情报学报 . 2013,第007期
3. 一种基于源网页质量的锚文本相似度计算方法--LAAT [J] . 陆一鸣 ,胡健 ,马范援 . 情报学报 . 2005,第005期
4. 基于向量空间模型的文本相似度计算方法 [J] . 王嘉 ,杨丽萍 ,闫天伟 . 科技广场 . 2017,第002期
5. 基于N层向量空间模型的文本相似度计算方法 [J] . 赵雪 ,崔荣一 . 延边大学学报（自然科学版） . 2016,第003期
6. 一种结合语义和TF-IDF模型的文本相似度量方法 [C] . 黄承慧 ,印鉴 . 2010年中国计算机大会 . 2010
7. 一种基于语义网络的中文文本相似度计算方法 [A] . 邹能清 . 2015

一种基于SA_LDA模型的文本相似度计算方法

摘要

著录项

相似文献

相关主题

期刊订阅