基于语义距离的文本聚类算法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

网络技术迅速发展的今天，人们越来越感受到了信息的冲击，而文本是信息的重要载体，人们日常生活中所接触到的信息有80％左右以文本的形式存在。信息内容和格式的多样化、复杂化，使人们无法遍历所有感兴趣的内容，而且又不存在标准的文本分类准则，所以管理收集到的文本信息成为亟待解决的问题，对于文本聚类技术的研究更显重要。现有的文本聚类方法大多采用基于VSM的关键词匹配来计算文本间相似度，这种方法的最大的缺点就是忽略了词之间的语义信息，忽略了各维度之间的联系，导至文本的相似度计算不够精确，所以本文从语义上具体分析文档，利用文本具体语义计算文本间的相似度，使得文本聚类结果更合理，主要工作及创新点有： 1、以《知网》作为语义的本体，利用语义距离计算文档间相似度，把文档间相似度计算具体转化为词语间语义距离、义原间语义距离。考虑到文本聚类具体应用，本文根据《知网》描述各个词的规律，改进现有词语相似度计算方法，更有利于发现词语的相关性，适应了文本聚类的要求。 2、文本聚类算法主要采用一次遍历聚类算法即最近邻聚类算法，并提出第二次聚类方法改进最近邻算法对输入次序敏感的问题。类中心方面，引入相似权重的概念，并根据权重优胜略汰候选类特征词，使得最后选择的类特征词能够代表类的主题，达到文本聚类的目的. 论文最后实验语料来源于中科院的中文自然语言处理开放平台(CNLP)网站，下载了100篇文档对所提出的算法进行了实验，并利用聚类精度和召回率对实验结果进行了评价，然后把评价结果与基于VSM的K-Means聚类算法进行了比较，结果证明本文所提出的基于语义距离文档聚类算法在聚类精度和召回率上都优于基于VSM的K-Means聚类算法，达到了算法改进的目的。另外基于语义距离的文档聚类结果显示它还能从语义上更加细分主题，为用户收集文本信息提供更好的导航。

著录项

作者
林丽;
展开▼
作者单位

厦门大学;

展开▼
授予单位厦门大学;
学科计算机应用技术
授予学位硕士
导师姓名冯少荣;
年度 2007
页码
总页数
原文格式 PDF
正文语种中文
中图分类信息处理（信息加工）;
关键词
文本聚类算法; 语义距离; 聚类精度;

相似文献

中文文献
外文文献
专利

1. 基于词向量和多特征语义距离的文本聚类算法 [J] . 张弛 ,张贯虹 . 重庆科技学院学报（自然科学版） . 2019,第003期
2. 基于关键词语义距离的装备故障文本聚类算法 [J] . 贺伟雄 ,严骏 ,缪德志 . 信息工程大学学报 . 2017,第003期
3. 基于语义距离的高效文本聚类算法 [J] . 冯少荣 ,肖文俊 . 华南理工大学学报（自然科学版） . 2008,第005期
4. 基于改进粒子群和K-Means的文本聚类算法研究 [J] . 钮永莉1 ,武斌1 . 兰州文理学院学报：自然科学版 . 2019,第004期
5. 基于改进粒子群和K-Means的文本聚类算法研究 [J] . 钮永莉 ,武斌 . 甘肃联合大学学报（自然科学版） . 2019,第004期
6. 基于机器学习的文本聚类描述算法研究 [C] . 章成志 . 第三届全国信息检索与内容安全学术会议 . 2007
7. 基于混合主题模型的文本聚类算法研究 [A] . 刘云才 . 2020

基于语义距离的文本聚类算法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅