基于语义相似度的群智能文本聚类方法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

当今世界正处于一个信息爆炸的时代,用户查询信息时常常被信息淹没,迷失在信息中,这大大降低了检索的效率。如何快速高效的进行信息的分类管理,为用户提供准确有用的信息,是一个需要迫切解决的问题。在这样的背景下,文本挖掘技术正受到越来越多的关注。文本聚类是文本挖掘的一个重要组成部分,它是聚类方法在文本处理领域的重要应用。
　　文本聚类由于不需要类别的信息,能自动完成文本分组,已经得到广泛应用,如多文档自动文摘系统、搜索引擎、数字图书馆等。目前大部分聚类算法是基于向量空间模型的,这使得文本聚类面临高维性、高稀疏性和忽略语义信息的问题,影响了算法的性能和准确性。
　　本文首先介绍了文本聚类中一些概念和方法,包括文本间距离计算、文本表示模型、文本预处理过程、聚类效果评价和常用的聚类算法等;接着介绍了《知网》的组织结构、相关概念和语义相似度的计算方法,同时也提出了一种改进的文本间相似度计算方法,将其和K-均值算法结合,通过实验数据,证明了该方法的正确性;最后介绍了本文的两种群智能算法,并提出了本文的基于语义相似度的群智能文本聚类算法。
　　在文本预处理的特征提取阶段计算权重时,既考虑了词频和文档频率,也结合了词的词性和词在文本中的位置这两个因素;针对向量空间模型忽略了词的语义信息的问题,本文利用《知网》,通过词的语义信息,来计算文本相似度;针对前人研究的成果,提出了本文的算法,它是在文本相似度的基础上,融合了K-均值算法、蚁群算法和模拟退火算法,利用了它们各自的优点,避免了各自的缺点,通过实验数据,可以看出该算法的有效性。

著录项

作者
陶红;
展开▼
作者单位

江苏科技大学;

展开▼
授予单位江苏科技大学;
学科计算机应用技术
授予学位硕士
导师姓名高尚;
年度 2012
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
文字信息处理; 聚类算法; 向量空间模型; 数据挖掘;

相似文献

中文文献
外文文献
专利

1. 一种基于语义相似度的群智能文本聚类的新方法 [J] . 陶红 ,周永梅 ,高尚 . 计算机应用研究 . 2012,第002期
2. 基于文本聚类和概念相似度的语义Web服务发现 [J] . 刘一松 ,杨玉成 . 计算机科学 . 2013,第011期
3. 基于概念和语义相似度的文本聚类算法 [J] . 焦芬芬 . 计算机工程与应用 . 2012,第018期
4. 一种基于语义相似度的文本聚类算法 [J] . 孙爽 ,章勇 . 南京航空航天大学学报 . 2006,第006期
5. 基于概念语义树的语义相似度计算方法研究 [J] . 韩欣 ,秦帆 . 电脑知识与技术 . 2011,第016期
6. 基于非对称语义相似度的语义Web服务匹配 [C] . 彭晖 ,史忠植 ,常亮 . 中国人工智能学会第12届全国学术年会 . 2007
7. 基于知网语义相似度的中文文本聚类方法研究 [A] . 许君宁 . 2010

基于语义相似度的群智能文本聚类方法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅