基于知网语义相似度的中文文本聚类方法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

当前人们正处于一个“信息爆炸”的时代。在线信息日益增多，其中包括新闻、电子杂志、电子邮件、技术报告、文档以及网上图书馆等等，很大一部分信息属于非结构化或半结构化的。面对网上海量的半结构化或非结构的文本信息，如何快速高效的进行分类组织管理，为用户准确提供有用信息，是所有信息工作者和研究人员迫切希望解决的问题。如何在没有分类指导的情况下对自由文档进行分类并标识，为越来越多的研究人员所关注。
　　本文在对中文文本聚类现状研究的基础上，对中文文本聚类的关键技术进行了归纳性总结，其中包括文本自动分词、特征选取、特征重构、文本表示、文本间的相似性度量及聚类算法。分析了几种用于文本聚类的特征选取方法及其对聚类性能的影响；介绍了几种中文文本表示模型及聚类方法并指出其不足，重点分析了聚类中最常用的算法，以及各种算法对聚类结果的影响。
　　针对中文文本处理面临的模型表示及语义关联的难题，本文着重从语义上分析文本。首先采用了词性过滤进行文本预处理的方法，删减了大部分无用的或对分类贡献不大的特征，其次通过特征语义聚类使得文本特征集更能体现文本的语义内涵，再根据词语频率TF(term frequency)和词语倒排文档频率IDF(inversedocument frequency)选择文档的特征集，使得特征集更具有分类功能，经过以上三层处理之后，得到本文中高效低维的特征集，加快了聚类的速度并提高了聚类精度。建立了一种基于语义特征并体现特征分类强度的文本表示模型，将文档表示为一组特征词集合，利用特征词间的语义相似度计算文本间的相似度。这样真正从语义上具体分析文本之间的相似度，使结果更接近人的主观衡量，且能够将文本间的相似度量化，更利于计算机识别处理。基于这种文本表示模型，构建了基于知网语义相似度的聚类模型。最后用程序实现了该聚类算法，通过实验分析证明了本文提出的聚类方法的有效性。

著录项

作者
许君宁;
展开▼
作者单位

西安电子科技大学;

展开▼
授予单位西安电子科技大学;
学科情报学
授予学位硕士
导师姓名刘怀亮;
年度 2010
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP311.13;TP393.09;
关键词
聚类方法; 特征抽取; 语义相似度; 文本模型; 文本预处理;

相似文献

中文文献
外文文献
专利

1. 中文词语语义相似度计算——基于《知网》2000 [J] . 李峰 ,李芳 . 中文信息学报 . 2007,第003期
2. 基于知网的词汇语义相似度计算方法研究 [J] . 葛斌 ,李芳芳 ,郭丝路 . 计算机应用研究 . 2010,第009期
3. 基于知网语义相似度计算的特征降维方法研究 [J] . 唐歆瑜 ,乐文忠 ,李志成 . 科学技术与工程 . 2006,第021期
4. 基于潜在语义分析的中文文本聚类方法研究 [J] . 李华云 . 科技情报开发与经济 . 2008,第027期
5. 基于文本聚类和概念相似度的语义Web服务发现 [J] . 刘一松 ,杨玉成 . 计算机科学 . 2013,第011期
6. 引入领域知识的基于《知网》词语语义相似度计算 [C] . Xinyuan Feng ,冯新元 ,Jianguo Wei . 第十二届全国人机语言通讯学术会议（NCMMSC`2013） . 2013
7. 基于知网语义的Web中文文本聚类方法研究 [A] . 叶宇飞 . 2013

基于知网语义相似度的中文文本聚类方法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅