基于语义的中文文本自动分类系统的研究与实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

互联网的飞速发展导致了网络中的文本数据也随之迅速增长，因此如何高效处理这些文本信息成为一个重要的研究课题。而文本自动分类技术作为文本信息处理中的一个重要环节引起了人们的广泛关注。文本分类能够处理大量的文本，可以在较大程度上解决信息紊乱的现状，方便用户准确地定位所需要的信息。文本分类作为信息检索、信息过滤、搜索引擎、文本数据库、数字化图书馆等领域的技术基础，有着广泛的应用前景。
　　文本分类的首要问题是文本数据的数学表示模型。目前多数文本分类方法都是以向量空间模型为基础的。这种文本表示方法比较简单，但却引发了向量空间的高维性和稀疏性问题，这使得文本分类具有相当高的时间复杂度；同时向量空间模型忽略了特征项之间的语义相关性，这就导致大量语义信息的丢失，使得到的特征向量不能很好地代表文本内容；最后，基于向量空间模型的文本分类方法都没有很好地解决文本数据所特有的两个自然语言问题：同义词和相关词。所有这些问题都极大地干扰了文本分类的效率和准确性，使文本分类的性能下降。
　　为了解决上述问题，本文将语义词典引入到文本分类领域。使用《哈工大信息检索研究室同义词词林扩展版》(简称《同义词词林》)将向量空间模型中基于词的特征项进行语义分析，使用同义词或相关词集合概念代替单个词条，将传统向量空间模型中的特征项由词映射为代表深层次语义的概念，从而将原始的基于词的向量空间模型映射为基于语义概念的向量空间模型。对基于上述语义概念向量空间模型的中文文本分类进行了深入研究，然后运用软件工程的一般理论，设计并实现了基于语义概念向量空间模型的中文文本分类原型系统。最后通过实验对训练过程中产生的基于词的向量空间模型和经过《同义词词林》进行语义映射之后产生的语义概念向量空间模型进行了维度比较；并且对语义映射前后产生的特征项集合进行了比较研究。实验证明，基于语义概念的向量空间模型能够有效地解决向量空间的高维稀疏性和同义词、相关词问题。

著录项

作者
马扬;
展开▼
作者单位

重庆大学;

展开▼
授予单位重庆大学;
学科计算机软件与理论(软件工程)
授予学位硕士
导师姓名傅鹂;
年度 2009
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字处理软件;
关键词
自动分类系统; 中文文本分类; 向量空间模型; 语义相关性;

相似文献

中文文献
外文文献
专利

1. 基于Rough集约简算法的中文文本自动分类系统 [J] . 盛晓炜 ,江铭虎 . 电子与信息学报 . 2005,第007期
2. 一个基于向量空间模型的中文文本自动分类系统 [J] . 朱华宇 ,孙正兴 ,张福炎 . 计算机工程 . 2001,第002期
3. 基于字频向量的中文文本自动分类系统 [J] . 王梦云 ,曹素青 . 情报学报 . 2000,第006期
4. 基于汉字字频向量的中文文本自动分类系统 [J] . 曹素丽 ,曾伏虎 ,曹焕光 . 山西大学学报（自然科学版） . 1999,第002期
5. 基于语义相似度计算的词汇语义自动分类系统 [J] . 李杰 ,曹谢东 ,余飞 . 计算机仿真 . 2008,第008期
6. 一种基于EP的中文文本自动分类算法 [C] . 许红涛 ,范明 ,昝红英 . 2005第一届中国分类技术与应用研讨会（CSCA） . 2005
7. 中文文本自动分类的研究与实现 [A] . 龚云华 . 2005

基于语义的中文文本自动分类系统的研究与实现

目录

摘要

著录项

相似文献

相关主题

期刊订阅