首页> 中文学位 >基于类别概念的中文文本分类研究
【6h】

基于类别概念的中文文本分类研究

代理获取

目录

文摘

英文文摘

论文说明:符号说明

声明

第一章绪论

第二章文本分类技术

第三章基于类别概念的特征选择方法

第四章系统设计与实验结论

参考文献

致谢

攻读硕士学位期间承担的科研任务与主要成果

展开▼

摘要

网络技术的发展和Intemet的开放性使它逐步成为一个全方位的资源宝库,越来越多的信息通过互联网被传送到世界各地,互联网中也积聚了越来越多的信息,从发展的趋势来看,网络必将成为人们获取信息的主要来源。但互联网的组织杂乱,缺乏必要的条理,多且杂的信息使得人们从中获取自己感兴趣的内容变得越来越困难。 从大量的数据中挖掘出有用的信息是数据挖掘的任务。文本作为互联网上主要的信息载体,随着互联网的迅速发展,文本挖掘也成为数据挖掘的热点之一。文本分类技术是文本挖掘的基础和核心。 文本分类的方法包括人工分类和自动分类。传统的文本分类是基于人工方式的,这种方式缺点很多,如周期长、费用高、效率低、需要大量专业人员以及分类结果的一致性低等。20世纪90年代以后,基于机器学习的文本自动分类方法越来越成为主流。相比于人工方式,它具有周期短,效率高,节省人力资源,分类结果一致性高等优点。但文本自动分类研究开展以来,准确率一直不能达到令人满意的效果。在Intemet信息急剧膨胀的今天,为文本分类提供了广阔的发展空间,文本自动分类面临前所未有的机遇和挑战,如何提高分类准确率成为研究热点。 向量空间模型是文本自动分类应用最广泛的模型之一,以向量空间模型为基础,我们研究发现,对文本的合理向量表示是实现正确分类非常关键的前提,而传统分类方法中,特征选择算法各有优劣,选择出的特征不能很好地代表文本,这在很大程度上制约了文本分类的准确率。我们以此为出发点,分析特征项应当具备的条件,并提出了基于类别概念的特征选择方法。区别于传统的特征选择方法只考虑文本词语的外在形式的做法,它以分析词语的语义概念为主,并且考虑特征的类别信息,选取单类别指示意义强的特征项,建立特征窄间。 在实验中,我们对相同的数据集,在同一种分类算法上,对传统特征选择方法和我们提出的特征选择方法分别实验,实验数据表明我们的特征选择算法能够得到较高的准确率和召回率。

著录项

  • 作者

    王琳;

  • 作者单位

    北京邮电大学;

  • 授予单位 北京邮电大学;
  • 学科 电路与系统
  • 授予学位 硕士
  • 导师姓名 方勇;
  • 年度 2006
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP311.135.4;
  • 关键词

    文本分类; 向量空间模型; 类别概念;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号