首页> 中文学位 >基于粗糙集的文本自动分类研究
【6h】

基于粗糙集的文本自动分类研究

代理获取

目录

摘要

第一章绪论

第二章文本分类和粗糙集

第三章中文分词处理

第四章基于粗糙集的文本分类和文本聚类

第五章总结

参考文献

致谢

附录A攻读学位期间所发表的学术论文

展开▼

摘要

随着互联网技术的迅速发展,网络已经成为人们进行信息交互和处理的有效平台,各种以文本形式表示的信息以极高的速度增长,如何能够有效地组织和分析海量的Web信息资源,使人们能够按照内容实现对文本的自动分类,帮助用户迅速地获取其所需要的知识和信息,是计算机科学领域目前的研究热点之一,且具有广泛的应用背景和实用价值。 粗糙集理论是由波兰科学家Z.Pawlak在1982年提出的一种处理含糊和不精确问题的新型数学工具。它不需要任何行先验信息,能够有效分析和处理不完备、不一致、不精确的数据。自该理论90年代被引入到机器学习、人工智能等领域后,已经在知识获取、规则提取、决策分析、模式识别、数据挖掘等领域获得广泛的应用。本文结合粗糙集理论对文本分类进行了研究,主要进行了以下工作: 1、对中文文本进行分类的一个前提条件是对中文文本进行分词处理,中文分词也是进行中文信息处理的一个难点。针对这一现状,本文在已有的分词方法基础上,设计了一种快速分词算法。该方法考虑到了对歧义词的处理,并将分词和特征集缩减结合在一起,从而增强了分词准确度,减少了特征缩减过程,降低了时间复杂度; 2、采用了文本分类中新的特征权重算法,考虑了特征项的类内和类间分布。 3、改进了一种粗糙集决策表的值约简算法,并将其应用到文本分类规则的提取中。 首先将每一文本的每个特征项的权值进行离散化处理,然后通过粗糙集约简提取出文本的分类规则。其生成的规则属性较少,分类准确度较高。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号