首页> 中文学位 >文本特征降维与分类规则抽取方法研究与应用
【6h】

文本特征降维与分类规则抽取方法研究与应用

代理获取

目录

文摘

英文文摘

声明

1绪论

1.1问题的提出及意义

1.2国内外研究现状

1.3本文的工作

1.4论文的组织

2文本分类概述

2.1文本分类特点介绍

2.2文档表示模型

2.3文档特征表示

2.4特征降维方法

2.5文本分类方法介绍

2.5.1统计方法

2.5.2规则方法

3文本特征降维

3.1 已有的特征降维方法介绍

3.1.1特征选择

3.1.2特征抽取

3.2模式聚合理论

3.3粗糙集属性约简理论

3.4改进的特征降维方法

3.4.1改进的CHI值计算

3.4.2基于模式聚合理论的文本特征抽取

3.4.3特征降维算法整体流程

4文本分类规则抽取

4.1分类规则抽取原理

4.2常用的分类规则抽取方法及其比较

4.2.1分类规则发现步骤

4.2.2常用分类规则发现方法

4.3粗糙集值约简方法

4.4值约简方法用于文本规则抽取

5实验与结果分析

5.1分类评价指标

5.2实验

5.3 应用

5.4结果分析

结 论

参考文献

攻读硕士学位期间发表学术论文情况

致谢

展开▼

摘要

随着信息量爆炸性的增长,人们很难从大量的信息中迅速有效的提取出所需信息,出现所谓的“信息迷向”的现象。如果计算机能够在信息的辨识和处理方面,对用户提供适当的支持和帮助,那将能够极大的改善目前用户面临的困境和提高信息使用效率。而大部分信息都是以文本的形式存在的。因此,文本分类的问题成为近期的研究热点。 本文从文本分类的具体的每个工作环节出发,研究了文本分类的各个具体环节。首先,从特征降维方面,针对传统的特征权值计算的不足,针对特征与文本之间的实际相关度,在传统的CHI值计算方法基础上添加了正负相关度的因子,将特征与文本的正负相关度得到很好的体现。然后,针对传统特征降维阶段只采用单一的特征选择或者特征抽取,本文采用的特征降维方法,综合了特征抽取和特征选择两个过程。首先采用模式聚合理论进行特征抽取,将对文本分类具有相似贡献的特征合并,映射为新的特征空间。在此基础上,将文本表示为粗糙集的决策表模型,采用粗糙集的属性约简算法进行特征选择,即文本特征的进一步降维,从而得到对于每篇文档的最终的特征表示集。然后采用粗糙集的值约简算法来进行文本分类规则的抽取,从而得到最终的文本分类规则。在得到分类规则后,对于测试文档,采用规则匹配的方法进行分类测试,从而判断出该文本文章所属类别,得到对文本分类的目的。本文从公用文本数据集抽取一部分数据进行实验,从最终特征维数、规则长度、分类准确率和召回率等各个评价指标对本文给出的分类规则抽取方法进行评价。 实验所得的较高的分类准确率和召回率证明本文给出的方法是有效的,并将该分类规则抽取方法应用到公安局案例文本数据库的分类汇总中,取得较理想的效果。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号