文本特征降维与分类规则抽取方法研究与应用

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着信息量爆炸性的增长，人们很难从大量的信息中迅速有效的提取出所需信息，出现所谓的“信息迷向”的现象。如果计算机能够在信息的辨识和处理方面，对用户提供适当的支持和帮助，那将能够极大的改善目前用户面临的困境和提高信息使用效率。而大部分信息都是以文本的形式存在的。因此，文本分类的问题成为近期的研究热点。本文从文本分类的具体的每个工作环节出发，研究了文本分类的各个具体环节。首先，从特征降维方面，针对传统的特征权值计算的不足，针对特征与文本之间的实际相关度，在传统的CHI值计算方法基础上添加了正负相关度的因子，将特征与文本的正负相关度得到很好的体现。然后，针对传统特征降维阶段只采用单一的特征选择或者特征抽取，本文采用的特征降维方法，综合了特征抽取和特征选择两个过程。首先采用模式聚合理论进行特征抽取，将对文本分类具有相似贡献的特征合并，映射为新的特征空间。在此基础上，将文本表示为粗糙集的决策表模型，采用粗糙集的属性约简算法进行特征选择，即文本特征的进一步降维，从而得到对于每篇文档的最终的特征表示集。然后采用粗糙集的值约简算法来进行文本分类规则的抽取，从而得到最终的文本分类规则。在得到分类规则后，对于测试文档，采用规则匹配的方法进行分类测试，从而判断出该文本文章所属类别，得到对文本分类的目的。本文从公用文本数据集抽取一部分数据进行实验，从最终特征维数、规则长度、分类准确率和召回率等各个评价指标对本文给出的分类规则抽取方法进行评价。实验所得的较高的分类准确率和召回率证明本文给出的方法是有效的，并将该分类规则抽取方法应用到公安局案例文本数据库的分类汇总中，取得较理想的效果。

著录项

作者
马文娟;
展开▼
作者单位

大连理工大学;

展开▼
授予单位大连理工大学;
学科计算机应用技术
授予学位硕士
导师姓名孟军;
年度 2007
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理 ;
关键词
文本分类; 特征降维; 规则抽取; 模式聚合; 粗糙集;

相似文献

中文文献
外文文献
专利

1. 基于模式聚合理论的文本特征降维方法及其在文本分类中的应用 [J] . 李冠军 ,陈雪松 ,徐建锁 . 北京理工大学学报 . 2005 ,第12期
2. 基于多种群协同优化的文本分类规则抽取方法 [J] . 刘赫 ,刘大有 ,裴志利 . 自动化学报 . 2009 ,第010期
3. 基于GA和信息熵的文本分类规则抽取方法 [J] . 邹国平 ,彭梅香 ,黄国兵 . 微计算机信息 . 2008 ,第027期
4. 基于遗传算法和信息熵的文本分类规则抽取方法研究 [J] . 唐华 ,曾碧卿 . 中山大学学报（自然科学版） . 2007 ,第005期
5. 一种基于CHI值特征选取的粗糙集文本分类规则抽取方法 [J] . 王明春 ,王正欧 ,张楷 . 计算机应用 . 2005 ,第005期
6. 中文文本分类中一种基于语义的特征降维方法 [C] . 胡涛 ,刘怀亮 . 《图书情报工作》杂志社、图书情报工作研究会第25次图书馆学情报学学术研讨会 . 2011
7. 文本分类中特征降维方法的研究与应用 [A] . 段丹丹 . 2020

文本特征降维与分类规则抽取方法研究与应用

目录

摘要

著录项

相似文献

相关主题

期刊订阅