首页> 中文学位 >基于类别的特征选择算法的文本分类系统
【6h】

基于类别的特征选择算法的文本分类系统

代理获取

目录

文摘

英文文摘

第一章绪论

1.1问题提出

1.2本论文的研究内容

1.3本论文的结构安排

第二章涉及的知识基础

2.1文本分类概述

2.1.1分类方法概述

2.1.2文本表示与向量空间模型

2.1.3分类性能评价函数

2.2向量空间模型

2.2.1关于VSM的基本概念

2.2.2项的选择

2.2.3项的权重计算

2.2.4关于VSM的讨论

2.3支持向量机(SVM)分类方法

2.3.1支持向量机的原理

2.3.2 SVM分类器的评估与优化

2.3.3 SVM分类方法的应用

2.4 libsvm分类系统

2.5 Naive Bayes分类方法

第三章特征选择方法研究

3.1特征选择算法概述

3.2常用特征选择算法及评价

3.3一种新的基于类别的特征选择算法

3.4小结

第四章分类系统的设计与实现

4.1系统总体设计

4.1.1系统目标

4.1.2系统功能模块结构

4.2系统各主要模块设计与实现

4.2.1文本处理模块

4.2.2特征项提取模块

4.2.3构造分类器模块

4.2.4文本分类模块

4.2.5分类性能测试模块

第五章实验与分析

5.1实验数据

5.2实验结果及分析

5.2.1根据词的分辨力提取特征

5.2.2不同条件下的分类结果及性能分析

5.2.3分类效率分析

第六章结论与展望

6.1本文工作总结

6.2未来工作展望

致谢

参考文献

攻读硕士学位期间发表的论文

展开▼

摘要

文本自动分类技术是自然语言处理的一个重要的应用领域,是替代传统的繁杂人工分类方法的有效手段和必然趋势.特别是随着互联网技术的发展,网络成为人们进行信息交互和处理的有效的平台,各种数字化的信息每天以极高的速度增长.面对如此巨大的信息,人工分类选择已经无能为力,计算机自动分类己成为网络时代的必然选择.目前,对于文本分类技术的研究,大多数研究者的精力主要放在各种不同分类方法的探索与改进上.然而,文本分类中的特征选择(或称特征提取、索引词选择)一直是文本分类的关键技术和瓶颈技术.所以,对特征选择算法的研究是十分必要的.该论文对文本分类中所涉及的各项技术进行了较全面的阐述,特别对当前文本分类中各种常用特征选择算法的性能以及优缺点进行了分析.通过以上分析,作者发现目前的索引词选择算法都是基于词频的,没有利用训练样本中的类别信息.为此,作者提出了一种新的基于类别的特征选择方法,并以此为基础设计了一个英文文本自动分类系统.接着,论文根据不同特征选择阈值下的分类性能,确定了特征选择的初始阈值,并在该阈值下,对系统完成了不同实验条件下的、面向大规模真实文本的分类性能测试,包括:在开放测试和封闭测试下系统的性能;在不同原始特征空间维数下的分类性能;相同条件下与SVM和Naive Bayes分类器的分类性能比较.之后,论文对测试结果进行了理论分析,确定了基于类别的特征选择算法能够在一定程度上提高分类系统的性能.进一步地,论文通过与Naive Bayes分类器在相同条件下的训练分类时间对比,分析了该文设计的基于类别的特征选择算法以及实现的分类系统的效率.最后,该文通过对上述实现技术的阐述及其对实验结果的分析,提出了一些关于文本分类及特征选择方法研究的见解,并对今后的研究工作进行了展望.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号