首页> 中文学位 >增量式中文文本分类算法研究与实现
【6h】

增量式中文文本分类算法研究与实现

代理获取

目录

文摘

英文文摘

学位论文独创性声明及学位论文使用授权声明

第一章绪论

1.1文本自动分类研究的背景和意义

1.2文本自动分类的定义

1.3文本自动分类研究现状

1.4中文文本自动分类技术简介

1.5文本自动分类的性能评价

1.6本文的主要工作

第二章文本的表示

2.1向量空间模型的基本概念

2.2特征项的选择

2.3项的权重计算

2.4关于VSM的讨论

第三章文本特征提取

3.1特征项获取

3.1.1汉语自动分词

3.1.2 n元模型

3.2特征选择方法

3.2.1特征选择方法

3.2.2关于特征选择的讨论

第四章基于支持向量机的分类算法研究

4.1统计学习理论

4.1.1经验风险最小化原理

4.1.2 VC维和推广性的界

4.1.3结构风险最小化原理

4.2支持向量机

4.3 SVM应用于文本分类的改进

4.4增量式SVM文本分类算法

4.4.1 Karush-Kuhn-Tucker条件

4.4.2 SV的特点分析

4.4.3增量学习算法

第五章Bayes文本分类算法研究

5.1Naive Bayes文本分类算法

5.2 Naive Bayes文本分类算法的改进

5.3增量式Bayes文本分类算法

5.3.1 Bayes增量学习模型

5.3.2增量式Bayes文本分类

5.3.3相关讨论

第六章中文文本自动分类原型系统的实现及实验分析

6.1系统的体系结构

6.2系统的实现

6.3实验结果与性能分析

6.3.1特征选择方法测试

6.3.2增量式Bayes分类器训练实验

第七章结束语

参考文献

附录一读研期间参与项目情况

附录二读研期间发表论文情况

附录三读研期间获奖情况

致谢

展开▼

摘要

文本自动分类是指根据文本内容自动确定文本类别的过程.其目的是为信息检索提供更高效的搜索策略和更准确的查询结果.随着网络信息的快速增长,文本自动分类技术的研究对于网上信息搜索具有重要的意义.该论文对中文文本自动分类技术作了系统论述,介绍了用于文本表示的向量空间模型、文本特征获取方法,较深入地讨论了基于支持向量机(SVM)的文本分类算法和Bayes文本分类算法.从提高训练速度,减少存储空间,充分利用历史信息的角度提出了增量式SVM文本分类算法.针对难以获得大量有类标签的训练集问题,提出了增量式Bayes文本分类算法.设计并实现了中文文本自动分类原型系统,对有关中文文本分类算法的有效性进行了验证分析.文章详细分析了文档频率DF、信息增益IG、CHI统计和互信息MI的优缺点,提出了将文档频率DF和其它三种特征选择相结合的组合特征选择方法,实验结果表明组合的特征选择方法显著地提高了分类的精度.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号