首页> 中文学位 >基于支持向量机的新闻自动分类技术的研究与应用
【6h】

基于支持向量机的新闻自动分类技术的研究与应用

代理获取

目录

文摘

英文文摘

第一章 绪论

1.1 文本分类研究的概述

1.2 研究现状

1.2.1 概率方法

1.2.2 基于实例的分类器

1.2.3 支持向量机(support vector machines)

1.2.4 分类委员会(classifier committees)

1.2.5 其他常用分类方法

1.3 课题来源与主要研究内容

1.4 本文组织结构

第二章 支持向量机理论

2.1 统计学习理论

2.1.1 机器学习问题的表示

2.1.2 经验风险最小化

2.1.3 VC维

2.1.4 泛化性能的上界

2.1.5 结构风险最小化

2.2 支持向量分类理论

2.2.1 最优分割超平面

2.2.2 解的稀疏性

2.2.3 不可分情况下的扩展

2.2.4 最优超平面和SRM

2.2.5 推广到高维特征空间

2.3 支持向量分类的实现细节

2.3.1 实现技术

2.3.2 门限

2.3.3 概率解

2.3.4 推广到多类分类

2.3.5 层次化分类

2.3.6 分类评价标准

2.4 小结

第三章 支持新闻自动分类的关键算法设计

3.1 基于双词典的改进型双向最大匹配算法

3.1.1 基础算法选取

3.1.2 算法原理

3.1.3 算法设计

3.1.4 实验和性能评价

3.2 基于动态表的停用词消除算法

3.2.1 算法原理与设计

3.2.2 实验和性能评价

3.3 基于改进型多项式核的SVM多类分类算法

3.3.1 算法原理

3.3.2 算法设计

3.3.3 实验和性能评价

3.4 小结

第四章 新闻自动分类系统的设计与实现

4.1 总体设计

4.1.1 训练样本收集模块设计

4.1.2 分类预处理模块设计

4.1.3 SVM分类器模块设计

4.2 系统实现

4.2.1 训练样本收集模块的实现

4.2.2 分类预处理模块的实现

4.2.3 SVM分类器模块的实现

4.3 小结

第五章 结论

5.1 系统总体评价

5.2 总结

5.3 未来工作

参考文献

致谢

展开▼

摘要

随着网络信息的迅猛发展,信息处理已经成为人们获取有用信息不可缺少的工具,文本自动分类系统是信息处理的重要研究方向,它是指在给定的分类体系下,根据文本的内容自动判别文本类别的过程。利用文本自动分类技术,可以快速地处理大规模的文本数据,大大地提高信息的可用性和利用率。目前,文本分类系统大多采用统计和机器学习的方法,这类方法在语义的水平上来分析文本内容,判断其相似度,从而得到类别划分。
   本文在对文本分类理论了解的基础上,对基于统计学习理论的支持向量机理论进行了深入的研究和探讨,然后提出了基于双词典的改进型双向最大匹配算法和基于动态表的停用词消除算法,这两个算法有效地提高了文本预处理的正确率,去掉了绝大多数无用的词项,使得表达文档特征的向量更准确。通过在文本预处理阶段提高预处理结果的准确性,尽量减少能够影响分类精度的文档噪声,提高SVM分类器输入的准确性,使得SVM分类器能够得到尽可能准确的结果。
   本文还提出了基于改进型多项式核的SVM多类分类算法,该算法比较好地解决了多类文本分类的问题,同时有效地利用了人工添加的类别,在较少的时间内可以完成整个训练和分类工作。最后结合这三个算法完整地设计和实现了一个新闻自动分类系统,并给出了评估方法和实验结果。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号