首页> 中文学位 >支持向量机及用于文本分类的研究
【6h】

支持向量机及用于文本分类的研究

代理获取

目录

文摘

英文文摘

独创性声明及关于论文使用授权的说明

第1章绪论

第2章文本分类的技术

第3章SVM理论

第4章基于减法聚类的支持向量机

第五章基于SVM的文本分类

参考文献

硕士在学期间发表的论文及专业书籍

致 谢

展开▼

摘要

近年来,随着网络的迅猛发展,如何对网络上大量的自然语言文本按照既定的语义进行正确的归类,已经成为组织大量网络信息的一个关键问题。这就是文本分类的任务。电子文本成几何级数增长,日常生活中海量信息的传播,迫切的要求我们能对这些文章进行自动分类。使用文本自动分类系统可以帮助人们自动检查文本,判断文本的类别。 本文采用最大间隔—支持向量机的关键技术,实现了文本的自动分类。学习算法是通过对已给定类标记的训练文本的学习,自动产生分类规则,该规则在今后预测未知的文本的类别时,有较高的精确性。本文主要工作及创新点在于: 1.基于文本分类的技术的掌握,包括文本的表示方法,特征的选取以及文档分类的评估指标等。我们讨论并实现了文本表示的全过程,包括提取词干,去除高频率和低频率特征词,得到数据字典,然后经过权重计算,生成文本向量空间,即训练样本和测试样本数据。并采用SVM算法,设计出文本分类实验系统。通过在Ruters-21578文档集上的实验,该系统证明了SVM能切实有效的解决文本的自动分类问题。 2.在研究SVM算法的过程中,我们发现算法本身易过学习,并且训练时间很长。为了解决这些缺陷,我们提出了基于减法聚类的SVM算法。减法聚类是根据密度指标,选取聚类中心点,聚类中心点也为训练数据点本身。这样就达到减少训练数据个数的目的。我们用选取的聚类点作为新的训练集合,构建SVM。在两类和多类的标准数据集上的实验表示,该算法较之传统SVM有好的分类准确性和泛化能力,但是用于优化计算的时间却大大减少。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号