支持向量机及用于文本分类的研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

近年来，随着网络的迅猛发展，如何对网络上大量的自然语言文本按照既定的语义进行正确的归类，已经成为组织大量网络信息的一个关键问题。这就是文本分类的任务。电子文本成几何级数增长，日常生活中海量信息的传播，迫切的要求我们能对这些文章进行自动分类。使用文本自动分类系统可以帮助人们自动检查文本，判断文本的类别。本文采用最大间隔—支持向量机的关键技术，实现了文本的自动分类。学习算法是通过对已给定类标记的训练文本的学习，自动产生分类规则，该规则在今后预测未知的文本的类别时，有较高的精确性。本文主要工作及创新点在于： 1.基于文本分类的技术的掌握，包括文本的表示方法，特征的选取以及文档分类的评估指标等。我们讨论并实现了文本表示的全过程，包括提取词干，去除高频率和低频率特征词，得到数据字典，然后经过权重计算，生成文本向量空间，即训练样本和测试样本数据。并采用SVM算法，设计出文本分类实验系统。通过在Ruters-21578文档集上的实验，该系统证明了SVM能切实有效的解决文本的自动分类问题。 2.在研究SVM算法的过程中，我们发现算法本身易过学习，并且训练时间很长。为了解决这些缺陷，我们提出了基于减法聚类的SVM算法。减法聚类是根据密度指标，选取聚类中心点，聚类中心点也为训练数据点本身。这样就达到减少训练数据个数的目的。我们用选取的聚类点作为新的训练集合，构建SVM。在两类和多类的标准数据集上的实验表示，该算法较之传统SVM有好的分类准确性和泛化能力，但是用于优化计算的时间却大大减少。

著录项

作者
牛肖潇;
展开▼
作者单位

武汉理工大学;

展开▼
授予单位武汉理工大学;
学科计算机应用技术
授予学位硕士
导师姓名熊盛武;
年度 2006
页码
总页数
原文格式 PDF
正文语种中文
中图分类算法理论;
关键词
文本分类; 支持向量机技术; 最大间隔; 文本向量空间; 学习算法;

相似文献

中文文献
外文文献
专利

1. 基于线性支持向量机的文本分类应用研究 [J] . 杨锋 . 信息技术与信息化 . 2020,第003期
2. 文本分类中支持向量机研究 [J] . 何焱 . 河南科技 . 2019,第029期
3. 支持向量机在文本分类中的研究与应用 [J] . 张燕 ,姚志远 ,陈文社 . 电脑编程技巧与维护 . 2018,第008期
4. 基于双字耦合度支持向量机模型的中文文本分类技术研究 [J] . 李锐 . 机电工程技术 . 2017,第012期
5. 基于支持向量机和稀疏表示的文本分类研究 [J] . 刘国锋 . 计算机与数字工程 . 2017,第012期
6. 基于支持向量机的文本分类技术研究 [C] . 张锦 ,蒋海军 ,郑涛 . 第五届全国数字博物馆与文化自然遗产数字化及保护研讨会 . 2007
7. 基于支持向量机与神经网络的文本分类算法研究 [A] . 朱文峰 . 2019

支持向量机及用于文本分类的研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅