增量式SVM的Web文本分类研究

代理获取

页面导航

摘要
著录项
相似文献
相关主题

摘要

文本特征向量存在相关性大,维数高的特点。支持向量机对于特征相关性问题不敏感,处理高维度问题具有较大优势。Web上不但存在海量文本信息,而且更新速度很快。经典支持向量机难以有效处理大规模并且实时更新的训练集,因此进行有效的基于支持向量机的Web文本增量学习具有重要的实际价值。
　　现有的基于支持向量机的增量式Web文本分类算法主要存在下列问题:(1)由于缺乏对整个训练集期望风险的控制,算法易于对训练集产生过量匹配,同时随着增量学习的进行,容易导致支持向量冗余;(2)随着增量训练集的不断加入,可能导致支持向量机的不平衡分类问题;(3)支持向量机主要是针对两类分类问题,然而Web文本分类的实际应用,需要解决多类分类问题,因此如何高效的将两类分类问题推广到多类分类问题成为一个亟待解决的问题。本文贡献如下:
　　 (1)提出了一种基于支持向量机的Web文本的快速增量分类的FVI.SVM算法。将增量训练集中不违反KKT条件的Web文本特征向量剪除,克服了Web文本训练集规模巨大,造成支持向量机训练效率低的缺点。通过计算支持向量集的共享最近邻相似度,去除冗余支持向量,克服了在增量学习过程中,不断加入新文本特征向量而导致增量学习的训练时间消耗加大,分类效率下降的问题。实验结果表明与经典增量支持向量机相比,其分类精度保持在89%,而其分类器的训练和分类效率提高了一倍。
　　 (2)提出了增量式类加权支持向量机的不均衡Web文本分类的PW-SVM算法。增量训练集中,违背KKT条件的文本特征向量将被加入当前训练集。然而,加入新的Web文本特征向量可能导致不平衡分类问题。针对这个问题,提出对于不同类别的Web文本特征向量加以不同类别权值,并通过粒子群算法确定该权值,以克服不同类别的文本特征向量数目差异而对分类产生的不利影响。实验结果表明在不均衡训练集下,PW-SVM算法精度在85.3%-92.1%之间,而采用经典支持向量机的分类精度仅为53.8-62.9%。
　　 (3)提出了基于DBSCAN和决策树的多类Web文本分类的DD-SVM算法。针对二叉树的多类支持向量机的Web文本分类算法中,基于类间距离的二叉树生成算法没有充分考虑类内分布的影响,导致“误差积累”现象,提出了一种兼顾类间距离和类内分布的相似性度量方法,以构建更加合理的二叉树。实验结果表明在多类Web文本分类中,通过该相似度度量方法形成的基于二叉树的多类支持向量机的分类精度提高了10%左右。

著录项

作者
丁文军;
展开▼
作者单位

江苏大学;

展开▼
授予单位江苏大学;
学科计算机应用技术
授予学位硕士
导师姓名薛安荣;
年度 2012
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;自动推理、机器学习;
关键词
Web文本分类; 增量学习; KKT条件; 加权支持向量机;

相似文献

中文文献
外文文献
专利

1. 基于二叉树的多类SVM在Web文本分类中的应用研究 [J] . 古丽娜孜 ,孙铁利 . 新疆大学学报（自然科学版） . 2011,第001期
2. 朴素贝叶斯算法和SVM算法在Web文本分类中的效率分析 [J] . 詹毅 . 成都大学学报（自然科学版） . 2013,第001期
3. 一种改进的SVM决策树Web文本分类算法 [J] . 徐丽 ,伏玉琛 ,李斯 . 苏州大学学报（工科版） . 2011,第005期
4. 一种新的基于SVM-KNN的Web文本分类算法 [J] . 曹建芳 ,王鸿斌 . 计算机与数字工程 . 2010,第004期
5. 基于SVM的Web文本分类 [J] . 韩毅 ,周晏 . 科技信息 . 2009,第017期
6. 一种增量式支持向量机文本分类模型 [C] . 栾江 ,唐常杰 ,黄晓冬 . 第二十届全国数据库学术会议 . 2003
7. 基于SVM的WEB中文文本分类系统研究与实现 [A] . 刘佳 . 2014

增量式SVM的Web文本分类研究

摘要

著录项

相似文献

相关主题

期刊订阅