首页> 中文学位 >增量式SVM的Web文本分类研究
【6h】

增量式SVM的Web文本分类研究

代理获取

摘要

文本特征向量存在相关性大,维数高的特点。支持向量机对于特征相关性问题不敏感,处理高维度问题具有较大优势。Web上不但存在海量文本信息,而且更新速度很快。经典支持向量机难以有效处理大规模并且实时更新的训练集,因此进行有效的基于支持向量机的Web文本增量学习具有重要的实际价值。
   现有的基于支持向量机的增量式Web文本分类算法主要存在下列问题:(1)由于缺乏对整个训练集期望风险的控制,算法易于对训练集产生过量匹配,同时随着增量学习的进行,容易导致支持向量冗余;(2)随着增量训练集的不断加入,可能导致支持向量机的不平衡分类问题;(3)支持向量机主要是针对两类分类问题,然而Web文本分类的实际应用,需要解决多类分类问题,因此如何高效的将两类分类问题推广到多类分类问题成为一个亟待解决的问题。本文贡献如下:
   (1)提出了一种基于支持向量机的Web文本的快速增量分类的FVI.SVM算法。将增量训练集中不违反KKT条件的Web文本特征向量剪除,克服了Web文本训练集规模巨大,造成支持向量机训练效率低的缺点。通过计算支持向量集的共享最近邻相似度,去除冗余支持向量,克服了在增量学习过程中,不断加入新文本特征向量而导致增量学习的训练时间消耗加大,分类效率下降的问题。实验结果表明与经典增量支持向量机相比,其分类精度保持在89%,而其分类器的训练和分类效率提高了一倍。
   (2)提出了增量式类加权支持向量机的不均衡Web文本分类的PW-SVM算法。增量训练集中,违背KKT条件的文本特征向量将被加入当前训练集。然而,加入新的Web文本特征向量可能导致不平衡分类问题。针对这个问题,提出对于不同类别的Web文本特征向量加以不同类别权值,并通过粒子群算法确定该权值,以克服不同类别的文本特征向量数目差异而对分类产生的不利影响。实验结果表明在不均衡训练集下,PW-SVM算法精度在85.3%-92.1%之间,而采用经典支持向量机的分类精度仅为53.8-62.9%。
   (3)提出了基于DBSCAN和决策树的多类Web文本分类的DD-SVM算法。针对二叉树的多类支持向量机的Web文本分类算法中,基于类间距离的二叉树生成算法没有充分考虑类内分布的影响,导致“误差积累”现象,提出了一种兼顾类间距离和类内分布的相似性度量方法,以构建更加合理的二叉树。实验结果表明在多类Web文本分类中,通过该相似度度量方法形成的基于二叉树的多类支持向量机的分类精度提高了10%左右。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号