首页> 中文会议>第二十三届中国数据库学术会议(NDBC2006) >一种基于SVM的主动学习文本分类方法

一种基于SVM的主动学习文本分类方法

摘要

文本分类指在给定类别体系下,根据文本内容自动确定文本所属类别.目前流行的分类方法是SVM(Support Vector Machine,支持向量机),为取得较高的分类性能,避免遗漏具有代表性的样本,通常的做法是使用尽可能多的训练样本.可是完备的训练文本库不仅面临着数量和权威性问题,还面临着时效性问题.比如Web新闻栏目,通过文本自动分类为政治、体育、军事等类别,反映这些类别的代表性样本每天都在变化,这就需要定期选用新样本更新分类器.传统的方法是人工选择新样本并标注其类别,加入训练集重新训练分类器,这样需要投入大量的人力和时间,效率低下. 如果使用已有的分类器自动选择新样本更新自己,则能节省大量的人力,这就是主动学习.本文研究了已有的主动学习方法并对其进行改进,提出了一种新的主动学习方法,很好地解决了小规模标注样本集的分类问题,提高了训练速度,增强了文本分类的智能化程度。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号