基于优化样本分布抽样集成学习的半监督文本分类方法研究

摘要

针对现有文本分类方法在即时性文本信息上的挑战,考虑到即时性文本信息具有已标注数据规模小的特点,为了提高半监督学习的分类性能,本文提出一种基于优化样本分布抽样集成学习的半监督文本分类方法.首先,通过运用一种新的样本抽样的优化策略,获取多个新的子分类器训练集,以增加训练集之间的多样性和减少噪声的扩散范围,从而提高分类器的总体泛化能力;然后,采用基于置信度相乘的投票机制对预测结果进行集成,对未标注数据进行标注;最后,选取出适量的数据来更新训练模型.实验结果表明,该方法在长文本和短文本上都取得了优于研究进展方法的分类性能.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号