首页> 中文期刊> 《信息工程大学学报》 >基于LOTClass模型的弱监督中文短文本分类算法

基于LOTClass模型的弱监督中文短文本分类算法

         

摘要

基于全监督学习的文本分类算法需要使用大量的标签数据,而文本数据的标注任务耗时耗力且标注难度较大.针对上述问题,提出了一种基于LOTClass模型的弱监督中文短文本分类算法.首先,使用少量的标签数据构建类别种子词表;其次,使用类别种子词表指导训练中文伪标签生成模型,并使用该模型生成大量伪标签数据;最后,利用优质伪标签数据训练一个中文短文本分类模型.在THUCNews新闻标题数据集和论文标题数据集上进行实验,结果表明,该算法在仅使用少量标签数据的情况下,其性能优于主流的半监督分类算法,同时不逊于一般的全监督分类算法,为无标签数据分类任务提供了一种较好的解决方案.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号