首页> 中文期刊> 《数据采集与处理》 >MSDL-IEW:面向文本分类的密集度感知主动学习算法

MSDL-IEW:面向文本分类的密集度感知主动学习算法

         

摘要

为了解决文本分类任务中未标注数据无法即时标注及成本过高的问题,提出一种面向文本分类的不确定性主动学习方法.提出MSDL(Measure sample density by LDA)算法对未标注样本密集度进行计算,引入新的度量样本聚集情况的密集度计算方式,在密集度高的样本区域选取初始训练集样本,从而使初始训练集更具代表性;从未标注样本中选取更具不确定性的样本加入到训练集中,并基于信息熵对样本进行加权训练,迭代更新分类器模型,直至达到预期终止条件.实验结果表明,在文本分类任务中,该方法相较于其他传统主动学习算法性能更优.

著录项

  • 来源
    《数据采集与处理》 |2021年第2期|240-247|共8页
  • 作者单位

    南京理工大学计算机科学与工程学院 南京 210094;

    中电科大数据研究院有限公司 贵阳 550022;

    提升政府治理能力大数据应用技术国家工程实验室 贵阳 550022;

    南京供电公司 南京 210000;

    南京理工大学计算机科学与工程学院 南京 210094;

    中电科大数据研究院有限公司 贵阳 550022;

    提升政府治理能力大数据应用技术国家工程实验室 贵阳 550022;

    中电科大数据研究院有限公司 贵阳 550022;

    提升政府治理能力大数据应用技术国家工程实验室 贵阳 550022;

    中国电子科技网络信息安全有限公司 成都 610041;

    南京理工大学计算机科学与工程学院 南京 210094;

  • 原文格式 PDF
  • 正文语种 chi
  • 中图分类 信息处理(信息加工);
  • 关键词

    文本分类; 主动学习; 隐含狄利克雷分布; 不确定性; 密集度;

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号