首页> 中文期刊>西北民族大学学报(自然科学版) >基于深度学习模型的非结构化数据标注方法研究

基于深度学习模型的非结构化数据标注方法研究

     

摘要

大型的、标记密集的数据集是利用大量在线论坛中发现的非结构化数据有效促进文本和图像分析的深度学习方法的创建.虽然这种非结构化数据包比租用的数据注释包花费更低,但它也更容易陷入自然语言应答的陷阱,因为数据的非结构化特性会使回答者可能无法正确回答所提的问题.为了解决这些问题,提出一种深度学习的方法来系统地识别混淆,并从Instagram收集的非结构化数据包注释的数据中提取答案.每个注释数据包含一个图像、一个机器生成的问题和一个非结构化数据包响应.本文使用一个基于Facebook人工智能研究的Pythia体系结构模型:(1)用R-CNN模型来识别突出的特征(自下而上);(2)问题文本用作上下文来衡量这些特征(自上而下).使用基于伯特BERT的分类器来重复训练来自问题和响应的文本特征(不包括图像特征)等任务.结果显示:基于伯特BERT模型(分类AUC-ROC=0.84,应答预测F1=0.77)优于Pythia体系结构(分类AUC-ROC=0.79,应答预测F1=0.46).此外,还提出了一种基于BERT的多任务并行训练模型(1)和(2)能够优于特定任务模型(分类AUC-ROC=0.84,应答预测F1=0.78).

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号