基于深度学习模型的非结构化数据标注方法研究

普措才仁; 秦亚红

首页> 中文期刊>西北民族大学学报（自然科学版） >基于深度学习模型的非结构化数据标注方法研究

基于深度学习模型的非结构化数据标注方法研究

开具论文收录证明 >>

期刊封面封底目录下载 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

大型的、标记密集的数据集是利用大量在线论坛中发现的非结构化数据有效促进文本和图像分析的深度学习方法的创建.虽然这种非结构化数据包比租用的数据注释包花费更低,但它也更容易陷入自然语言应答的陷阱,因为数据的非结构化特性会使回答者可能无法正确回答所提的问题.为了解决这些问题,提出一种深度学习的方法来系统地识别混淆,并从Instagram收集的非结构化数据包注释的数据中提取答案.每个注释数据包含一个图像、一个机器生成的问题和一个非结构化数据包响应.本文使用一个基于Facebook人工智能研究的Pythia体系结构模型:(1)用R-CNN模型来识别突出的特征(自下而上);(2)问题文本用作上下文来衡量这些特征(自上而下).使用基于伯特BERT的分类器来重复训练来自问题和响应的文本特征(不包括图像特征)等任务.结果显示:基于伯特BERT模型(分类AUC-ROC=0.84,应答预测F1=0.77)优于Pythia体系结构(分类AUC-ROC=0.79,应答预测F1=0.46).此外,还提出了一种基于BERT的多任务并行训练模型(1)和(2)能够优于特定任务模型(分类AUC-ROC=0.84,应答预测F1=0.78).

著录项

来源
《西北民族大学学报（自然科学版）》|2020年第2期|14-1944|共7页
作者
普措才仁; 秦亚红;
展开▼
作者单位

西北民族大学数学与计算机科学学院甘肃兰州730030;

西北民族大学数学与计算机科学学院甘肃兰州730030;

展开▼
原文格式 PDF
正文语种 chi
中图分类文字信息处理;
关键词
Instagram; Pythia体系结构; 数据包; 深度学习; Facebook;
入库时间 2022-08-19 05:36:51

相似文献

中文文献
外文文献
专利

1. 基于词向量和深度学习模型的医疗数据分析方法研究 [J] . 金玮 ,左嵩 ,许健 . 微型电脑应用 . 2021,第005期
2. 基于三调水域数据的深度学习模型训练方法研究 [J] . 陈志达 ,林川 ,曹昌磊 . 浙江测绘 . 2021,第002期
3. 基于多通道卷积神经网络的非结构化数据标注 [J] . 米启超 ,赵红梅 ,林丽萍 . 计算机仿真 . 2021,第006期
4. 基于深度学习网络的星表非结构化岩石目标辨识方法研究 [J] . 黄璐 ,毛晓艳 ,杜航 . 空间控制技术与应用 . 2021,第6期
5. 基于RDU-Net深度学习模型的电力基础设施提取方法研究 [J] . 韩吉军 ,鲁燿 ,邸伟 . 建模与仿真 . 2021,第002期
6. 基于深度学习模型的多标签图像自动标注 [C] . LI Jian-Cheng ,黎健成 ,YUAN Chun . 第十一届和谐人机环境联合会议 . 2015
7. 基于深度学习模型的CCG超标注 [A] . REKIA KADARI . 2018

基于深度学习模型的非结构化数据标注方法研究

摘要

著录项

相似文献

相关主题

期刊订阅