首页> 中文期刊>计算机科学 >基于反事实思考的视觉问答方法

基于反事实思考的视觉问答方法

     

摘要

视觉问答是一项结合计算机视觉和自然语言处理的多模态任务,具有极大的挑战性。然而,目前的视觉问答模型存在着严重的语言偏见问题,对其鲁棒性有负面影响。以往的研究主要集中在利用生成反事实样本来辅助模型解决语言偏见。然而,这些研究忽略了分析反事实样本与原始样本的预测差异以及关键特征与非关键特征之间的两两差异。文中通过建立反事实思考流程,结合因果推理与对比学习,使模型能够区分原始样本、事实样本和反事实样本。基于此,提出了一种基于反事实样本的对比学习范式。通过对比3类样本对的特征差异和预测差异,减小了模型的语言偏见。在VQA-CP v2等数据集上的实验证明了所提方法的有效性。与CL-VQA方法相比,所提方法的整体精度提高了0.19%,平均精度提高了0.89%,尤其是Num精度提高了2.6%。相比CSSVQA方法,所提方法的鲁棒性辅助指标Gap从0.96提高到了0.45。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号