首页> 中国专利> 一种基于图文线性组合的多模态预训练方法

一种基于图文线性组合的多模态预训练方法

摘要

一种基于图文线性组合的多模态预训练方法,属于图文多模态检索技术领域,包括以下步骤:S1:对文本和图像分别进行特征提取;S2:在交互层建立文本和图像两种模态间的联系;S2.1:将S1中得到的视觉模态和语言模态的特征向量联合输入到多模态预训练模型的交互层中;S2.2:利用Transformer中的注意力机制,让两种模态相互之间产生联系;S3:将图文匹配或屏蔽语言模型作为预训练目标,将模型训练至可用;S4:将具体的应用场景和下游任务作为训练目标,对所述预训练模型进行微调训练,将模型的性能在该场景下达到最优。本申请的训练方法解决了模型运算时间的瓶颈问题和改良预训练模型微调后性能问题,具有较为重要的科学意义和实际应用价值。

著录项

  • 公开/公告号CN114298158A

    专利类型发明专利

  • 公开/公告日2022-04-08

    原文格式PDF

  • 申请/专利权人 湖南工业大学;

    申请/专利号CN202111480214.X

  • 申请日2021-12-06

  • 分类号G06K9/62(20220101);G06N3/04(20060101);G06N3/08(20060101);G06F40/284(20200101);G06V10/46(20220101);G06V10/764(20220101);G06V10/774(20220101);

  • 代理机构44102 广州粤高专利商标代理有限公司;

  • 代理人刘翔

  • 地址 412000 湖南省株洲市天元区泰山路88号

  • 入库时间 2023-06-19 14:48:21

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-04-08

    公开

    发明专利申请公布

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号