一种新的seq2seq的可控图像字幕的生成方法

王源顺; 段迅; 吴云

首页> 中文期刊>计算机应用研究 >一种新的seq2seq的可控图像字幕的生成方法

一种新的seq2seq的可控图像字幕的生成方法

开具论文收录证明 >>

期刊封面封底目录下载 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

针对当前的图像字幕方法只能够用一种黑盒的、从外部难以控制的架构描述图像的问题.创造性地将图像字幕问题转换为seq2seq问题,达到了可控生成图像字幕的效果.设计一个由图像区域构成的实体集合或实体序列作为控制信号,在实体块切换的块哨兵和带视觉哨兵的自适应注意力机制的指导下,将控制信号有规律地输入到双层的长短期记忆网络(long short term memory,LSTM)中,以可控的方式指导模型生成对应的图像字幕;此外,baseline使用cross entropy loss来早停模型的训练,引入强化学习思想来解决训练时的优化目标与评估算法效果时指标不一致的问题,进一步优化模型效果.实验表明:在MSCOCO及Flickr30k数据集上,提出的算法在生成可控图像字幕、字幕质量、多样性上达到了非常好的效果.

著录项

来源
《计算机应用研究》|2021年第11期|3510-3516|共7页
作者
王源顺; 段迅; 吴云;
展开▼
作者单位

贵州大学计算机科学与技术学院贵阳550025;

贵州大学计算机科学与技术学院贵阳550025;

贵州大学计算机科学与技术学院贵阳550025;

展开▼
原文格式 PDF
正文语种 chi
中图分类模式识别与装置;
关键词
图像字幕; seq2seq; 控制信号; 哨兵机制; 自适应注意力机制;
入库时间 2023-07-24 18:55:22

相似文献

中文文献
外文文献
专利

1. 一种新的兼具自动性和可控性的地形生成方法 [J] . 李广鑫 ,丁振国 ,周利华 . 计算机科学 . 2005,第006期
2. 一种新的深度图像生成方法研究 [J] . 贾凯华 ,雷鸣 ,刘宝珠 . 卷宗 . 2015,第011期
3. 一种新的热红外图像生成方法研究 [J] . 秦建飞 ,沈均平 ,胡江华 . 应用光学 . 2007,第002期
4. 基于优化注意力机制的图像字幕生成方法研究 [J] . 陈彪 ,周之平 ,叶琴 . 南昌航空大学学报（自然科学版） . 2021,第001期
5. 灰度/深度图像序列的三维空间内插——一种新的计算机图像生成技术 [J] . 王新成 . 电子学报 . 1995,第004期
6. 一种生成电子地图道路网络的新方法--通过GPS信号生成新的电子地图道路网络对原有的道路网络进行更新 [C] . 班学钢 ,郑四发 ,邹旭东 . 中国系统工程学会城市智能交通系统学术会议 . 2000
7. 基于深度生成模型的可控图像生成及编辑方法研究 [A] . 陶仁拓 . 2020

一种新的seq2seq的可控图像字幕的生成方法

摘要

著录项

相似文献

相关主题

期刊订阅