基于多尺度时空Transformer的视频动态场景图生成模型

王朱佳; 余宙; 俞俊; 范建平

首页> 中文期刊> 《计算机应用》 >基于多尺度时空Transformer的视频动态场景图生成模型

基于多尺度时空Transformer的视频动态场景图生成模型

AI论文写作 >>

开具论文收录证明 >>

页面导航

摘要
著录项
引文网络
相似文献
相关主题

摘要

为应对动态视频中物体间关系在时间维度上的动态变化,提出一种基于多尺度时空Transformer的视频动态场景图生成模型,在经典的Transformer架构基础上引入了多尺度建模思想,以实现对视频动态细粒度语义的精确建模。首先,在空间维度上保留了传统模型对物体在全局空间相关性的关注;同时还对物体间的相对位置进行了局部空间相关性建模,以便更好地理解人和物之间的交互动态,提供更准确的语义分析结果。其次,在时间维度上,除了保留传统模型对视频中物体短期时间相关性的关注外,还关注了同一对物体在完整视频中的长期时间相关性,通过更全面地建模物体之间的长期关系,生成更准确、连贯的场景图,在一定程度上缓解了由遮挡、重合等引起的场景图生成问题。最后,通过空间编码器与时间编码器的共同作用,更加精准地建模视频动态细粒度语义,克服了传统的单尺度模型的局限性。实验结果显示,在Action Genome基准数据集上,与基线模型STTran相比,在谓词分类、场景图分类与场景图检测三个任务的Recall@10指标上分别提升了5.0、2.8、2.9个百分点。实验结果表明,多尺度建模思想能够更加精确地建模,并有效地提高在视频动态场景图生成任务上的性能。

著录项

来源
《计算机应用》 |2024年第1期|47-57|共11页
作者
王朱佳; 余宙; 俞俊; 范建平;
展开▼
作者单位

杭州电子科技大学计算机学院;

展开▼
原文格式 PDF
正文语种 chi
中图分类模式识别与装置;
关键词
动态场景图生成; 注意力机制; 多尺度建模; 视频理解; 语义分析;

相似文献

中文文献
外文文献
专利

1. 一种结合多尺度特征图和环型关系推理的场景图生成模型 [J] . 庄志刚 ,许青林 . 计算机科学 . 2020,第4期
2. 一种基于时空结合的动态场景立体视频匹配方法 [J] . 杜歆 ,陈国赟 ,朱云芳 . 电路与系统学报 . 2012,第6期
3. 一种动态场景下基于时空信息的视频对象提取算法 [J] . 田宏阳 ,陈辉 ,马文静 . 中国图象图形学报 . 2007,第9期
4. 基于多尺度时空Transformer的微表情识别 [J] . 汪旸 ,赵力 . 信息化研究 . 2023,第4期
5. 基于时空解耦Transformer的视频字幕去除算法 [J] . 涂奕飞 ,蔡非凡 ,王超 . 工业控制计算机 . 2024,第1期
6. 基于跨时空域相似邻接图的视频分割算法 [C] . 张洪超 ,张磊 ,黄华 . 第五届全国几何设计与计算学术会议(GDC2011) . 2011
7. 基于多时间尺度动态时空图网络的交通流预测研究 [A] . 汪鸣 . 2022

基于多尺度时空Transformer的视频动态场景图生成模型

摘要

著录项

引文网络

相似文献

相关主题

期刊订阅