融合视觉词与自注意力机制的视频目标分割

季传俊; 陈亚当; 车洵

首页> 中文期刊>中国图象图形学报 >融合视觉词与自注意力机制的视频目标分割

融合视觉词与自注意力机制的视频目标分割

开具论文收录证明 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

目的视频目标分割（video object segmentation, VOS）是在给定初始帧的目标掩码条件下，实现对整个视频序列中感兴趣对象的分割，但是视频中往往会出现目标形状不规则、背景中存在干扰信息和运动速度过快等情况，影响视频目标分割质量。对此，本文提出一种融合视觉词和自注意力机制的视频目标分割算法。方法对于参考帧，首先将其图像输入编码器中，提取分辨率为原图像1/8的像素特征。然后将该特征输入由若干卷积核构成的嵌入空间中，并将其结果上采样至原始尺寸。最后结合参考帧的目标掩码信息，通过聚类算法对嵌入空间中的像素进行聚类分簇，形成用于表示目标对象的视觉词。对于目标帧，首先将其图像通过编码器并输入嵌入空间中，通过单词匹配操作用参考帧生成的视觉词来表示嵌入空间中的像素，并获得多个相似图。然后，对相似图应用自注意力机制捕获全局依赖关系，最后取通道方向上的最大值作为预测结果。为了解决目标对象的外观变化和视觉词失配的问题，提出在线更新机制和全局校正机制以进一步提高准确率。结果实验结果表明，本文方法在视频目标分割数据集DAVIS（densely annotated video segmentation）2016和DAVIS 2017上取得了有竞争力的结果，区域相似度与轮廓精度之间的平均值J＆F-mean（Jaccard and F-score mean）分别为83.2%和72.3%。结论本文提出的算法可以有效地处理由遮挡、变形和视点变化等带来的干扰问题，实现高质量的视频目标分割。

著录项

来源
《中国图象图形学报》|2022年第8期|2444-2457|共14页
作者
季传俊; 陈亚当; 车洵;
展开▼
作者单位

1. 南京信息工程大学计算机学院软件学院网络空间安全学院 2. 数字取证教育部工程研究中心 3. 南京众智维信息科技有限公司;

展开▼
原文格式 PDF
正文语种 chi
中图分类 TP391.41;
关键词
视频目标分割（VOS）; 聚类算法; 视觉词; 自注意力机制; 在线更新机制; 全局校正机制;
入库时间 2024-01-23 06:59:19

相似文献

中文文献
外文文献
专利

1. 基于小目标类别注意力机制与特征融合的AF-ICNet非结构化场景语义分割方法 [J] . 艾青林 ,张俊瑞 ,吴飞青 . 光子学报 . 2023,第1期
2. 融合注意力机制的PSPnet多目标语义分割 [J] . 张帅 ,杨春夏 . 上海师范大学学报:自然科学版 . 2023,第2期
3. 基于特征融合和注意力机制的目标分割跟踪算法 [J] . 王诗言 ,张青松 ,雷国芳 . 电讯技术 . 2022,第7期
4. 融合多尺度与注意力机制的智能车间场景目标轻量级语义分割 [J] . 严成良 ,陈光柱 ,易佳 . 计算机辅助设计与图形学学报 . 2022,第10期
5. 基于注意力机制的毫米波雷达和视觉融合目标检测算法 [J] . 陈州全 ,黄俊 ,郑元杰 . 电讯技术 . 2023,第10期
6. 以持续保持用户注意力为目标的应用软件交互界面设计研究——以“流”概念出发提升用户视觉体验 [C] . 李晓萍 . 《中国的设计与创新》2011年学术会议 . 2011
7. 基于时空信息融合与注意力机制的视频目标分割算法研究 [A] . 李旭 . 2021

融合视觉词与自注意力机制的视频目标分割

摘要

著录项

相似文献

相关主题

期刊订阅