首页> 中国专利> 基于特征复用和类时序注意力机制的三维场景字幕生成方法

基于特征复用和类时序注意力机制的三维场景字幕生成方法

页面导航

摘要
著录项
法律信息
相似文献

摘要

本发明公开了一种基于特征复用和类时序注意力机制的三维场景字幕生成方法，它属于三维点云和图像字幕技术的联合领域，解决了传统的三维场景密集字幕方法中，点云特征信息丢失过多、未充分考虑上下文信息、以及隐藏状态信息量单一的问题。本发明首次提出了基于类时序注意力机制的模型架构用于三维场景字幕生成，它包括特征复用的上下文投票网络模型和类时序注意力机制的字幕生成网络模型。特征复用的上下文投票网络模型考虑到点云之间的上下文信息，根据点云之间的上下文信息来挖掘更完整的视觉特征，并恢复投票过程中有价值但未被关注的视觉特征，更加准确地将每个点投射到存在于物体表面的中心位置，进而为三维场景中每个对象生成三维对象提案，最后字幕生成模型通过采用类时序注意力机制为每个三维对象生成相应字幕。除此之外，模型训练时采用“两阶段”训练方法，有效过滤掉生成的低质量对象提案，类时序注意力机制增强描述效果。本发明在ScanNet和ScanRefer数据集上进行了大量的实验验证，取得了比较有竞争力的评价结果。

著录项

公开/公告号CN115527201A

专利类型发明专利
公开/公告日2022-12-27

原文格式PDF
申请/专利权人中国石油大学(华东);
展开▼

申请/专利号CN202211239609.5
发明设计人吴春雷;郝宇钦;段海龙;路静;王雷全;
展开▼

申请日2022-10-11
分类号G06V20/64;G06V10/25;G06V10/82;G06N3/04;G06F40/258;
代理机构
代理人
地址 266580 山东省青岛市黄岛区长江西路66号
入库时间 2023-06-19 18:06:33

法律信息

法律状态公告日

法律状态信息

法律状态
2022-12-27

公开

发明专利申请公布

相似文献

专利
中文文献
外文文献

1. 一种时序注意力机制场景图像识别方法 [P] . 中国专利： CN113688822A . 2021-11-23
2. 基于度量注意力机制的图像字幕生成方法 [P] . 中国专利： CN111046966B . 2022-04-05
3. Method of generating a map of the occlusion image property for a view position of occlusion for a scene tridimentional, product of computer program.A software tool for use with a computer program for modeling the tridimentional to generate a map of image property of occlusion and apparatus for the generation of a map of the occlusion image property for a view position of occlusion for a scene Tridi Mencional [P] . BRPI0914466A2 . 2015-10-27

机译：为场景三维的遮挡视图位置生成遮挡图像特性图的方法，计算机程序。一种与计算机程序一起使用的软件工具，用于对三维进行建模以生成遮挡的图像特性图和装置用于为场景Tridi Mencional遮挡的视图位置生成遮挡图像属性的图
4. TEXT SUBTITLE DATA PROCESSING METHOD AND AN APPARATUS THEREOF FOR GENERATING A THREE-DIMENSIONAL SUBTITLE GENERATED FROM TEXT SUBTITLE DATA [P] . 韩国专利： KR20110018261A . 2011-02-23

机译：用于生成从文本字幕数据生成的三维字幕的文本字幕数据处理方法及其装置
5. CAPTION MATERIAL GENERATING SYSTEM, CAPTION MATERIAL GENERATING METHOD AND RECORDING MEDIUM STORING CAPTION MATERIAL GENERATING PROGRAM [P] . 日本专利： JP2000354203A . 2000-12-19

机译：字幕素材生成系统，字幕素材生成方法以及记录中的字幕字幕素材生成程序