首页> 中国专利> 一种手语动态合成光场的生成方法

一种手语动态合成光场的生成方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了一种手语动态合成光场的生成方法，包括步骤：(1)通过对采集场景进行视角分析，对采样数据进行空域密度的优化；(2)使用关键帧插值方法对时域密度进行优化。本发明通过对空域和时域两个维度的采样密度进行优化，能够快速大量、自动生成场景的动态合成光场数据，灵活性强，操作性好，生成信息密集。

著录项

公开/公告号CN104376591A

专利类型发明专利
公开/公告日2015-02-25

原文格式PDF
申请/专利权人北京工业大学;
展开▼

申请/专利号CN201410655751.7
发明设计人尹宝才;王文通;王立春;孔德慧;
展开▼

申请日2014-11-18
分类号G06T17/00;
代理机构北京中北知识产权代理有限公司;
代理人冯梦洪
地址 100124 北京市朝阳区平乐园100号
入库时间 2023-12-17 04:14:53

法律信息

法律状态公告日

法律状态信息

法律状态
2017-08-08

授权

授权
2015-03-25

实质审查的生效 IPC(主分类):G06T17/00 申请日:20141118

实质审查的生效
2015-02-25

公开

公开

说明书

技术领域

本发明属于计算摄影学的技术领域，具体地涉及一种手语动态合成光场的生成方法。

背景技术

随着计算机学科和摄影学的发展，传统的摄影已经不能满足人们的拍摄要求，光场技术的诞生，使得人们不仅可以实现先拍照后对焦，同时也可以对获得的场景进行三维重建，即获得不再是一张二维的图片，而是三维的场景本身。所谓的光场(Light field),是光在空间中一个点在给定方向上的辐射度,它是光线的一种五维辐射函数:L(x,y,z,θ,Φ),其中(x, y,z)为该点空间三维坐标值,(θ,Φ)为该点处光线的仰角与方位角。当光线沿直线传播而不被遮挡时,使用四维表面光场L(u,v,s,t)作为简化的模型。它可以看作是场景的超密集采样。

手语光场，因其采集对象为某个手语者的手语动作序列，故而此光场为动态光场。手语动态光场在时间域和空间域都有很高的连续性。采集手语动态光场，可以弥补现有数据集在空间密度、时间密度以及真实感等方面的不足，可用于三维手语人的动态建模、手语视频去模糊、视角无关的手语识别等研究。

针对真实光场数据获取，从获取手段不同可分为：基于相机阵列的光场获取、基于透镜阵列的光场获取、基于微透镜阵列的光场获取以及基于可编码光圈的光场获取。对于限定环境光场采集—例如，清华大学Liu等人的多相机、多光照系统(Multi-camera Multi-lighting Dome)，一旦采集环境固定(相机采样频率、相机空间位置)。其每个视点的采样密度(空域、时域)和采样精度(分辨率)便不可调整,且生成一个大规模的数据集时成本较高，如生成一个固定光照条件下包含800视角×30帧×3200词的数据集需要手语老师和采集系统在不间断的情况下连续工作数个小时。

合成光场利用计算机仿真光场采集环境，基于虚拟模型获取任意视点、光照、相机条件下的光场数据，与真实光场相比，虽然真实感略差，但是数据规模较大时，生成迅速、参数调整更加便捷，且背景更容易剔除，使用者更关注于图像处理算法本身，而不是背景剔除、去噪等预处理算法。目前已有的合成光场有MIT的合成光场数据集，其数据集中包含静态光场数据和包含一组轨迹动画的动态光场数据。这种方法无法快速大量、自动生成场景的动态合成光场数据，灵活性弱、操作性差。

发明内容

本发明的技术解决问题是：克服现有技术的不足，提供一种手语动态合成光场的生成方法，其能够快速大量、自动生成场景的动态合成光场数据，灵活性强，操作性好，生成信息密集。

本发明的技术解决方案是：这种手语动态合成光场的生成方法，包括以下步骤：

(1)通过对采集场景进行视角分析，对采样数据进行空域密度的优化；

(2)使用关键帧插值方法对时域密度进行优化。

本发明通过对空域和时域两个维度的采样密度进行优化，能够快速大量、自动生成场景的动态合成光场数据，灵活性强，操作性好，生成信息密集。

附图说明

图1是根据本发明的步骤(1.1)双目视点分析的示意图。

图2是根据本发明的步骤(1.2)排布分析的示意图，其中图2a为分步骤(1.2.1)的示意图,图2b为分步骤(1.2.2)的示意图,图2c为分步骤(1.2.3)的示意图,图2d为分步骤(1.2.4)的示意图。

具体实施方式

这种手语动态合成光场的生成方法，包括以下步骤：

(1)通过对采集场景进行视角分析，对采样数据进行空域密度的优化；

(2)使用关键帧插值方法对时域密度进行优化。

本发明通过对空域和时域两个维度的采样密度进行优化，能够快速大量、自动生成场景的动态合成光场数据，灵活性强，操作性好，生成信息密集。

优选地，所述步骤(1)包括以下分步骤：

(1.1)进行双目视点的分析；

(1.2)进行排布分析。

优选地，在所述步骤(1.1)中根据公式(1)-(5)进行视图关键点的匹配：

$R = NB = 2 \times 1 \times \sin \frac{β}{2} \times \cos (\frac{α}{2} + \frac{β}{2}) - - - (1)$

$N = NP = 2 \times 1 \times \sin \frac{α}{2} \times \sin \frac{β}{2} - - - (2)$

max＝N+λR (3)

St.N＞N₀ (4)

R＞R₀ (5)。

优选地，所述步骤(1.2)包括以下分步骤：

(1.2.1)已知球O赤道上的两个视点A和B，A、B间经度差为alpha，球面上一视点C到A、B的距离相等，求点C在球O上的纬度，记为beta；

(1.2.2)已知视点E、视点F、球O，E、F在球O上的纬度为beta, ∠FOE＝alpha，求∠FPE，记为theta；

(1.2.3)已知视点M、视点N、球O，MO、NO间夹角为alpha,M、N 所在纬度为beta，球面上一视点J到M、N的距离相等，且纬度高于M、N,求点J在球O上的纬度，记为beta’；

(1.2.4)已知视点G、视点H、球O，G、H在球O上的纬度为beta’, ∠GOH＝alpha，求∠GQH，记为theta’。

优选地，所述步骤(2)中：

假设存在一组四元数通过创建TCB样条来拟合这组数据，样条区间表示为S_n(t)＝Squad(t；q_n，a_n，b_n，q_n+1)；根据连续性原则，获得边界条件：S′_n-1(1)＝S′_n(0)＝q′_n；为求解a_n，b_n，首先根据公式(10)-(11) 计算之间的插值点的T^O，T^I：

$(\begin{matrix} T^{O} = \frac{(1 - t) (1 - c) (1 - β)}{2} \log (q_{n}^{- 1} q_{n + 1}) \\ + \frac{(1 - t) (1 + c) (1 + β)}{2} \log (q_{n - 1}^{- 1} q_{n}) \end{matrix}) - - - (10)$

$(\begin{matrix} T^{I} = \frac{(1 - t) (1 + c) (1 - β)}{2} \log (q_{n}^{- 1} q_{n + 1}) \\ + \frac{(1 - t) (1 - c) (1 + β)}{2} \log (q_{n - 1}^{- 1} q_{n}) \end{matrix}) - - - (11)$

然后根据T^O＝log(q_n^-1 q_n+1)+2log(q_n^-1 a_n)和公式(12)求a_n：

$a_{n} = q_{n} \exp (\frac{T_{n}^{O} - \log (q_{n}^{- 1} q_{n + 1})}{2}) - - - (12)$

根据T^I＝log(q_n-1^-1 q_n)-2log(q_n^-1 b_n)和公式(13)求b_n：

$b_{n} = q_{n} \exp (\frac{\log (q_{n - 1}^{- 1} q_{n}) - T_{n}^{I}}{2}) - - - (13)$

从而获得S_n(t)的值。

以下给出一个具体实施例：

本发明主要涉及基于视角分析的多视图生成和基于虚拟人的动态手语光场数据生成。考虑空域和时域两个维度的采样密度，生成信息量足够的动态合成光场数据。

1、空域密度的优化

通过对采集场景进行视角分析，对采样数据进行空域密度的优化。考虑到本发明中目标(球形)环境的特殊性，先进行双目视点的分析，再进行排布分析。

1.1双目视点分析

在多视图重建过程中，一个很重要的步骤是视图匹配，即不同视角的图片，进行关键点的匹配。因此，不仅要考虑新视角带来的信息增量，也要考虑新、旧视角间信息的重叠率，以减少重建的误差。

如图1所示，K和L为两个视点，O为目标物体的中心。MN弧对应视角 K，BP弧对应视角L。因此两个视角的公共部分为弧NB，各自独有部分为 NP弧和MB弧。

若K作为旧视点，L作为新视点，则NB为两个视角的公共部分，即为旧信息；NP为视点L相对于视点K的新增信息。

若设视点间夹角为α,视点张角为β,视点距目标的距离为l，则经推倒，可以得出NB、NP与这三个参数之间的关系。

$R = NB = 2 \times 1 \times \sin \frac{β}{2} \times \cos (\frac{α}{2} + \frac{β}{2}) - - - (1)$

$N = NP = 2 \times 1 \times \sin \frac{α}{2} \times \sin \frac{β}{2} - - - (2)$

以此为约束，l固定，α、β未知时，可以得到：既有足够多的旧信息，又有足够多的新信息的优化模型：

max＝N+λR (3)

St.N＞N₀ (4)

R＞R₀ (5)

其中N₀和R₀可由重建经验给出。

1.2排布分析

通过双目视点的分析，将双目的情况扩展到整个三维空间(球形网状环境)。考虑到球形网状环境的对称性，采用结构化的分布方式进行排布。

1.2.1结构化排布方案

由于球形网状结构，是由若干条经线和若干条纬线构成。因此，结构化的排布方案，尽可能的让所有相机都排布在经、纬线上，且任意两个相机位置点需要1.1中的条件。

第1步：已知球O赤道上的两个视点A和B，A、B间经度差为alpha，球面上一视点C到A、B的距离相等，求点C在球O上的纬度，记为beta。

第2步：已知视点E、视点F、球O，E、F在球O上的纬度为beta,∠ FOE＝alpha，求∠FPE，记为theta。

第3步：已知视点M、视点N、球O，MO、NO间夹角为alpha,M、N所在纬度为beta，球面上一视点J到M、N的距离相等，且纬度高于M、N,求点J在球O上的纬度，记为beta’。

第4步：已知视点G、视点H、球O，G、H在球O上的纬度为beta’, ∠GOH＝alpha，求∠GQH，记为theta’。

然后继续重复3,4步，直到覆盖所有需要的纬度，即形如左下或右下的状态。

这种方案易于迭代排布，相邻两层之间的相机中，有少量冗余信息。

2、时域密度的优化

现有手语数据库为手语关节点动作的关键帧数据，因此需要使用关键帧插值技术，使生成采样数据在时间上更加连贯、自然。

2.1关键帧插值

在本发明中，采用基于KB样条的四元数球面双二次插值算法进行关键帧插值。基于Kochanek-Bartels样条的四元数球面双二次插值算法，该算法不但能保持向量在旋转中的长度并避免连续旋转中万向节锁引发的自由度丢失问题，还利用了KB样条能够通过T,C,B三个参数控制曲线在插值点形状的能力，对细节上的手语动作表现力做了扩展。

2.1.1 Kochanek-Bartels样条插值

KB样条，又称TCB样条。设关键帧表示为分别表示i时刻曲线在P_i点的入斜率(Incoming Tangent)和出斜率(Outgoing Tangent)。TCB样条通过引入张力(tension)t_i，连续性(continuity)c_i，以及斜率(bias)β_i三个参数，调整插值点的进、出切向量，实现插值点的曲率变化。其中入、出斜率的计算方法如下：

$T^{O} = \frac{(1 - t) (1 - c) (1 - β)}{2} (P_{t + 1} - P_{t}) + \frac{(1 - t) (1 - c) (1 + β)}{2} (P_{t} - P_{t - 1}) - - - (6)$

$T^{I} = \frac{(1 - t) (1 + c) (1 - β)}{2} (P_{t + 1} - P_{t}) + \frac{(1 - t) (1 - c) (1 + β)}{2} (P_{t} - P_{t - 1}) - - - (7)$

2.1.2四元数双二次球面插值

四元数表示绕向量旋转2θ，旋转向量可表示为球面双二次插值利用了分段函数的思想来实现四元数的三次平滑，其计算公式如下：

Squad(t，p，a，b，q)＝Slerp(2，t(1-t)，Slerp(t，p，q)，Slerp(t，a，b)) (8)

$Slerp (t, q_{0}, q_{1}) = \frac{q_{0} \sin ((1 - t) θ) + q_{1} \sin (tθ)}{\sin θ} (9)$

2.1.3基于TCB样条的四元数球面双二次插值算法

假设存在一组四元数通过创建TCB样条来拟合这组数据，认为样条区间可表示为S_n(t)＝Squad(t；q_n，a_n，b_n，q_n+1)。根据连续性原则，可获得如下边界条件：S′_n-1(1)＝S′_n(0)＝q′_n。为求解a_n，b_n我们首先计算 [q_n，q_n+1]之间的插值点的T^O，T^I：

$(\begin{matrix} T^{O} = \frac{(1 - t) (1 - c) (1 - β)}{2} \log (q_{n}^{- 1} q_{n + 1}) \\ + \frac{(1 - t) (1 + c) (1 + β)}{2} \log (q_{n - 1}^{- 1} q_{n}) \end{matrix}) - - - (10)$

$(\begin{matrix} T^{I} = \frac{(1 - t) (1 + c) (1 - β)}{2} \log (q_{n}^{- 1} q_{n + 1}) \\ + \frac{(1 - t) (1 - c) (1 + β)}{2} \log (q_{n - 1}^{- 1} q_{n}) \end{matrix}) - - - (11)$

然后根据T^O＝log(q_n^-1 q_n+1)+2log(q_n^-1 a_n)，反求a_n：

$a_{n} = q_{n} \exp (\frac{T_{n}^{O} - \log (q_{n}^{- 1} q_{n + 1})}{2}) - - - (12)$

同理根据T^I＝log(q_n ₁^-1 q_n)-2log(q_n^-1 b_n)，反求bn：·

$b_{n} = q_{n} \exp (\frac{\log (q_{n - 1}^{- 1} q_{n}) - T_{n}^{I}}{2}) - - - (13)$

于是曲线上任意区间S_n(t)的值即可获解。

对上述方法进行了实验验证，并取得了明显的效果。在实验中，采用 vs2010+osg开发环境，进行系统仿真环境的搭建。将手语关节点关键帧数据进行基于TCB样条的四元数球面双二次插值，捕获虚拟人多个角度的动态数据，即为动态合成光场数据。参数设置为初始夹角为20度，维度覆盖范围0-60度，经度覆盖范围0-360度。表1为未优化模型和结构化模型对照表，可以看出，当初始夹角越小时，优化后视角减少率越高，因此可知此当光场数据越稠密时，此方法优化效果越好。

夹角度数排布层数未优化结构化视角减少率 3 24 2880 2389 17.05％ 5 14 1008 855 15.18％ 10 7 252 221 12.30％ 20 4 72 63 12.50％ 30 3 36 32 11.11％ 40 2 18 18 0

表1

以上所述，仅是本发明的较佳实施例，并非对本发明作任何形式上的限制，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属本发明技术方案的保护范围。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种手语动态合成光场的生成方法 [P] . 中国专利： CN104376591B . 2017.08.08
2. 一种基于动态自注意力生成对抗网络的图像合成方法 [P] . 中国专利： CN113379655A . 2021-09-10
3. Sign language video synthesizing apparatus, sign language video synthesis method, sign language display position setting device, sign language display position setting method, and program [P] . 日本专利： JP5346797B2 . 2013-11-20

机译：手语视频合成装置，手语视频合成方法，手语显示位置设定装置，手语显示位置设定方法以及程序
4. METHOD FOR SYNTHESIZING INTERMEDIATE VIEW OF LIGHT FIELD, SYSTEM FOR SYNTHESIZING INTERMEDIATE VIEW OF LIGHT FIELD, AND METHOD FOR COMPRESSING LIGHT FIELD [P] . US2021314545A1 . 2021-10-07

机译：合成光场中间视图的方法，用于合成光场中间视图的系统，以及压缩光场的方法
5. METHOD FOR SYNTHESIZING INTERMEDIATE VIEWS OF LIGHT FIELD, SYSTEM FOR SYNTHESIZING INTERMEDIATE VIEWS OF LIGHT FIELD, AND METHOD FOR COMPRESSING LIGHT FIELD [P] . 韩国专利： KR20200021891A . 2020-03-02

机译：光场中间视点的合成方法，光场中间视点的合成系统和光场压缩方法