首页> 中国专利> 用于视频稳定化的基于运动传感器的虚拟三脚架方法

用于视频稳定化的基于运动传感器的虚拟三脚架方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

一种用于基于运动传感器的用于视频稳定化的装置、方法和计算机可读介质。运动传感器可捕获视频序列的运动数据。控制器可基于来自运动传感器的运动数据计算用于捕获视频序列的摄像机的平均运动数据。控制器然后可确定实际摄像机运动和平均摄像机运动之间的差，以便为视频序列中的帧设置视频稳定化强度参数。视频稳定化单元可利用该强度参数来稳定视频序列中的帧。

著录项

公开/公告号CN103988491A

专利类型发明专利
公开/公告日2014-08-13

原文格式PDF
申请/专利权人苹果公司;
展开▼

申请/专利号CN201280061516.6
发明设计人周剑平;
展开▼

申请日2012-12-05
分类号H04N5/232;
代理机构中国国际贸易促进委员会专利商标事务所;
代理人冯玉清
地址美国加利福尼亚
入库时间 2023-12-17 00:55:30

法律信息

法律状态公告日

法律状态信息

法律状态
2017-05-31

授权

授权
2014-09-10

实质审查的生效 IPC(主分类):H04N5/232 申请日:20121205

实质审查的生效
2014-08-13

公开

公开

说明书

背景技术

本公开整体涉及图像处理领域。更具体地，但并非作为限制，本公开涉及对视频图像捕获操作期间经历的无益运动进行补偿。

当今，许多个人电子设备都配备了具有视频功能的数字摄像机。示例性个人电子设备包括但不限于移动电话、个人数字助理、便携式音乐播放器、便携式视频播放器和便携式计算机系统，诸如膝上型计算机、笔记本电脑和平板电脑。视频捕获的一个常见问题是摄像机会有无益运动。尽管某些运动可能是期望的(如摄像机在整个场景上的平稳摇摄)，但其他运动则是不可取的(如由于走动或手的晃动而导致的运动)。

许多视频捕获设备包括陀螺传感器，所述陀螺传感器可用于辅助各种设备功能，包括消除由摄像机捕获到的运动。然而，在消除由摄像机捕获的运动时，并非始终清楚所捕获的运动是预期的运动还是非预期的运动。因此，需要有效的方法来区分预期的运动和非预期的运动，以便仅消除非预期的运动。

附图说明

图1是根据本发明的一个实施例的具有摄像机功能的设备的简化框图。

图2示出了在一个实施例中的视频处理系统的功能框图。

图3示出了在一个实施例中摄像机、陀螺单元、控制器和稳定器的示例性操作。

图4示出了在一个实施例中将视频稳定化强度映射到变化的旋转角Δ 的示例性图示。

图5示出了在一个实施例中对视频帧选择性地应用稳定化的方法。

图6是根据一个实施例结合有数字视频捕获能力的电子设备的简化功能框图。

具体实施方式

本发明的实施例提供了基于从运动传感器获得的信息来稳定视频帧的技术。运动传感器可捕获视频序列的运动数据。控制器可基于来自运动传感器的运动数据来计算用于捕获视频序列的摄像机的平均运动数据。控制器然后可确定实际摄像机运动和平均摄像机运动之间的差，以便为视频序列中的帧设置视频稳定化强度参数。视频稳定化单元可利用该强度参数来稳定视频序列中的帧。

图1是根据本发明的一个实施例的具有摄像机功能的设备100的简化框图。设备100可包括摄像机110、运动传感器120、视频稳定器130和控制器140(图1(a))。摄像机110可捕获视觉信息并由其生成视频数据。运动传感器120可检测设备100(并且，在扩展意义上，摄像机110) 的运动并向控制器140输出运动数据。视频稳定器130可对输入视频序列执行视频稳定化技术，以试图消除由于摄像机运动而出现的视频序列中的伪影。视频稳定器130可根据多种工作参数(未示出)工作，这些工作参数可由控制器140供应给视频稳定器的强度参数来控制。控制器140可基于其对运动传感器所供应的运动数据的解译来推导强度参数。

在工作期间，摄像机110可输出预定尺寸的视频帧。视频稳定器130 可以较小的尺寸从帧提取图像数据以补偿在图像内容内检测到的运动。视频稳定器130然后可将经过运动补偿的帧放大回初始尺寸(即，由摄像机 110输出的帧的尺寸)。控制器140可基于运动数据针对数据的每个帧确定用于视频稳定器130的工作强度。控制器140可在三维中估计摄像机110 的运动(如倾斜/转动/侧滑，四元单元或x、y、z坐标)。

由摄像机110捕获的视频可与来自运动传感器120的运动数据相关。摄像机110和运动传感器120可异步工作。可使用公共时钟对视频数据和运动数据都打上时间戳，以便通过将它们置于公共时间线上而有利于异步捕获的图像和运动数据的同步。

运动传感器120可向控制器140输出代表每个帧期间摄像机运动的数据。通常，运动传感器120将在每个帧期间输出多个数据样本。在一个实施例中，运动传感器的采样速率可为200Hz。因此，如果摄像机以每秒30 帧的速率输出视频数据，运动传感器可对于每个视频帧生成200/30个运动数据的样本。在另一个实施例中，运动采样速率可介于50Hz和200Hz之间。在一个实施例中，运动传感器120可以是加速器、数字式罗盘、 MEMS运动传感器设备或陀螺仪。可将运动传感器120安装在摄像机110 的公共外壳内或如设备100内的摄像机110的公共板(未示出)上。

在图1中，设备100被示为智能电话，但本发明的原理不受此限制。可在多种类型的设备中，包括例如便携式计算机、平板电脑、网络摄像头、数字摄像机和/或摄录一体机中应用本发明的实施例。因此，摄像机 110可包括前向摄像机或后向摄像机。

常规来讲，在图1(a)中所示的每个部件之间存在存储缓冲区。例如，视频稳定化单元130可从缓冲区读取视频数据，然后向另一缓冲区中写入稳定的视频数据。存储缓冲区也可呈现在编码引擎(未示出)的部件之间。为了便于讨论，图1中未示出这些缓冲区。

另外，可在多种使用案例中应用本发明的原理。在一个使用案例中，由设备100捕获的视频可存储在设备上以用于层回放。因此，图1(a)示出设备100可包括视频编码器150和存储装置160，所述视频编码器用于压缩由视频稳定器130输出的视频序列，而所述存储装置用于存储压缩的视频。在一个实施例中，由视频稳定器130输出的未压缩的视频序列可直接存储在存储装置160中。图1(a)还示出了显示器170；在用户选择以及必要的解压缩(操作未示出)之后，可在显示器上呈现视频序列。

在图1(b)中所示的另一个使用案例中，可将视频序列上载到主机。在这种情况下，设备100还可采用视频编码器150和存储装置160来存储压缩的视频，直到经由通信端口180将其上载到主机。

在同样于图1(b)中所示的另一个使用案例中，可作为设备间实时通信(例如视频会议)的一部分将视频序列与另一设备交换。在这种情况下，设备100可采用视频编码器150来压缩视频序列并采用发射器190通过有线或无线通信连接向其他设备传输压缩的视频。尽管通常在传输之前对压缩的视频进行缓存，但图1(a)示出了发射器190直接从视频编码器 150接收压缩的视频，以表示视频序列不需要由设备100永久存储。

视频稳定器130可使用工作参数对源视频执行视频稳定化，所述工作参数可由控制器140向视频稳定器输入的强度参数来导出。图2示出了在视频数据的示例帧的情境中的视频稳定器的操作。在该实例中，视频稳定器130可以M×N像素的预定尺寸接收视频数据帧，并可从视频稳定器以 X×Y像素的尺寸提取子帧。视频稳定器130可在帧之间执行运动搜索以识别帧和帧之间视频内容的位移。视频稳定器130可将提取窗口与检测到的位移对准以便将它们抵消。因此，在图2的实例中，视频稳定器130可针对当前帧在位置X1、Y1处限定尺寸为X×Y像素的提取窗口210。根据在图像内容内检测到的运动，视频稳定器130可在不同的位置处为其他帧 (未示出的帧)限定提取窗口220、230。

本发明的实施例可基于由控制器140应用的强度参数来调节视频稳定器的工作参数(通俗讲，即其“强度”)。例如，可基于强度参数来改变提取窗口210的尺寸。一般而言，较小的提取窗口能够比更大的提取窗口提供更强的视频稳定化，因为它为视频稳定器赋予了更大的灵活性以在由摄像机输入到其中的M×N帧内移动所述提取窗口。类似地，由运动搜索操作提供的搜索窗口可响应于强度参数而改变尺寸。搜索窗口的尺寸约束着可被视频稳定器检测到的运动量。

图3是示出了根据本发明的一个实施例的导出强度参数的数据流程图。在用于新帧i的运动数据302被导出时，控制器可对运动数据执行旋转分析(方框310)以针对摄像机确定旋转运动。控制器可在包括新帧i的预定数量的帧上确定平均摄像机运动(方框320)。然后，控制器可计算在帧i处的摄像机旋转与帧i的平均摄像机旋转之间的运动差ΔROT(减法器 330)。

控制器可将运动差ΔROT与一对阈值TH_高、TH_低进行比较(方框 340、350)，并可基于所述比较来设置强度参数(方框360)。在一个实施例中，如果运动差ΔROT小于TH_低，控制器可将强度参数设置为最大设置，并且如果运动差ΔROT大于TH_高，控制器可将强度参数设置为最小设置。如果运动差ΔROT落在两个阈值之间，则控制器可基于输入帧i的运动302将强度参数设置为中间设置。控制器可再次针对每个输入帧来计算强度设置，并可向视频稳定器输出强度设置以用于处理所述输入帧。

针对输入帧i的运动数据302可包括运动速率信息：例如在该速率下将摄像机移入3个轴(x、y和z)的每个中。可对速率信息进行整合以生成瞬时位置和旋转信息(也在3个轴线的每个中)。旋转信息可以是四元数据。在一个实施例中，可分析旋转数据以估计在捕获对应视频帧时的时间点处的预期的摄像机运动。为了这样做，可从运动数据302提取旋转数据310，并与来自一组视频帧的旋转数据的平均值320进行比较。该组视频帧可以是在当前处理的帧之前捕获的一组视频帧。旋转数据的平均值可以表示在记录当前视频帧时的时间点之前所述摄像机的估计的预期位置。可通过低通滤波器馈送先前帧的旋转数据来计算先前帧的平均旋转数据以消除高频分量。低通滤波器可以是无限脉冲响应(IIR)低通滤波器。然后可由减法器330通过从当前帧的旋转数据减去平均旋转数据来获得当前帧的旋转角Δ。旋转角Δ，ΔROT，可表示当前帧的预期摄像机运动。预期摄像机运动可包括其中手持摄像机的用户正通过在轴线上旋转摄像机来平移摄像机的情况。例如，用户可平移摄像机以在用户静止不动的同时捕获行驶通过用户的移动车辆的视频序列。

在一个实施例中，控制器可将运动差ΔROT与一对阈值TH_高、TH_低进行比较(方框340、350)。在另一个实施例中，可将旋转角Δ，ΔROT，发送到高阈值比较器340和低阈值比较器350。高阈值比较器340可确定 ΔROT是否等于或高于特定阈值。低阈值比较器350可确定ΔROT是否等于或低于特定阈值。可使用来自比较器340和350的信息来导出强度参数 (方框360)。可将导出的强度参数用作视频稳定器130的输入(图1)。视频稳定化的目的是最小化在视频数据中捕获的无意晃动、急动或高频运动(例如，手持摄像机的人的手晃动的结果)的量。可由无意晃动导出高强度参数，而可由有意运动导出低强度参数。

图4示出了在一个实施例中的示例性图示400，其将不同的强度参数映射到旋转角Δ，ΔROT。图中的x轴上是旋转角Δ410，而图中的y轴上是强度参数420。如在图中看出，有两个阈值点：一个低阈值(TH_低)430 和一个高阈值(TH_高)440。在一个实施例中，当旋转角Δ低于低阈值430 时，可导出恒定的高强度参数。换句话讲，旋转角Δ低于阈值的所有帧都应用了相同的视频稳定化强度。在一个实施例中，当旋转角Δ高于高阈值 440时，可导出恒定的低强度参数。在一个实施例中，低阈值430始终低于高阈值440。在一个实施例中，如果旋转角Δ介于高阈值和低阈值之间，则强度参数可作为旋转角Δ的函数被导出。在一个实施例中，该函数可以是旋转角Δ的线性函数。在另一个实施例中，该函数可以是非线性函数，例如旋转角Δ的指数函数。在一个实施例中，该函数可具有负斜率，即强度参数可随着旋转角Δ增大而减小。在一个实施例中，可将该函数实现为数学计算。在另一个实施例中，可经由查找表实现该函数。

图5示出了在一个实施例中用于对视频流的帧选择性地应用稳定化的方法500。对于视频流的每个连续帧，从与捕获当前经处理的视频帧几乎同时捕获的运动数据提取并计算当前经处理的帧的旋转数据(方框 540)。旋转数据可以是四元数据。通过将一组帧的平均旋转数据与当前经处理的帧的旋转数据进行比较来计算当前经处理的帧的旋转角Δ，ΔROT (方框550)。在一个实施例中，该组帧可以是在当前经处理的视频帧之前捕获的一组视频帧。可动态地计算先前帧的平均旋转数据，其中每个当前经处理的帧的旋转数据用于在每次迭代期间更新所述平均旋转数据。旋转数据的平均值可表示在当前视频帧被记录的时间点之前所述摄像机的估计的预期位置。可通过低通滤波器馈送先前帧的旋转数据来计算先前帧的平均旋转数据以消除高频分量。低通滤波器可以是无限脉冲响应(IIR)低通滤波器。旋转角Δ可以是先前帧的平均旋转数据和当前经处理的帧的旋转数据之间的差。

旋转角Δ，ΔROT，可指示当前视频帧的预期摄像机运动(例如，当用户在捕获视频期间平移摄像机时)。然而，在某些情况下，旋转角Δ可以是用户无意地移动摄像机，诸如在手持摄像机时手的微小晃动。无意和有意摄像机运动之间的区别因素可以是旋转角Δ的量值。在一个实施例中，可将旋转角Δ与低阈值进行比较(方框560)。如果旋转角Δ低于低阈值 (方框560)，可对当前经处理的视频帧应用高视频稳定化(方框570)。低旋转角Δ可指示手持摄像机的用户无意地移动摄像机，而宁可说是所述移动是由摄像机的轻微无意晃动导致的。在一个实施例中，如果旋转角Δ 不低于低阈值，可将旋转角Δ与高阈值进行比较(方框580)。如果旋转角Δ高于高阈值(方框580)，可对当前经处理的视频帧应用低视频稳定化(方框590)。高旋转角Δ可指示手持摄像机的用户在有意地移动摄像机，例如平移摄像机以捕获运动物体的视频。在一个实施例中，如果旋转角Δ介于高阈值和低阈值之间，则可作为旋转角Δ的函数来应用稳定化 (方框595)。在一个实施例中，该函数可以是旋转角Δ的线性函数。在另一个实施例中，该函数可以是非线性函数，例如旋转角Δ的指数函数。在另一个实施例中，可经由查找表实现该函数。

图6是根据一个实施例示出了结合有数字视频捕获能力的代表性电子设备600的简化功能框图。电子设备600可包括处理器605、显示器610、设备传感器615(如陀螺仪、加速器、接近、和环境光传感器)、麦克风 620、音频编解码器625、扬声器630、通信电路635、具有关联摄像机和视频硬件的图像传感器640、用户界面645、存储器650、存储设备655、一个或多个视频编解码器660和通信总线665。

处理器605可以是任何合适的可编程控制设备或通用或专用处理器或集成电路，并且可执行对于实施或控制许多功能的操作所必需的指令，诸如生成和/或处理图像元数据以及由电子设备600执行的其他功能。处理器 605可例如驱动显示器610并可从用户界面645接收用户输入。处理器605 也可以例如是芯片上系统，诸如应用程序的处理器，诸如存在于移动设备或专用图形处理单元(GPU)中的那些。处理器605可基于精简指令集计算机(RISC)或复杂指令集计算机(CISC)架构或任何其他合适的架构，并且可包括一个或多个处理内核。

存储器650可包括由处理器605使用以执行设备功能的一个或多个不同类型的存储介质。存储器650可包括例如高速缓存、只读存储器 (ROM)和/或随机存取存储器(RAM)。通信总线660可提供数据传输路径，以用于向至少存储设备655、存储器650、处理器605和摄像机电路系统640传输数据，或从这些设备传输数据，或在这些设备之间传输数据。用户界面645可允许用户与电子设备600交互。例如，用户界面645 可呈多种形式，诸如按钮、小键盘、刻度盘、点击式转盘或触摸屏。

非暂时性存储设备655能够存储介质(如图像和视频文件)、计算机程序指令或软件、偏好信息、设备概况信息和任何其他合适的数据。存储设备655可包括一个或多个存储介质，包括例如磁盘(固定盘、软盘和可移除盘)和磁带、光学介质(诸如CD-ROM和数字化视频光盘(DVD))、以及半导体存储设备(诸如电可编程只读存储器(EPROM)和电可擦除可编程只读存储器(EEPROM))。

视频编解码器660可以是能够对数字视频进行视频压缩和/或解压的硬件设备、软件模块、或硬件与软件的组合。例如，视频编解码器660可实施H.264视频标准。通信总线665可以是任何一种或多种通信路径，并且采用适于特定具体实施的任何技术或其组合。

可将软件组织成一个或多个模块并可以任何合适的计算机编程语言 (或多于一种语言)编写。例如，在由处理器605执行时，此类计算机程序代码或软件可实施本文所述的方法中的一种或多种。

在不脱离以下权利要求的范围的情况下，在材料、部件、电路元件中以及在示出的操作方法的细节中的各种变化都是可能的。例如，可使用可通信地耦合的两个或更多个程序控制设备来实现处理器605。每个程序控制设备可包括上述引用的处理器、专用处理器或定制设计的状态机，其可在诸如专用集成电路(ASIC)或现场可编程门阵列(FPGA)的硬件设备中体现。此外，可对先前捕获的视频序列应用本文所公开的技术，提供针对每个视频帧所捕获的必要元数据。

在以上描述中，为了解释的目的，已经阐述了很多具体细节以便提供对发明构思的透彻理解。作为本描述的一部分，已以框图形式示出了一些结构和设备以避免使本发明模糊。在说明书中提到“一个实施例”或“一种实施例”意指在本发明的至少一个实施例中包括的结合该实施例描述的特定特征、结构或特性，并且多次提到“一个实施例”或“一种实施例” 不应被理解为全部必然地参考相同的实施例。

应当理解，在任何实际具体实施的开发中(如在任何开发项目中那样)，必须要做出许多决策以实现开发者的特定目标(例如符合与系统和商务相关的约束条件)，并且这些目标将在不同具体实施之间变化。还应当理解，此类开发工作可能是复杂的且费时的，但尽管如此，对于受益于本公开的数字视频捕获和处理领域的那些普通技术人员而言，这仍然是他们的日常工作。

应当理解，以上描述旨在是示例性的而非限制性的。例如，可彼此结合地使用上述实施例。在回顾以上描述时，很多其他的实施例对于本领域的技术人员而言将是显而易见的。因此，应当参考所附权利要求与此权利要求被授权的等价物的完整范围来确定本发明的范围。在所附权利要求中，术语“包括(including)”和“其中(in which)”被用作相应术语 “包括(comprising)”和“其中(wherein)”的通俗的英语等价词。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 用于视频稳定化的基于运动传感器的虚拟三脚架方法 [P] . 中国专利： CN103988491B . 2017.05.31
2. 用于视频稳定化的基于运动传感器的虚拟三脚架方法 [P] . 中国专利： CN103988491A . 2014-08-13
3. Motion sensor based virtual tripod method for video stabilization [P] . 美国专利： US9628711B2 . 2017-04-18

机译：基于运动传感器的虚拟三脚架视频稳定方法
4. MOTION SENSOR BASED VIRTUAL TRIPOD METHOD FOR VIDEO STABILIZATION [P] . 韩国专利： KR101683082B1 . 2016-12-07

机译：基于运动传感器的视频稳定虚拟跳变方法
5. MOTION SENSOR BASED VIRTUAL TRIPOD METHOD FOR VIDEO STABILIZATION [P] . 韩国专利： KR20160079900A . 2016-07-06

机译：基于运动传感器的视频稳定虚拟跳变方法