首页> 中国专利> 用于控制向第一格式图像序列插入附加场或帧以从中建立第二格式图像序列的方法和装置

用于控制向第一格式图像序列插入附加场或帧以从中建立第二格式图像序列的方法和装置

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明涉及用于向第一格式图像序列插入附加场或者帧以从中建立第二格式图像序列的控制方法和装置。世界上主要的电视系统采用隔行扫描并且采用50Hz或者60Hz的场频率。然而，电影是采用24Hz的帧频率以及逐行扫描制作而成的，该格式将被用于未来在采用50Hz的国家销售的数字视频光盘。在50Hz播放设备中，所述光盘内容的呈现是以原始的音频音调但却以重复的视频帧或场来实现，以平均地达到所述原始视频源的速度。然而，对于所述帧或者场的插入并不是以常规的排列进行的，而是以适应性的方式进行，从而减少可见的运动抖动。

著录项

公开/公告号CN1906937A

专利类型发明专利
公开/公告日2007-01-31

原文格式PDF
申请/专利权人汤姆逊许可公司;
展开▼

申请/专利号CN200480040820.8
发明设计人卡斯滕·赫佩尔;海因茨·沃纳·基森;安德烈·舍韦佐;马尔科·温特;
展开▼

申请日2004-11-04
分类号H04N7/01;
代理机构北京康信知识产权代理有限责任公司;
代理人章社杲
地址法国布洛涅
入库时间 2023-12-17 18:12:30

法律信息

法律状态公告日

法律状态信息

法律状态
2010-01-13

授权

授权
2007-03-28

实质审查的生效

实质审查的生效
2007-01-31

公开

公开

说明书

技术领域

本发明涉及用于控制向具有例如每秒24帧逐行扫描帧的第一格式图像序列插入附加场或者帧，以从中建立具有例如每秒25帧的第二格式图像的方法和装置。

背景技术

世界上主要的电视系统采用隔行扫描并且采用50Hz的场频率(例如在欧洲和中国采用PAL和SECAM)，或者60Hz或接近60Hz的场频率(例如在美国和日本采用NTSC)，分别以50i和60i来表示。然而，电影是采用由24p代表的24Hz的帧频率及逐行扫描制作而成的，这个值在隔行扫描格式下对应于48i。

目前，从24p的电影到60Hz隔行扫描显示的转换是由图2所示的“3:2下拉”技术完成的，其中由场循环在每五个场后加入一个3:2下拉场。隔行扫描场ILF源自于原始的电影帧ORGFF。从第一原始电影帧OFR1产生三个输出场OF1到OF3，并且从第三原始电影帧OFR3产生三个输出场OF6到OF8。从第二原始电影帧OFR2产生两个输出场OF4和OF5，并且从第四原始电影帧OFR4产生两个输出场OF9和OF10，等等。

比较理想的是所发行媒体具备可以在全世界播放的单一视频音频格式，而不是像目前的情况，针对每一套装媒体例如DVD至少存在50Hz和60Hz两个版本。因为很多媒体源都是由24fps(帧每秒)的电影组成，该24p的格式就优选地成为理想的单一视频格式，因此该单一的格式需要适应在所述采用50Hz和60Hz的国家的显示设备上进行正确显示的回放时间。

以下是用于从24p到25p或者50i，或者更概括地说到25fps的已知转换方案：

-以快4.2％的速度重放：这会改变所述内容的长度并且要求昂贵的实时音频音调转换，因此并不适用于消费电子产品。目前，电影播放以及DVD确实将该种方案应用于视频，但是所必需的音频速度或者音调转换已经在内容提供商一端进行了处理，从而在消费者一端不需要进行音频音调转换。在采用50Hz的国家销售的DVD视频光盘包括音频数据流，这些音频数据流已经被编码从而使得所述DVD播放器的解码器自动的输出所述音频信号的正确速度或者音调。

-采用常规场/帧复制机制：该方案会导致不可接受的常规的运动抖动，并且因此在实际中无法应用。

-采用运动补偿帧速度转换：该方案是解决该转换问题的普遍方案，该方案十分昂贵，因此并不适用于消费电子产品。

发明内容

目前，从原始的24p格式电影视频及音频数据流到50Hz的隔行扫描显示的转换是通过以快4％的速度重放所述电影来实现的。然而这意味着，要对采用50Hz的国家的电影的艺术内容(它的持续时间，声音的音调)进行修改。类似于3:2下拉技术的场/帧重复机制并没有被采用，因为在常规情况下采用所述机制时，例如每12帧插入一个额外的场，所述机制表现出不可接受的运动抖动现象。

本发明要解决的问题在于提供场或帧插入机制，以改进的方式实现从24p格式到25fps格式的转换，从而使运动抖动现象最小化。解决该问题的方法由权利要求1所述。权利要求2所述的装置对该方法进行了应用。

对当前电影场景的特性例如全局运动，亮度/强度级别以及场景变换位置进行评估，以在主观认为不令人厌烦的位置上应用复制或重复的帧/场。也就是说，本发明采用相对容易得到的待从24p转换到25fps的所述源材料的信息，用于在导致插入现象最小的非等距位置适应性的插入重复的场/帧。有利地，在源的帧速率和目标帧速率之间具有微小差距的情况下，本发明可以用于所有的帧速率转换问题。如果该帧速率差别很大，例如在24fps到30fps的转换中，几乎就没有在时域进行移动或者对帧进行重复的的自由度。

本发明促进了以低计算成本实现从24fps到25fps格式图像序列(示例值)的转换，并使运动抖动最小化。

总的来说，本发明所记载的方法适用于控制向第一格式图像序列插入附加的场或者帧，以从中建立第二格式图像序列，所述第二格式图像序列的帧频率是恒定的并且大于所述第一格式图像序列的帧频率，所述方法包括下列步骤：

-确定所述第一格式图像序列中的场或者帧位置，在该位置上插入相应的附加场或者帧，从而使得在第二格式图像序列中可见的运动抖动最小；

-以非常规的场或者帧插入距离在所述第一格式图像序列中的一些所述位置插入场或者帧，从而使得总的来说任何临近帧之间平均距离对应于所述第二格式图像序列的临近帧之间的平均距离；

-采用所述第二格式图像序列的格式一起呈现所述第一格式图像序列以及所述非常规插入的场和/或帧，

总的来说，本发明所记载的装置适用于控制向第一格式图像序列插入附加的场或者帧，以从中建立第二格式图像序列，所述第二格式图像序列的帧频率是恒定的并且大于所述第一格式图像序列的帧频率，所述装置包括用于确定在所述第一格式图像序列中的场或帧位置的部件，在该位置上插入对应的附加场或帧，从而使所述第二格式图像序列中的可见运动抖动最小，

所述装置还用于以非常规场或帧插入距离在一些所述位置上向所述第一格式图像序列插入场或帧，从而使得总体来说任何临近帧之间的平均距离对应于所述第二格式图像序列中任何临近帧之间的平均距离，

所述装置还用于以所述第二格式图像序列的格式一起呈现所述第一格式图像序列以及所述非常规插入的场和/或帧。

在从属权利要求中对本发明其他具有优势的实施例分别予以说明。

附图说明

参照以下附图对本发明具体实施例进行详细描述，其中：

图1所示为光盘播放器的简要框图；

图2所示为在24p源图像序列上采用3:2下拉技术以提供60i的图像序列的应用；

图3所示为重复帧的常规排列；

图4所示为重复场的常规排列；

图5所示为根据图3进行常规帧重复的时间轴；

图6所示为视频序列对于运动抖动的示例容许值；

图7所示为进行场或帧重复的示例非常规时间位置以及所导致的变化呈现延迟；

图8所示为作为视频延迟以及运动抖动容许值函数的帧或场重复距离；

图9所示为图8所示的帧或场重复距离函数，其中所述最大和最小视频延迟取决于所要求的唇同步程度；

图10所示为包括没有进行运动补偿的重复帧的24fps格式帧；

图11所示为与图10相关的25fps格式帧输出；

图12所示为包括进行了运动补偿的重复帧的24fps格式帧；

图13所示为与图12相关的25fps格式帧输出。

具体实施方式

在图1中一个光盘驱动器从光盘D读入以24p格式编码的视频和音频信号，所述光盘驱动器包括读取头和纠错PEC。所述输出信号经过一个轨道缓冲器以及多路分离器TBM分别到达视频解码器VDEC以及音频解码器ADEC。控制器CTRL可以控制PEC、TBM、VDEC和ADEC。用户接口UI，和/或在电视接收器或显示器(没有示出)与所述光盘播放器之间的接口IF，被用于将所述播放器的输出转换到24fps模式或者25fps模式。所述接口IF可以自动检查所述电视接收器或者显示器可以处理并呈现的模式。所述重放模式信息自动地源自于接口IF接收到的特征数据(即关于所述电视接收器或者显示器可用的显示模式的数据)，所述接口IF通过有线、无线电波或者光学方式与所述电视接收器或者显示设备相连。所述特征数据可以常规地由所述接口IF接收，或者通过向所述电视接收器或者显示设备发出相应的请求而得到。作为选择，所述重放模式信息可以通过向用户显示相应请求而通过所述用户接口UI被输入。在25fps的输出来自于所述视频解码器VDEC、所述控制器CTRL，或者来自于所述视频解码器VDEC自身的情况下，根据所述被解码视频信号的特性来确定在哪个时间位置上由所述视频解码器对场或帧进行重复。在本发明的一些实施例中，这些时间位置也如下所述地被所述来自于音频解码器ADEC的音频信号所控制。除了光盘播放器，本发明也可以被用于其他类型的设备，例如数字机顶盒或者数字电视接收器，在这种情况下包括所述光盘驱动器以及轨道缓冲器的前端会被数字信号调谐器所替代。

图3所示为重复帧的常规排列，其中为了实现从已知24p到25fps的转换，每24帧重复一帧，即在t_n，t_n+1，t_n+2，t_n+3，等秒进行重复。图4所示为重复场的常规排列，其中为了实现从已知24p到25fps的转换，每24场重复一场，即在t_n，t_n+0.5，t_n+1，t_n+1.5，t_n+2，等秒进行重复。如果所述显示设备具有隔行扫描输出则可以采用该种处理方法。在所述时间轴上发生抖动的位置数目加倍，但是相对于所述帧重复，每次“抖动事件”的强度减半。顶部的场源自于所述源序列指定帧的第一、三、五等线，且底部的场来自于所述源序列指定帧的第二、四、六等线。图5所示为根据图3进行常规帧重复的时间轴，在标记着t_n，t_n+1，t_n+2，t_n+3，等秒的时间位置发生帧重复。

为了实现在非等距(或者不规律)的位置适应性地插入重复场或者帧，就需要相应的控制信息。有关源材料的内容信息以及图像信号特征，在根据例如MPEG-2视频，MPEG-4视频或者MPEG-4视频第10部分的机制对所述图像序列进行压缩时即可获得，该信息和特征将不仅被用于产生广播和套装媒体例如DVD，还可被用于未来的媒体例如基于蓝光技术的光盘。在本发明中有用的图像信号特征或信息是：

-被产生和/或传输的运动矢量，

-由编码器产生的场景变换信息，

-平均亮度或者强度信息，该信息可以源自于对DC转换系数的分析，

-平均纹理强度信息，该信息可以源自于对AC转换系数的分析。

该图像信号特征可以作为MPEG用户数据或者专用数据通过光盘或者广播从所述编码器传递到所述解码器。作为选择，所述视频解码器可以收集或者计算并提供该信息。

为了对运动矢量信息进行利用，对每一帧的运动矢量组MV进行收集和处理，以判断当前帧是否包含大块的可见移动区域，因为这样的区域在复制帧或者场时受运动抖动影响最大。为了判断该种区域的出现情况，可以对一帧的平均绝对矢量长度AvgMV_i进行计算，以作为平移运动的指示：

$>>>AvgMV>i>>=>>1>>VX>·>VY>>>>Σ>>x>=>0>>>VX>->1>>>>Σ>>y>=>0>>>VY>->1>>>|>>MV>>x>,>y>>>|>,>->->->>(>1>)>>>s>$

其中“i”代表帧号码，“VX”以及“VY”代表在图像x(水平)和y(竖直)方向的运动矢量数目。因此，一般将各方向上的图像大小除以运动估计的块大小可以分别得到VX和VY。

如果在一帧内的运动矢量指向与当前帧相距不同的时间距离的不同参考帧，还需要一个对该距离进行规格化的因数RDist_x，y：

$>>>AvgMV>i>>=>>1>>VX>·>VY>>>>Σ>>x>=>0>>>VX>->1>>>>Σ>>y>=>0>>>VY>->1>>>>>|>>MV>>x>,>y>>>|>>>RDist>>x>,>y>>>>.>->->->>(>2>)>>>s>$

在采用了更加复杂的处理过程的本发明的另一实施例中，对每幅图像的运动分割进行了计算，即确定由邻近并且具有相似的运动矢量长度和方向的块组成的一个或多个簇，从而对具有不同运动方向的足够大的运动区域进行检测。在该种情况下，对所述平均运动矢量的计算如下：

$>>>AvgMV>i>>=>>>>Σ>>c>=>1>>nClusters>>>AvgMV>c>>·>ClusterSi>>ze>c>>>>>Σ>>c>=>1>>nClusters>>>ClusterSize>c>>>>,>->->->>(>2>a>)>>>s>$

其中AvgMV_c是确定簇“c”的平均运动矢量长度。

有利地，该方案排除了在图像内部随机移动的小对象带来的运动矢量影响，所述小对象并不是任何确定的块簇运动的组成部分，也不会对运动抖动的可见度带来很大影响。

所述处理过程会将所述移动区域的纹理是否非常粗糙或者具有非常尖锐的边缘作为AvgMV_i的权重因数，因为这也会提高运动抖动的可见度。有关纹理强度的信息可以最方便的源自于对被传输或被接收或被重放的估计误差的AC转换系数的统计分析。总的来说，应该通过对原始图像块进行分析来确定纹理强度，然而在很多情况下，所述具有强烈纹理的块在采用运动补偿估计进行编码后，在这些块的AC系数中也会比具有较弱纹理的块更多的估计误差能量。因此，在所述视频序列的特定时间位置上的所述运动抖动容许值MJT可以被表达为：

MJT＝f(AvgMV，纹理强度，边缘强度) (3)

并具备以下一般特性：

-已知确定的纹理强度值和边缘强度值，MJT与1/AvgMV成比例；

-已知确定的AvgMV值和边缘强度值，MJT与1/(纹理强度)成比例；

-已知确定的AvgMV值和纹理强度值，MJT与1/(边缘强度)成比例。

图6所示为源序列的运动抖动的示例容许值MJT(t)。

优选地，如图7a所示，当前所述运动抖动容许值的大小影响重复帧或者场的分布，即所述帧或者场的重复距离FRD，这些重复帧或者场被插入以得到25fps序列。如图7b所示，提早或者延迟插入重复帧会引起所述音频轨道相对于视频轨道的负向或者正向延迟，即视频的变化呈现延迟。当从运动抖动容许值MJT到帧或者场重复距离FRD之间建立映射的时候，要对在两个方向上能容许的最大的视频相对于音频的延迟加以考虑。

图8所示为解决该控制问题的一个可能的方案。所述帧或者场重复距离FRD可以表达为所述视频延迟VD以及所述运动抖动容许值MJT的函数：

FRD＝f(VD，MJT)， (4)

并具备以下一般特性：

-已知确定的VD值，FRD与1/MJT成比例；

-已知确定的MJT值，FRD与1/VD成比例；

如图8所示，这个关系可以通过FRD＝f(VD)的特性来表达，该特性的变化取决于所述运动抖动容许值，在运动抖容许值低的情况下(例如高度运动的情况)，倾向于比被插入帧之间的最优距离长的距离，并在运动抖动容许值高的情况下(例如低于平均运动水平的情况)，倾向于比最优距离短的距离。所述最优场或者帧重复距离由FRD_opt所代表。所允许的最大视频延迟由VD_max所代表。在负方向所允许的最大视频延迟由VD_min所代表。

由于在场景变化位置的短暂停帧效果并不被认为是令人厌烦的，由视频编码器产生的(或由视频解码器产生的)场景变化信息可以用于在该位置上插入一个或多个重复的场或者帧，所重复的次数取决于当前视频延迟的程度。由于相同的原因，可以在逐渐变黑序列、逐渐变白序列或者逐渐趋近于任一颜色的序列之后插入重复的场或者帧。所有这样的特定位置都具有非常高的MJT值。

很显然，在所述位置可以采用重复的帧，尽管在其他图像内容中在个别的位置上仅对场进行重复以降低运动抖动强度。总的来说，重复的帧和重复的场可以在被转换的图像序列中共存。

对于可感知的唇同步来说，通常能够接受的延迟范围仅仅在至少有一个演讲者出现在所述场景以内的时候才需要被遵守。因此，当没有演讲者出现的时候，在音频和视频呈现之间的延迟可以大于上述范围。在快速运动场景的情况下通常是这种情况。因此，可以如图9所示进行附加控制，从而可以使所述视频延迟范围VD_min和VD_max在以下数值之间进行平稳的转换或者调整：

-在唇同步可接受值VD_minLipSync和VD_maxLipSync之间，如果所检测到语音或者短的声音峰值(由特殊事件如拍门引起的)以及缓慢移动或者静态的场景；

-否则就在更大的VD值VD_min和VD_max之间。

对语音的检测可以源于在例如最常用的多声道音频情况下对与左右声道相关的中央声道进行的评估，因为在电影中语音通常被编码入所述中央声道。如果所述中央声道表现出随着时间爆发的能量分布，并且该分布显著的区别于所述左右声道的能量分布，那么出现语音的可能性就很高。

上述为了适应性地确定所述本地帧重复距离而进行的控制对于通过视频序列的一次运算来说是有效的。然而，所述控制受益于在许多专业MPEG-2编码器中进行的二重运算编码处理。在该种情况下，所述二重运算的第一次运算用于收集所述运动强度曲线，场景切换位置以及需要严格唇同步的场景的序号、标号、位置以及长度，黑帧，等等。随后应用经过改进的控制机制，该机制不仅考虑到目前处理的帧及其过去帧的可用信息，还对过去以及未来帧的相邻帧信息加以考虑：

FRD(i)＝f(VD，MJT(i-k)...MJT(i+k))， (5)

其中“i”代表当前帧的号码，且“k”代表以临近帧为参考的流水号。每个这样的函数的普遍特性是如果MJT(i)小于周围的MJT值则FRD增大，且如果MJT(i)大于周围的MJT值的则FRD减小。相关的图像信号特性可以作为MPEG用户数据或者专用数据通过光盘或者广播信号从所述编码器向所述解码器进行传递。

在本发明的另一个实施例中，在特定情况下采用运动补偿插值帧而不是重复帧并不会产生运算方面的花费。该运动补偿插值可以将被传输的运动矢量应用于当前帧。一般来说，该运动矢量不适用于运动补偿帧插值，因为这些运动矢量都被优化以实现最优的估计增益而不是指示真实的运动场景。然而，如果经过解码器对所接收到的运动矢量进行分析后表明所述场景发生了同类的平移，则可以在当前帧和前一帧之间插入高度精确的一帧。平移的含义是一帧内所有的运动矢量在长度以及方向上是相同或者几乎相同的。因此，被插值帧的产生可以通过以当前帧的平均运动矢量所指示距离的一半对前一帧进行转换来实现。所述前一帧被认为是所述当前帧运动补偿估计的参考帧，并且所述被插值帧被置于与所述前一帧和所述当前帧等距的位置。如果所述估计帧不是所述前一帧，则要对平均运动矢量进行必要的缩放。要对根据接收到的运动矢量而确定存在缩放的情况加以相应的考虑。缩放的特征是缩放中心的运动矢量为零，并且在该缩放中心周围按照从中心向外(或者从外向中心)的方向运动矢量长度增加，所述运动矢量长度的增加与到所述缩放中心的距离相关。

有利地，如图10到13所示，相对于重复帧该种运动补偿插值在运动抖动表现方面作出了改进。图10和图11显示了带有竖直运动对象的运动轨迹的帧(由竖直的条代表)以及帧重复的一种情况，这会导致‘停帧’现象，其中图10为采用了24fps的格式的情况，图11所示为进行25fps格式转换后的情况。图12所示为以图13所示的提高的25fps目标帧速率进行呈现时插入运动插值帧的情况，这将导致‘缓慢运动帧’而不是‘停帧’。

如上所述为了实现帧速率转换可以实施对帧和/或场重复以及插值的控制，该控制可以应用于MPEG-2(或者类似)压缩系统的编码器和解码器端，因为在该两端可以获得大部分的端信息，可能除了可靠的场景变化指示以外。然而，为了利用所述解码器的高级图像序列特性信息，可以在(MPEG-2或者其他)被压缩的24fps视频信号中传送所要进行重复或者插值的场或者帧位置信息。在MPEG-2语法中已经存在指示场时间顺序的标记(top_field_first)和为了进行显示而对第一场进行重复的标记(repeat_first_field)。如果要求以信号发出针对同一视频信号的从24fps到30fps和从24fps到25fps的转换模式，在每幅图像的合适的用户数据场中要对上述两系列标记中的一系列进行传送。

上面提到的24fps值和25fps值以及其他的数字都是示例性的数值，这些值可以相应的用于本发明的其他应用之中。

本发明可以应用于：

-套装媒体(DVD，蓝光光盘，等)，

-下载媒体包括视频点播，近视频点播，等，

-广播媒体。

本发明可以用于光盘播放器或者光盘刻录机，或者硬盘录像机例如HDD录像机或者PC，还可以应用于机顶盒，或者电视接收器。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 用于控制向第一格式图像序列插入附加场或帧以从中建立第二格式图像序列的方法和装置 [P] . 中国专利： CN100581235C . 2010.01.13
2. 用于控制向第一格式图像序列插入附加场或帧以从中建立第二格式图像序列的方法和装置 [P] . 中国专利： CN1906937A . 2007-01-31
3. Method and Apparatus for Controlling the Insertion of Additional Fields or Frames Into a First Format Picture Sequence in Order to Construct Therefrom a Second Format Picture Sequence [P] . 美国专利： US2008232784A1 . 2008-09-25

机译：控制附加场或帧到第一格式图像序列中的插入以便从其构造第二格式图像序列的方法和装置
4. Method and the device which control, the additional field to the picture sequence of the 1st format in order to construct the picture sequence of the 2nd format from the picture sequence of the 1st format or the insertion of the additional frame [P] . 日本专利： JP2007519348A . 2007-07-12

机译：控制第一格式的图像序列的附加字段以根据第一格式的图像序列或附加帧的插入来构造第二格式的图像序列的方法和装置
5. METHOD AND APPARATUS FOR CONTROLING THE ADDITION OF ADDITIONAL FIELDS OR FRAMES IN A FIRST FORMAT IMAGE SEQUENCE TO BUILD FROM THE SAME SECOND FORMAT IMAGE SEQUENCE [P] . BRPI0418350B1 . 2019-07-09

机译：用于控制从相同的第二格式图像序列构建的第一格式图像序列中的附加字段或帧的添加的方法和装置