首页> 中国专利> 用于产生和再现包括2维图像和3维立体图像的图像文件的系统和方法

用于产生和再现包括2维图像和3维立体图像的图像文件的系统和方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

一种装置包括：存储单元，用于接收和存储图像文件；处理器，用于解析该图像文件的包括一个或多个图像数据样本的媒体数据字段，并解析包括指示所述一个或多个图像数据样本中的每一个是否是2维(2D)图像数据和3维(3D)立体图像数据其中之一的图像类型数据字段的媒体首标字段，以便基于该图像文件的图像类型数据字段产生与2D图像和3D立体图像其中之一对应的图像；以及显示单元，用于根据该图像文件的图像类型数据字段显示所产生的图像。

著录项

公开/公告号CN101897194A

专利类型发明专利
公开/公告日2010-11-24

原文格式PDF
申请/专利权人三星电子株式会社;
展开▼

申请/专利号CN200880120058.2
发明设计人黄栖煐;李健日;宋在涓;金容台;
展开▼

申请日2008-12-05
分类号H04N13/00;H04N13/02;
代理机构北京市柳沈律师事务所;
代理人钱大勇
地址韩国京畿道
入库时间 2023-12-18 01:13:49

法律信息

法律状态公告日

法律状态信息

法律状态
2012-12-12

授权

授权
2011-01-05

实质审查的生效 IPC(主分类):H04N13/00 申请日:20081205

实质审查的生效
2010-11-24

公开

公开

说明书

技术领域

本发明涉及基于2D图像媒体标准产生和再现包括二维(2D)图像和三维(3D)立体图像的图像文件的系统和方法。更具体地说，本发明涉及能够交替地产生和再现2D图像和3D立体图像的文件格式、以及使用该文件格式来交替地产生和再现2D图像和3D立体图像的系统和方法。

背景技术

用于存储2D图像的文件格式标准在本领域是公知的。一般，作为多媒体领域的国际标准组织的运动图像专家组(MPEG)从1988年其对MPEG-1的第一次标准化以来已经发布MPEG-2、MPEG-4、MPEG-7和MPEG-21标准。因为已经开发了各种标准，已经产生通过组合不同标准技术来产生一个简档(profile)的需要。响应于该需要，已经开展MPEG-A(MPEG应用：ISO/ICE 230000)多媒体应用标准化活动用于存储和再现2D图像。

然而，到目前为止，用于存储3D立体图像的文件格式尚未被标准化。此外，在一般便携终端中包括2D和3D立体图像二者的文件格式、或使用此类文件格式的结构来产生和再现此类图像的系统和方法尚未被实现。这是很重要的，因为当以3D立体图像的形式产生图像文件时，用户不得不将图像文件中的非3D立体图像作为3D立体图像观看，从而造成用户的眼睛疲劳。这里，例如，此类图像可以是其中整个图像由字符配置而成的图像。

发明内容

本发明的一方面是解决至少以上所述的问题和/或不足并且提供至少以下所述的优点。因此，本发明的一方面是提供用于产生、存储、和再现3D立体图像的文件格式。

本发明的另一方面是提供基于用于产生、存储、和再现现有的2D图像的文件格式的用于3D立体图像的文件格式。

本发明的另一方面是提供通过使用用于3D立体图像的文件格式来产生和再现3D立体图像文件的系统和方法。

具体地，本发明提供包括3D立体图像和2D图像二者的文件格式以使得用户能够根据该文件格式来观看3D立体图像和2D图像。依据本发明的文件格式提供用于在一个图像文件中存储2D和3D立体图像二者。例如，3D立体图像一般可以提供于一个用于新闻内容的3D立体图像中，例如，而2D图像可以提供于仅包括字幕的图像中，从而给用户提供便利。

依据本发明的一方面，一种装置包括：存储单元，用于接收和存储图像文件；处理器，用于解析该图像文件的包括一个或多个图像数据样本的媒体数据字段，并解析包括指示所述一个或多个图像数据样本中的每一个是否是2D图像数据和3D立体图像数据其中之一的图像类型数据字段的媒体首标字段，以基于该图像文件的图像类型数据字段产生与2维(2D)图像和3维(3D)立体图像其中之一对应的图像；以及显示单元，用于根据该图像文件的图像类型数据字段显示所产生的图像。

依据本发明的另一方面，一种计算机实现的方法包括：接收图像文件；解析该图像文件的包括一个或多个图像数据样本的媒体数据字段；解析包括指示所述一个或多个图像数据样本中的每一个是否是2维(2D)图像数据和3维(3D)立体图像数据其中之一的图像类型数据字段的媒体首标字段；以及基于该图像文件的图像类型数据字段产生与2D图像和3D立体图像其中之一对应的图像。

依据本发明的另一方面，一种计算机可读介质，其上存储的数据结构包括：媒体数据字段，包括一个或多个图像数据样本；以及媒体首标字段，包括指示所述一个或多个图像数据样本中的每一个是否是2维(2D)图像数据和3维(3D)立体图像数据其中之一的图像类型数据字段。

通过结合附图公开了本发明的示范实施例的以下详细描述，本发明的其他方面、优点和特征对于本领域的技术人员将更明了。

附图说明

通过结合附图的以下描述，本发明的示范实施例的以上和其他方面、特征和优点将更明了，其中：

图1是说明根据现有技术的2D图像文件的存储格式的框图；

图2A是说明根据本发明的示范实施例的图像文件的存储格式的框图；

图2B是说明根据本发明的另一示范实施例的图像文件的存储格式的框图；

图2C是说明根据本发明的另一示范实施例的图像文件的存储格式的框图；

图2D是说明根据本发明的另一示范实施例的图像文件的存储格式的框图；

图2F是说明根据本发明的另一示范实施例的图像文件的存储格式的框图；

图2G是说明根据本发明的另一示范实施例的图像文件的存储格式的框图。

图2H是说明根据本发明的另一示范实施例的图像文件的存储格式的框图；

图3是说明根据本发明的示范实施例的图像文件产生装置的框图；

图4是说明根据本发明的示范实施例的图像文件再现装置的框图；

图5是说明根据本发明的示范实施例的产生图像文件的方法的流程图；

图6是说明根据本发明的示范实施例的再现图像文件的方法的流程图；

图7是说明根据本发明的另一示范实施例的再现图像文件的方法的流程图；

图8是说明根据本发明的另一示范实施例的再现图像文件的方法的流程图；

图9是说明根据本发明的另一示范实施例的再现图像文件的方法的流程图；

图10是说明根据本发明的另一示范实施例的再现图像文件的方法的流程图；以及

图11是说明根据本发明的实现随机访问的方法的流程图。

贯穿附图，应注意相似参考数字用于表示相同或相似组件、特征和结构。

具体实施方式

参考附图提供以下说明以帮助充分理解由权利要求书及其等价物限定的本发明的示范实施例。其包括用于帮助理解的各种细节，但是这些应当被看作仅仅是示范。因此，本领域的普通技术人员将认识到，可以对这里所述的实施例进行各种变更和修改而不背离本发明的精神和范围。

在描述根据本发明的示范实施例的用于存储三维(3D)立体图像的格式之前，将描述基于传统的国际标准组织(ISO)标准的二维(2D)图像文件的存储格式。图1是说明基于传统的ISO 14496-12标准的2D图像的文件格式的框图。参考图1，2D图像文件格式100包括上层的文件区域ftyp 110、moov区域120、以及mdat区域130。mdat区域130是文件格式的数据区域，并且包括图像轨道131内的实际图像数据132和语音轨道133内的语音数据134。每个轨道包括在帧单元中存储的分别的图像数据和语音数据。

moov区域120与文件格式的首标区域对应并且具有基于对象的结构。moov区域120包括再现文件所需的全部信息，包括内容信息(如，帧速率、比特率、图像尺寸等)和用于支持快进/退(FF/REW)的再现功能的同步信息。具体地，moov区域120包括诸如图像数据和语音数据内帧的数量、每个帧的尺寸等的信息，从而使得有可能在再现期间通过解析moov区域120来恢复和再现图像数据和语音数据。

不同于现有技术，本发明的示范实施例包括提供用于2D和3D立体图像二者的图像文件的存储格式、以及使用本发明的存储格式来产生和再现图像文件的系统。具体地，本发明的示范实施例的特征在于，可以根据内容的特性将图像文件的每个部分实现为2D图像或3D立体图像的形式。例如，在包括许多字符的部分中，将该部分显示为3D立体图像造成用户的眼睛疲劳。因此，将该部分作为2D图像存储和再现。将要求有节奏的运动或三维效果的部分作为3D立体图像存储和再现。从而，实现适合于内容的特性的图像文件的格式。

下文中，将参考图2A和2B描述根据本发明的示范实施例的适配为包括2D图像和3D立体图像的图像文件的存储格式。如上所述，根据本发明的示范实施例，包括2D图像和3D立体图像的图像文件201和202包括具有关于有关2D图像和3D立体图像的图像文件的信息的框(box)(即，字段)。

依据本发明，可以将包括关于有关2D图像和3D立体图像的图像文件的信息的框直接插入文件区域、moov区域、或轨道区域，或者作为元框的一部分，或者可以插入包括轨道区域中样本的信息的样本表框(如，“stbl”框)。样本是指用于在文件格式内划分图像的基本单元，诸如帧。

图2A说明图像文件的存储格式，其中将3D立体图像文件包括在一个图像流中。如图2A所示，图像文件的数据结构201包括上层文件区域Ftyp 210、与首标区域对应的Moov区域220、与数据区域对应的Mdata区域240、以及元数据区域230。这里，Mdata区域240包括图像轨道241和语音轨道245，其中图像数据存储在图像轨道241中，而语音数据存储在语音轨道245。图像轨道241包括用于2D图像的第一图像数据(记作“1”)和用于3D立体图像的第二和第三图像数据(记作“2”和“3”)。这里，第二图像数据和第三图像数据可以分别是单个对象(subject)的左视图图像数据和右视图图像数据。例如，如果表示从左视图和右视图拍摄的单个对象的左视图和右视图图像数据被交错和显示，则用户可以看到三维效果。

图2A说明一个示例，其中每个片段242、243、和244分别包括3D立体图像数据、2D图像数据、和3D立体图像数据的数据样本。根据特定内容的每个部分的特性将图像数据的顺序定义为2D图像或3D立体图像。此外，如果依据本发明被预先确定存储在片段242和244中的3D立体图像的第二图像数据和第三图像数据的存储方案，则可以按照任何期望的方式产生和再现图像文件。例如，图2A示出一种方法的示例，其中片段242和244包括交替存储的每个第二图像数据(即，样本2)和第三图像数据(即，样本3)，其中每个样本是帧单元。替换地，可以有一种方案，其中将第二图像数据和第三图像数据并排存储为帧单元，或者可以将图像数据划分为小数据以便以交替的方式存储为帧单元。

包括在语音轨道245中的语音数据246、247、和248是分别用于每个片段242、243、和244的语音数据。将语音数据与将要再现的片段242、243、和244的图像数据同步。

Moov区域220与数据结构的首标区域对应，并且包括关于图像轨道的信息221和关于语音轨道的信息222。关于图像轨道的信息221包括用于再现文件的一般信息，包括内容信息，诸如帧率、比特率、图像尺寸等，以及同步信息，用于支持诸如快进/退(FF/REW)的再现功能。具体地，Moov区域220包括诸如图像轨道241内图像数据和语音轨道245内语音数据的帧的总数量、每个帧的尺寸等的信息。因此，有可能在再现期间通过解析Moov区域220来恢复和再现图像数据和语音数据。

本发明包括一个框，其包括指示由第一图像数据、第二图像数据、和第三图像数据产生的每个帧是用于2D图像还是3D立体图像的识别信息。如图2A所示，Moov区域220包括框231，其表示图像文件内的帧单元中存储的每个图像数据包括用于2D图像的图像数据还是用于3D立体图像的图像数据。在示范实施例中，可以将标志分配给每个帧并且设置以便表示帧的图像特性。识别信息例如包括关于包含用于2D图像和用于3D立体图像的连续帧的片段的数量的信息。从而，可以使用这样的信息以2D图像或3D立体图像的形式来恢复和再现图像文件。以下表1和2中例示以2D图像或3D立体图像的形式来恢复和再现图像文件的说明。

【表1】

【表2】

如表1和2，和图2A所示，第一片段242包括用于3D立体图像的第二图像数据和第三图像数据，第二片段243包括用于2D图像的第一图像数据，而第三片段244包括用于3D立体图像的第二图像数据和第三图像数据。这里，识别信息231指示表2所示的sample count和标志(Stereo Flag)。因此，可以通过参考指示存储在数据结构201中的图像是2D图像还是3D立体图像的信息231来恢复和再现存储在片段242、243、和244中的图像数据。识别信息包括用于解码第二图像数据和第三图像数据的信息、和用于同步第二图像数据和第三图像数据的信息，而且在再现期间参考信息231。

将参考图2B描述本发明的另一示范实施例。图2B是说明根据本发明的另一示范实施例的3D立体图像文件的存储格式的框图。在图2B所示的示范实施例中，有两个图像轨道而非如图2A所示的一个图像轨道。3D立体图像文件的数据结构202包括上层文件区域Ftyp 250、与首标区域对应的Moov区域260、与数据区域对应的Mdata区域280、以及元数据区域270。为了简洁，未重复与图2A的基本相同的说明。

简要地，关于第一图像轨道和第二图像轨道的信息261和262、关于语音轨道的信息263基本上与图2A的信息221和222相同，片段293、294、和295基本上与片段242、243、和244相同，包括语音数据290、291和292的语音轨道289基本上与包括语音数据246、247、和248的语音轨道245相同，而信息272与信息231基本上相同。第一图像轨道281包括与来自一个视图角度(如左视图图像)的图像对应的第二图像数据282和284和与2D图像对应的第一图像数据283。第二图像轨道285包括与来自不同的视图角度(如右视图图像)的图像对应的第三图像数据286和288和与2D图像对应的第一图像数据287。也即，左视图图像和右视图图像分别存储在不同的图像轨道中，而第一图像数据283和第一图像数据287对应于相同的图像。因此，除了前述的信息之外，指示图像是2D图像还是3D立体图像的识别信息272还包括关于两个2D图像数据(即，第一图像数据283和第一图像数据287之间)的哪个将被用于2D图像的信息。也即，可以根据关于第一图像轨道281和第二图像轨道285之间哪个图像轨道被设置为主图像轨道的信息来确定将被用于2D图像的图像数据。

表3表示用作根据本发明的用于包括2D图像和3D立体图像的图像文件的存储格式的标准的信息框。通常遵循ISO/IEC 14496-12 ISO基本媒体格式来定义所述标准。

【表3】

[定义]Box Type：′svmi′Container：Meta Box(′meta′)or Sample Table Box(‘stbl’)Mandatory：YesQuantity：Exactly on[语法]

aligned(8)class StereoscopicVideoInformationBox extends FullBox(′svmi′，version＝0，0) { //stereoscopic visual type information unsigned int(8)stereoscopic_composition_type； unsigned int(1)is_left_first； unsigned int(7)reserved； //stereoscopic fragment information unsigned int(1)is_all_stereo； unsigned int(7)reserved； if(is_all_stereo＝＝0) { unsigned int(1)is_main_media； unsigned int(7)reserved； unsigned int(32)entry_count； for(i＝0；i＜entry_count；i++) { unsigned int(32)sample_count； unsigned int(8)stereo_flag； }

} } [语义] stereoscopic_composition_type：立体视频内容的帧构成形式(0：并排，1：垂直行交错，2：帧连续，3：单像左图像，4：单像右图像) is_left_first：表示左图像和右图像之间哪个被首先编码 is_all_stereo：表示ES内的片段是全部立体片段(0：单像，1：立体) is_main_media：表示ES内的单像内容是主媒体(0：子媒体，1：主媒体) entry_count：包括具有连续值的样本的片段的数目 sample_count：具有连续值的样本的数目 stereo_flag：表示当前帧是立体还是单像(0：单像，1：立体)

图像信息框(如，“svmi”框)可以是存储关于图像文件(ES)中包括的每个样本的立体/单像信息的框。因此，包括图像信息框(如，“svmi”框)的容器可以是元框或样本表框(如，“stbl”框)。容器是指包括当前框的更高层的框。因此，包括图像信息框(如，“svmi”框)的容器可以是如图2B和以下示出的表4A所示的元数据区域270，并且也可以被包括在如下面表4B所示的样本表框(如，“stbl”框)中。因此，在下面所示的表3、6、8、9中表示在容器中新增加的部分。根据本发明，包括图像信息框(如，“svmi”框)的容器是指元框或样本表框(如，“stbl”框)。可是，应该理解它可以被自由移动到在关于ISO/IEC 14496-12ISO基本媒体文件格式的框中的任何一个表的更合适的位置。

【表4A】

meta metadata Hdlr handler Dinf data information box dref dta reference box

ipmc PMP control box iloc item location ipro item protection sinf protection scheme information box frma original format box imif IPMP information box schm scheme type box schi scheme information box linf item information xml XML container bxml binary XML container pitm primary item reference svmi stereoscopic video media information box

图4B表示，其中图像信息框(如，“svmi”框)可以插入到子“stbl”框容器的框的表格，例如，在ISO/IEC 23000-11立体视频应用格式的文件结构中。此外，根据本发明的示范实施例的每个图像信息框(如，“svmi”框)可以被包括在文件区域、moov区域、或轨道区域中。

【表4B】

Ftyp file type and compatibility pdin Progressive download Information moov container for all the metadata mvhd movie header，overall declarations trak container for an individual track or stream

tkhd track header，overall information about the track tref track reference container edts edit list container elst an edit list mdia container for the media information in a track mdhd media header，overall information about the media hdlr handler，declares the media(handler)type minf media information container vmhd video media header，overall information (video track only) smhd sound media header，overall information(sound track only) hmhd hint media header，overall information(hint track only) nmhd Null media header，overall information(some tracks only) dinf data information box，container dref data reference box，declares soure(s)of media data in track stbl sample table box，container for the time/space map

stsd sample descriptions(codec types， initialization etc.) stts (decoding)time-to-sample stsc sample-to-chunk，partial data-offset information stsz sample sizes(framing) stz2 compact sample sizes(framing) stco chunk offset，partial data-offset information co64 64-bit chunk offset stss sync sample table(random access point) svmi stereoscopic video media information ipmc IPMP Control Box mdat media data container meta metadata hdlr handler，declares the metadata(handler) type iloc item location iinf item information xml XML container bxml binary XML container scdi stereoscopic camera and display information

图2B到2F说明根据本发明的各种示范实施例的图像文件的存储格式。

图2B说明其中3D立体图像文件包括两个图像流(如，在分开的图像流中存储的左图像和右图像)的情况下图像文件的存储格式，其中根据本发明的包含2D图像和3D立体图像的信息的框被加入moov区域(即，Moov 260)。

图2C说明其中3D立体图像文件包括一个图像流的情况下图像文件的存储格式，其中根据本发明的包含2D图像和3D立体图像的信息的框被加入到文件区域(即，Ftype 210)。

图2D说明其中3D立体图像文件包括两个图像流(如，在分开的图像流中存储的左图像和右图像)的情况下图像文件的存储格式，其中根据本发明的包含2D图像和3D立体图像的信息的框被加入到文件区域(即，Ftype250)。

图2E说明其中3D立体图像文件包括一个图像流的情况下图像文件的存储格式，其中根据本发明的包含2D图像和3D立体图像的信息的框被加入到轨道区域(即，轨道221)。

图2F说明其中3D立体图像文件包括两个图像流(如，在分开的图像流中存储的左图像和右图像)的情况下图像文件的存储格式，其中根据本发明的包含2D图像和3D立体图像的信息的框被加入到各个轨道区域(即，轨道261和轨道262)。

图2A到2F说明本发明的示范实施例，其中包括关于包含2D图像和3D立体图像二者的图像文件的信息的图像信息框(如，“svmi”框)被包括在元框中，从而被插入到文件区域、moov区域、和轨道区域。

图2G和2H说明示范实施例，其中包括关于包含2D图像和3D立体图像二者的图像文件的信息的图像信息框(如，“svmi”框)被插入到轨道区域中包括图像文件的样本信息的样本表框(如，“stbl”框)。为了解释的目的，样本是指用于在文件格式内划分图像的基本单元，诸如帧。

图2G说明其中3D立体图像文件包括一个图像流的情况下图像文件的存储格式，其中根据本发明的包含2D图像和3D立体图像的信息的框被加入到样本表框(如，“stbl”框)。

图2H说明其中3D立体图像文件包括两个图像流(如，在分开的图像流中存储的左图像和右图像)的情况下图像文件的存储格式，其中根据本发明的包含2D图像和3D立体图像的信息的框被加入到样本表框(如，“stbl”框)。

如图2A到2H所示，图像信息框(如，“svmi”框)可以被加到现有图像文件格式的文件层和轨道层，而非moov层，从而能够通过各种图像文件格式产生图像文件。

下文中，将介绍与表2和3的示范实施例不同的本发明的替换的示范实施例、以及新修改的图像信息框(如，“svmi”框)。

在其中内容包括2D图像和3D立体图像二者的情况下的示范实施例中，如表6中所示描述修改后图像信息框的语法和语义。

【表5】

类型 S1 (立体) S2 (立体) S3 (立体) M1 (单像) M2 (单像) S4 (立体) 帧的数量 100 100 100 200 300 100

【表6】

[定义] Box Type：′svmi′ Container：Meta Box(′meta′)or Sample Table Box(′stbl′) Mandatory：Yes Quantity：Exactly one [语法] aligned(8)class StereoscopicVideoInformationBox extends FullBox(′svmi′， version＝0，0) { //stereoscopic visual type information unsigned int(8)stereoscopic_composition_type； unsigned int(1)is_left_first； unsigned int(7)reserved； //stereoscopic fragment_information unsigned int(32)entry_count； for(i＝0；i＜entry_count；i++) { unsigned int(32)sample_count； unsigned int(1)stereo_flag；

unsigned int(7)reserved； unsigned int(32)item_count； } } [语义] stereoscopic_composition_type：立体视频内容的帧构成类型(0：并排，1：垂直行交错，2：帧连续，3：单像左图像，4：单像右图像) is_left_first：表示左图像和右图像之间哪个被首先编码 entry_count：其中片段类型从立体到单像或从单像到立体变动的片段的数目 sample_count：具有连续值的样本的数目 stereo_flag：表示当前帧是立体还是单像(0：单像，1：立体) item_count：包括在条目中的片段的数目

使用表6的语法将表5的内容表示为表7。

【表7】

如果Entry_Count被定义为表3的语义，则存在无法识别当前条目内的片段构造的问题。因此，在示范实施例中，包含Item_Count的语法值以便解决上述问题。也即，当根据表6的语义定义Entry_Count时，仅当内容包括区分立体为第一个还是单像为第一个的标志值时，才可以省去Stereo_Flag，其如下定义。

【表8】

[定义] Box Type：′svmi′ Container：Meta Box(′meta′)or Sample Table Box(′stbl′) Mandatory：Yes Quantity：Exactly one [语法] aligned(8)class StereoscopicVideoInformationBox extends FullBox(′svmi′， version＝0，0) { //stereoscopic visual type information unsigned int(8)stereoscopic_composition_type； unsigned int(1)is_left_first； unsigned int(7)reserved； //stereoscopic fragment information unsigned int(32)entry count； unsigned int(1)is_stereo_first； unsigned int(7)reserved； for(i＝0；i＜entry_count；i++) { unsigned int(32)sample_count；

unsigned int(32)item_count； } } [语义] stereoscopic_composition_type：立体视频内容的帧构成类型(0：并排，1：垂直行交错，2：帧连续，3：单像左图像，4：单像右图像) is_left_first：表示左图像和右图像之间哪个被首先编码 entry_count：其中片段类型从立体到单像或从单像到立体变动的片段的数目 is_stereo_flag：表示在混合立体和单像的内容中哪种类型的图像被首先示出 (0：单像首先，1：立体首先) sample_count：具有连续值的样本的数目 item_count：包括在条目中的片段的数目

如果图像序列信息(is_stereo_first)的值是1，则内容按S→M→S→M→...的顺序来构造，其中“S”表示立体而“M”表示单像，而如果图像序列信息(is_stereo_first)的值是0，则内容按M→S→M→S→...的顺序来构造。

在另一示范实施例中，sample_count语法被剔除。在这种情况下，可以识别每个片段是立体还是单像，但是无法识别多少数目的帧是立体或单像。因此，可以使用ISO媒体文件格式中定义的项目位置框的语法和样本表框(如，“stbl”框)的子框的语法的值来确定立体或单像帧的数目。

【表9】

[定义] Box Type：′svmi′ Container：Meta Box(′meta′)or Sample Table Box(′stbl′)

Mandatory：Yes Quantity：Exactly one [语法] aligned(8)class StereoscopicVideoInformationBox extends FullBox(′svmi′， version＝0，0) { //stereoscopic visual type information unsigned int(8)stereoscopic_composition_type； unsigned int(1)is_left_first； unsigned int(7)reserved； //stereoscopic fragment information unsigned int(32)entry_count； for(i＝0；i＜entry_count；i++) { unsigned int(1)stereo_flag； unsigned int(1)reserved； } } [语义]

stereoscopic_composition_type：立体视频内容的帧构成类型(0：并排，1：垂直行交错，2：帧连续，3：单像左图像，4：单像右图像) is_left_first：表示左图像和右图像之间哪个被首先编码 entry_count：ES内片段的数目 stereo_flag：表示当前帧是立体还是单像(0：单像，1：立体)

此外，当终端执行对内容的随机访问时，其在从头开始使用样本尺寸框(如“stsz”框)的值顺序读取帧的尺寸的同时移动到期望的位置。如果使用本发明中定义的图像信息框(如，“svmi”框)的sample count语法值，则可以识别项目位置框(如“iloc”框)中每个片段的帧的数目、和每个片段的开始地址和尺寸。因此，使用那些值更有效地完成对预定位置的随机访问。

接着，将描述使用图2A到2H中所示的图像文件的数据结构201到208来产生和再现图像文件的示范系统。该系统一般包括图像文件产生装置和图像文件再现装置。首先，将参考图3描述根据本发明的示范实施例的图像文件产生装置。

如图3所示，根据本发明的图像文件产生装置包括第一照相机311、第二照相机312、输入单元320、图像信号处理单元330、存储单元340、编码单元350、和文件产生单元360。第一照相机311从左视图或右视图拍摄对象并接着输出第二图像数据。第二照相机312从不同于第一照相机311的视图拍摄对象并接着输出第三图像数据。应该理解，可以使用不同角度的多个视图而不脱离本发明的范围。然后，将用于2D图像的第一图像数据与第二图像数据和第三图像数据一起通过输入单元320输入。

通过图像信号处理单元330来预处理第一图像数据、第二图像数据、和第三图像数据。这里，预处理操作包括将模拟外部图像值(即，例如由电荷耦合器件(CCD)或互补金属氧化物半导体(CMOS)型传感器产生的光和颜色分量的模拟值)转换为数字值。

存储单元340存储通过图像信号处理单元330预处理的第一图像数据、第二图像数据、和第三图像数据，并且将存储的图像数据提供给编码单元350。图3示出存储单元340，但是并未单独示出可以包括的用于图3中所示的组件之间的缓冲的存储构造。编码单元350编码来自存储单元340的第一图像数据、第二图像数据、和第三图像数据。由编码单元350执行的编码操作是数据的编码，可以因场合需求而跳过。

文件产生单元360通过使用由编码单元350编码的第一图像数据、第二图像数据、和第三图像数据来产生图像文件370。在这种情况下，将第一图像数据、第二图像数据、和第三图像数据存储在数据区域(如，mdata区域)中，并将用于产生第一图像数据(即2D图像)以及第二图像数据和第三图像数据(即3D立体图像)的信息存储在首标区域(如，moov区域和元数据区域)中。所产生的图像文件370被输入和发送到立体图像文件再现装置，接着图像文件再现装置产生和再现来自图像文件370的2D图像和3D立体图像。下文中，将描述示范的图像文件再现装置。

图4是说明根据本发明的示范实施例的图像文件再现装置的框图。如图4所示，图像文件再现装置包括文件解析单元420、解码单元430、存储单元440、再现单元450、和显示单元460。

文件解析单元420接收和解析例如由图像文件产生装置的文件产生单元360产生的图像文件410(如图3的图像文件370)。在这种情况下，文件解析单元420解析分别存储在moov区域和元数据区域中的信息，然后提取存储在mdata区域的第一图像数据、第二图像数据、和第三图像数据。

解码单元430解码提取的第一图像数据、第二图像数据、和第三图像数据。在示范实施例中，在其中图像文件产生装置使用编码单元350编码数据的情况下执行解码。也即，如果文件产生装置跳过编码，则文件再现装置跳过解码。随后，将已解码的数据存储在存储单元440中。

再现单元450再现从存储在存储单元440中的第一图像数据产生的2D图像，并依据识别信息从存储在存储单元440中的第二图像数据和第三图像数据合成3D立体图像。然后，显示单元460显示所再现的2D图像和3D立体图像。显示单元460可以采用遮拦(barrier)液晶显示器(LCD)。在示范实施例中，如果图像文件的片段是2D图像则关闭遮拦LCD，如果图像文件的片段是3D立体图像则开启遮拦LCD，从而能够正确地显示图像。

接着，将描述使用依据本发明的图像文件的数据结构产生和再现图像文件的示范方法。

图5是说明根据本发明的示范实施例的产生图像文件的方法的流程图。如图5所示，该方法包括输入步骤S510、预处理步骤S520、编码步骤S530、和文件产生步骤S540。

在步骤S510，输入用于产生2D图像的第一图像数据、以及用于产生3D立体图像的第二图像数据和第三图像数据。例如，从左视图和/或右视图拍摄对象并输出第二图像数据和第三图像数据。在步骤S520，预处理在步骤S510中输入的第一图像数据、第二图像数据、和第三图像数据，并且将由CCD或CMOS型传感器产生的图像数据从模拟值转换为数字值。在步骤S530，根据预定的编码方案编码经过预处理的第一图像数据、第二图像数据、和第三图像数据。可以应场合需要跳过步骤S530。在步骤S540，通过使用在编码单元350中编码的第一图像数据、第二图像数据、和第三图像数据来产生图像文件。在这种情况下，可以根据图2A到2H中所述的图像文件的数据结构的任意一种来产生图像文件。

图6是说明根据本发明的示范实施例的再现图像文件的方法的流程图。如图6所示，用于再现图像文件的方法包括文件解析步骤S610、解码步骤S620、再现步骤S630、和显示步骤S640。

在步骤S610，通过使用存储在依据本发明产生的图像文件的moov区域和元数据区域中的信息来提取第一图像数据、第二图像数据、和第三图像数据。具体地，使用上述的识别信息提取图像数据。在步骤S620，解码第一图像数据、第二图像数据、和第三图像数据。如果在产生图像文件时跳过编码步骤，则解码步骤S620也被跳过。在步骤S630，将在步骤S620解码的第一图像数据、第二图像数据、和第三图像数据合成为将要再现的2D图像和3D立体图像。然后，在步骤S640，在显示单元460上显示在步骤S630产生的2D图像和3D立体图像。同样，显示单元460可以采用遮拦LCD，其中如果图像文件的片段是2D图像则关闭遮拦LCD，以及如果图像文件的片段是3D立体图像则开启遮拦LCD，从而能够正确地显示图像。

图7到10说明根据本发明的各种示范实施例的从解析到再现图像文件的终端的操作。

图7描述包括解析和再现依据本发明产生的图像文件的示范实施例。图7的实施例涉及包括表3所示的图像信息框(如，“svmi”框)的图像文件格式。图像信息框(如，“svmi”框)包括多个字段。所述字段的主功能是提供指示图像文件的每个帧是2D图像还是3D立体图像的信息，该信息提供标志值用于控制显示器(如LCD)的激活或不激活。

如图7所示，在步骤S710解析图像文件中的文件框(如“ftyp”框)。在示范实施例中，根据传统的ISO/IEC 14496-12标准来提供ftyp框。在步骤S720到S740中，分别解析图像文件的moov框、轨道框、和元框。在示范实施例中，也可以根据传统的ISO/IEC 14496-12标准来提供moov框和轨道框。在步骤S750，解析依据本发明的图像文件的图像信息框(如，“svmi”框)的每个字段以确定图像轨道内的每个帧包含的是2D图像还是3D立体图像。该信息主要通过sample_count和entry_count的字段来提供。

这里，entry_count是指图像文件内片段的数目。例如，6个图像可以按照以下顺序存储在图像文件中：3D立体图像(1)、3D立体图像(2)、3D立体图像(3)、2D图像(1)、2D图像(2)、和另一3D立体图像(4)。在该示例中，每个图像被称为片段。可是，应该理解片段的单位可以是帧、具有连续值的一组帧、或者借以划分3D立体图像和2D图像的间隔。sample_count是指包括在每个片段中的连续帧的数目。

因此，识别entry_count以确定图像内片段的数目，并识别sample_count以确定包括在每个片段中的帧的总数目。然后，识别stereo_flag，并识别包括在当前帧(即对应的片段)中的帧的集合的标志信息。通过标志信息，可以确定对应的片段是3D立体图像还是2D图像。然后，在步骤S760中按照3D立体图像或2D图像的形式解码每个已识别的帧。

在步骤S770中，根据图像信息框(如，“svmi”框)内stereo_flag的解析信息，控制遮拦LCD以使得，如果值为“1”，则激活遮拦LCD，而如果值为“0”，则不激活遮拦LCD。也即，在3D立体图像的情况下，可以将stereo_flag的值设置为“1”以便激活遮拦LCD，而在2D图像的情况下，可以将stereo_flag的值设置为“0”以便不激活遮拦LCD，由此使得遮拦LCD得到控制。同时，在激活的或未激活的遮拦LCD上再现和显示经解码的帧以使得用户能够看到图像。

图8是说明根据本发明的另一示范实施例的再现图像文件的方法的流程图。如图8所示，在步骤S810中解析图像文件中的文件框(如“ftyp”框)。然后，在步骤S820、S830和S840中分别解析图像文件的moov框、轨道框、和元框。接着，在步骤S850中，解析依据本发明的图像文件的图像信息框(如，“svmi”框)的每个字段以确定图像轨道内的每个帧包含的是2D图像还是3D立体图像。

本示范实施例中的entry_count不同于前一示范实施例。本示范实施例的entry_count是指其中片段的类型(即2D或3D)从立体到单像或从单像到立体变动的片段的数目。使用先前的图像文件示例，即便将3D立体图像(1)、3D立体图像(2)、3D立体图像(3)、2D图像(1)、2D图像(2)和3D立体图像(4)的6个图像依次包括在单个图像文件中，也基于3D立体图像和2D图像的类型变动而划分该图像。因此，entry_count是3(即，3D立体图像(1)-(3)、2D图像(1)-(2)，和3D立体图像(4))。识别entry_count以确定图像内片段的数目，并识别sample_count以确定包括在每个片段中的帧的总数目。然后，识别stereo_flag，并识别关于包括在当前帧(即对应的片段)中的帧的集合的标志信息。通过该标志信息，可以确定对应的片段是3D立体图像还是2D图像。然后，识别item_count，以便识别在entry_xount中识别的图像的每个条目内(在立体和单像的每个间隔内)片段的数目。片段的单位可以是帧、具有连续值的一组帧、或者借以划分3D立体图像和2D图像的间隔。解码和显示图像的步骤(步骤S860和S870)与图7所示的前一示范实施例的终端的操作相同。

图9是说明根据本发明的另一示范实施例的解析和再现图像文件的方法的流程图。如图9所示，在步骤S910解析图像文件中的文件框(如“ftyp”框)。然后，在步骤S920、S930、和S940分别解析图像文件的moov框、轨道框、和元框。接着，在步骤S950中，解析依据本发明的图像文件的图像信息框(如，“svmi”框)的每个字段以确定图像轨道内的每个帧包含的是2D图像还是3D立体图像。

本示范实施例中的entry_count和图8的示范实施例中的相同。也即，本示范实施例中的entry_count也是指其中片段的类型从立体到单像或从单像到立体变动的片段的数目。识别entry_count，识别图像内片段的数目，并识别编码序列(is_left_first)，从而识别3D立体图像和2D图像之间哪个图像间隔在对应的图像中被首先构造。例如，编码序列(is_left_first)的值可以被设置为“1”以指示内容按照S→M→S→M顺序排列，而且该值可以被设置为“0”来指示内容按照M→S→M→S顺序排列。然后，识别sample_count以确定包括在每个片段中的帧的总数目。接着，识别item_count从而识别从entry_count识别的图像的每个条目内(立体和单像的每个间隔内)片段的数目。片段的单位可以是帧、具有连续值的一组帧、或者借以划分3D立体图像和2D图像的间隔。然后，在步骤S960中将每个识别的帧解码为3D立体图像或2D图像。接着，利用通过解析图像信息框内的编码序列(is_left_first)获得的信息来控制遮拦LCD。在步骤S970中，在激活的或未激活的遮拦LCD上再现和显示解码帧从而允许用户观看图像。

图10是说明根据本发明的另一示范实施例的再现图像文件的方法的流程图。如图10所示，在步骤S1010解析图像文件中的文件框(如“ftyp”框)。然后，在步骤S1020、S1030、和S1040分别解析图像文件的moov框、轨道框、和元框。接着，在步骤S1050，解析依据本发明的图像文件的图像信息框(如，“svmi”框)的每个字段以确定图像轨道内的每个帧包含的是2D图像还是3D立体图像。

当前本示范实施例中的entry_count和图7的示范实施例中的相同，其中它指代图像文件内片段的数目。使用先前的图像文件示例，即便将3D立体图像(1)、3D立体图像(2)、3D立体图像(3)、2D图像(1)、2D图像(2)和3D立体图像(4)的6个图像依次包括在单个图像文件中，每个图像也包括多个帧，其中每个图像被称为片段。如上所述，片段的单位可以是帧、具有连续值的一组帧、或者借以划分3D立体图像和2D图像的间隔。sample_count是指包括在每个片段中的连续帧的数目。识别entry_count以确定图像内片段的数目，并识别stereo_flag，而且识别包括在每个片段中的帧的集合的标志信息。通过该标志信息，可以确定对应的片段是3D立体图像还是2D图像。然后，在步骤S1060识别项目位置框(如“iloc”框)、识别片段的开始地址和尺寸，并识别样本尺寸框(如“stsz”框)中的样本尺寸，从而识别多少帧被包括在每个片段中。解码和显示图像的步骤(步骤S1070和S1080)与图7所示的第一示范实施例的终端的操作一致。

图11是说明根据本发明的实现图像文件的随机访问的方法的流程图。图11说明其中在解码和再现图像期间(诸如当播放条在再现一小时图像期间被移动到期望观看的时间区的图像上时)产生随机访问命令的终端的操作。

在步骤S1100，从包括时间戳(如“TimeStamp”)信息的框识别时间戳信息，以便识别要随机访问的帧(即，随机访问点，下文称为“RAP”)。在步骤S1100，识别图像信息框(如，“svmi”框)的entry_count，并识别图像内片段的数目。在这里，片段的单位可以是帧、具有连续值的一组帧、或者借以划分3D立体图像和2D图像的间隔。在步骤S1120和步骤S1130中分别识别sample_count、识别包括RAP的片段、以及识别项目位置框(如“iloc”框)，从而通过该信息(诸如对应的片段的偏移)识别对应的片段的开始地址。在步骤S1140和步骤S1150中分别识别样本尺寸框(如“stsz”框)中的sample_size、以及从在项目位置框(如“iloc”框)中识别的对应的片段的开始地址起逐一加上sample_size从而找到RAP。然后，在步骤S1160根据随机访问命令开始RAP的解码。如果产生了随机访问命令，则传统方法经过计算整个图像的sample_size来确定RAP。然而，根据本发明，仅需要计算包括RAP的片段内的样本。

图11仅说明使用entry_count和sample_count的示范实施例。可是，应该理解本发明的随机访问操作可以适用于其他示范实施例。此外，取决于在终端的操作的逻辑流的范围内的示范实施例，可以添加或剔除用于识别item_count的步骤等而不背离本发明的范围。另外，解释图像信息框(如，“svmi”框)或终端的操作的细节可以依赖于图像信息框的位置、框内参数的位置等改变而不背离本发明的范围。

这里没有具体描述的用于解析文件格式的步骤的详情和终端的操作可以基于ISO/IEC 14496-12和ISO/IEC 23000-11标准来实现，以及可以结合本发明的各种实施例来使用。

如上所述，本发明定义了图像文件的数据结构，其能够通过使用2D图像的改变的标准技术而包括2D图像和3D立体图像二者从而简化用作新标准的验证过程。因此，本发明允许必要时在单个图像文件中实现2D图像和3D立体图像二者。具体地，使用根据本发明的图像文件格式的系统和方法允许显示不要求以3D立体图像的形式观看的图像(即，显示3D立体图像的图像文件中的2D图像)以使得避免用户的眼睛疲劳。此外，本发明具有这样的优点，其中可以通过使用图像信息框(如，“svmi”框)控制终端的遮拦LCD的开或关来有效地再现混合了3D立体图像和2D图像的内容。

尽管已经参考本发明的具体示范实施例示出和描述本发明，但是本领域技术人员不难理解，这里可以在形式和细节上进行各种改变而不背离由所附权利要求及其等价物限定的本发明的精神和范围。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 用于产生和再现包括2维图像和3维立体图像的图像文件的系统和方法 [P] . 中国专利： CN101897194B . 2012.12.12
2. 用于产生和再现包括2维图像和3维立体图像的图像文件的系统和方法 [P] . 中国专利： CN101897194A . 2010-11-24
3. System and method for generating and reproducing image file including 2D image and 3D stereoscopic image [P] . 美国专利： US8842903B2 . 2014-09-23

机译：用于产生和再现包括2D图像和3D立体图像的图像文件的系统和方法
4. System and method for generating and reproducing image file including 2D image and 3D stereoscopic image [P] . 欧洲知识产权局专利： EP2071853B1 . 2012-02-15

机译：用于产生和再现包括2D图像和3D立体图像的图像文件的系统和方法
5. System and method for generating and reproducing an image file that includes 2D image and 3D stereoscopic image [P] . ES2382057T3 . 2012-06-04

机译：用于产生和再现包括2D图像和3D立体图像的图像文件的系统和方法