首页> 中国专利> 一种远程呈现技术中媒体数据发送和播放的方法及系统

一种远程呈现技术中媒体数据发送和播放的方法及系统

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了一种远程呈现技术中媒体数据发送的方法及系统，通过采集与坐席相对应的视频或音频数据，对采集到的数据分别进行处理，得到根据采集位置区分的多路码流数据和对应的采集位置信息；对多路码流数据进行编码，并把编码后的多路音频数据和所述采集位置信息统一打包，和/或编码后的多路视频数据和所述采集位置信息统一打包，分别发送包含多路音频或视频的数据包。本发明还公开了一种远程呈现技术中媒体数据播放的方法及系统，通过上述方法和系统，能够在数据传输的过程中直接标识相应的采集位置，即对应的播放位置，使得接收端的与会者可以体验到听声辨位，身临其境的感受。进一步的，有效解决了多路音频或视频数据之间的同步问题。

著录项

公开/公告号CN102655584A

专利类型发明专利
公开/公告日2012-09-05

原文格式PDF
申请/专利权人中兴通讯股份有限公司;
展开▼

申请/专利号CN201110053344.5
发明设计人叶小阳;王东;阳彦字;彭远疆;
展开▼

申请日2011-03-04
分类号H04N7/15(20060101);H04N7/52(20060101);H04N7/26(20060101);
代理机构11270 北京派特恩知识产权代理事务所(普通合伙);
代理人程立民;蒋雅洁
地址 518057 广东省深圳市南山区高新技术产业园科技南路中兴通讯大厦法务部
入库时间 2023-12-18 06:20:22

法律信息

法律状态公告日

法律状态信息

法律状态
2017-11-24

授权

授权
2014-04-16

实质审查的生效 IPC(主分类):H04N7/15 申请日:20110304

实质审查的生效
2012-09-05

公开

公开

说明书

技术领域

本发明涉及视频会议技术，特别是指一种远程呈现技术中媒体数据发送和播放的方法及系统。

背景技术

远程呈现(telepresence)是一种高级的远程会议系统。远程呈现以其真实的临场感深受高端用户的喜爱，在远程呈现系统中，听声辨位、真身大小、眼神交流直接关系到用户是否能够有身临其境的感受，因此是衡量远程呈现系统非常重要的技术指标。在传统视频会议系统中，每个会场听到的声音是整个会议中前几个声音最大的会场混音叠加后的声音，每个会场声音的输入源和输出只有一个，用户无法感受到声音从会场的哪个方位发出。

在远程呈现会议系统中，各个会场有的是单屏会场有的是多屏会场。多屏会场中，每个屏幕显示一处坐席与会者的图像，相应的每处坐席与会者对应了一路音频输入。如果要达到听声辨位的效果，在多屏会场中，发言者图像显示在会场哪个屏，声音即从该屏所在方位发出，即实现声音跟随图像。例如三屏会场中，左席发言，那么应该听到声音从左侧发出；中席发言，其应该听到声音从中间发出；右席发言，与会人员应该听到声音从右侧发出。

这种情况下，不同方位的音频输入输出，需要区别对待进行不同的混音，传统的单路音频混音方法显然不能满足这种情况。同时在单屏和多屏会场互通的多点会议中，单屏和多屏会场如何混音输出，同时不影响两个会场听声辨位的效果，也是需要解决的问题。进一步的，若采用多路码流分别传输的方式，则多路码流之间的严格同步非常困难，难以达到视频会议对音频的同步要求。

发明内容

有鉴于此，本发明的主要目的在于提供一种远程呈现技术中媒体数据发送和播放的方法及系统，解决了现有的电视会议系统中，采用多路码流分别传输的方式来传输媒体数据，不易实现音频同步或视频同步的问题。

为达到上述目的，本发明的技术方案是这样实现的：

本发明提供了一种远程呈现技术中媒体数据发送的方法，所述方法包括：

采集与坐席相对应的音频或视频数据，对采集到的音频或视频数据分别进行处理，得到根据采集位置区分的多路码流数据和各路码流数据的采集位置信息；

对多路码流数据进行编码，并把编码后的多路音频数据和所述采集位置信息统一打包，和/或编码后的多路视频数据和所述采集位置信息统一打包，分别发送包含多路音频或视频的数据包。

其中，所述包含多路音频或视频的数据包，包括：数据包头部分和数据包体部分，其中，数据包头部分携带每一路的音频或视频数据的码流标识，并且标明码流长度，所述码流标识对应所述采集位置信息；数据包体部分携带多路码流数据的内容。

其中，所述对采集到的音频或视频数据分别进行处理，具体为：将每一个采集位置采集到的音频或视频数据都分别处理为一路码流数据。

本发明还提供了一种远程呈现技术中媒体数据播放的方法，所述方法包括：

接收端接收到包含多路音频或视频的数据包后，解析出多路音频数据或视频数据，以及各路码流数据的采集位置信息；

将多路音频数据或视频数据，按照各路码流数据的采集位置信息所对应的播放位置输出完成播放。

其中，所述解析出多路音频数据或视频数据，以及各路码流数据的采集位置信息，具体为：读取数据包头部分的码流标识得到码流数据的采集位置信息，根据码流长度，从数据包体部分解析出相应的多路音频数据或视频数据。

本发明还提供了一种远程呈现技术中媒体数据发送的系统，所述系统包括：一个或多个音视频采集设备、多路码流数据处理模块和多路码流数据传输模块，其中，

所述一个或多个音视频采集设备，用于分别采集与坐席相对应的音频或视频数据，将采集到的数据发送给多路码流数据处理模块；

所述多路码流数据处理模块，用于对采集到的音频或视频数据分别进行处理，得到根据采集位置区分的多路码流数据和各路码流数据的采集位置信息，将多路码流数据和所述采集位置信息发送给多路码流数据传输模块；

所述多路码流数据传输模块，用于对多路码流数据进行编码，并把编码后的多路音频数据和所述采集位置信息统一打包，和/或编码后的多路视频数据和所述采集位置信息统一打包，分别发送包含多路音频或视频的数据包。

其中，所述多路码流数据处理模块对采集到的音频或视频数据分别进行处理，具体为：将每一个采集位置采集到的音频或视频数据都分别处理为一路码流数据。

本发明还提供了一种远程呈现技术中媒体数据播放的系统，所述系统包括：多个音视频播放设备、多路码流数据处理模块和多路码流数据传输模块，其中，

多路码流数据传输模块，用于接收并解析发送端的多路码流数据传输模块发送的包含多路音频或视频的数据包，将解析出的多路音频数据或视频数据，以及各路码流数据的采集位置信息，发送给接收端的多路码流数据处理模块；

多路码流数据处理模块，用于将多路音频数据或视频数据，发送给各路码流数据的采集位置信息所对应的音视频播放设备完成播放。

本发明所提供的远程呈现技术中媒体数据发送和播放的方法及系统，采集与坐席相对应的视频或音频数据，对采集到的视频或音频数据分别进行处理，得到根据采集位置区分的多路码流数据和各路码流数据的采集位置信息；对多路码流数据进行编码，并把编码后的多路音频数据和所述采集位置信息统一打包，和/或编码后的多路视频数据和所述采集位置信息统一打包，分别发送包含多路音频或视频的数据包。能够在数据传输的过程中直接标识相应的采集位置，即对应的播放位置，使得接收端的与会者可以体验到听声辨位，身临其境的感受。进一步的，也不需要另外进行音频同步或视频同步。

附图说明

图1为本发明一种远程呈现技术中媒体数据发送和播放的方法流程示意图；

图2为本发明所述包含多路音频或视频的数据包的结构示意图；

图3为在三个单屏会场与一个多屏会场组网时应用本发明通信的音频视频码流走向示意图；

图4为两个三个单屏会场组网时应用本发明通信的音频视频码流走向示意图；

图5为本发明一种远程呈现技术中媒体数据发送和播放的系统结构示意图。

具体实施方式

本发明的基本思想是：采集与坐席相对应的视频或音频数据，对采集到的视频或音频数据分别进行处理，得到根据采集位置区分的多路码流数据和各路码流数据的采集位置信息；对多路码流数据进行编码，并把编码后的多路音频数据和所述采集位置信息统一打包，和/或编码后的多路视频数据和所述采集位置信息统一打包，分别发送包含多路音频或视频的数据包。

下面结合附图和具体实施例对本发明的技术方案进一步详细阐述。

图1为本发明一种远程呈现技术中媒体数据发送和播放的方法流程示意图，如图1所示，所述方法包括：

步骤101，采集与坐席相对应的音频或视频数据；

具体的，所述采集与坐席相对应的音频或视频数据，具体为：通过安装在不同采集位置上的视频采集设备和音频采集设备来完成。

步骤102，对采集到的音频或视频数据分别进行处理，得到根据采集位置区分的多路码流数据和各路码流数据的采集位置信息；

具体的，所述对采集到的音频或视频数据分别进行处理，具体为：将每一个采集位置采集到的视频或音频数据都分别处理为一路码流数据。其中，所述分别处理是根据采集位置的不同进行区分。例如：三屏会场中有左、中、右三个采集位置，针对左侧视频和音频采集设备采集到的数据，分别处理得到左侧视频码流数据和左侧音频码流数据，所述左侧音频码流数据即对应接收端播放的左声道；针对右侧视频和音频采集设备采集到的数据，分别处理得到右侧视频码流数据和右侧音频码流数据，所述右侧音频码流数据即对应接收端播放的右声道；针对中间视频和音频采集设备采集到的数据，分别处理得到中间视频码流数据和中间音频码流数据。其中，中间音频码流数据可以是对应接收端播放的中间声道，也可以同时对应接收端播放的左声道和右声道，对于与会者来说同时听到左右声道播放相同的声音，会感觉声音来自中间，即正前方。进一步的，针对多余3个屏幕的会场，则通过调整不同声道的音量大小，来体现音频数据的采集位置，原则上越接近于采集位置的声道的音量越大。

步骤103，对多路码流数据进行编码，并把编码后的多路音频数据和所述采集位置信息统一打包，和/或编码后的多路视频数据和所述采集位置信息统一打包，分别发送包含多路音频或视频的数据包。

具体的，所述多路码流数据进行编码，具体为：根据传输协议对多路码流进行编码。所述包含多路音频或视频的数据包，包括：在数据包头部分为每一路的视频或音频数据添加码流标识，并且标明码流长度，然后将码流数据的具体内容添加到数据包体部分。其中，所述添加的码流标识，用于对应码流数据各自的采集位置。图2为本发明所述包含多路音频或视频的数据包的结构示意图，如图2所示，数据包头21中包含：码流1标识22、码流1长度23、码流 2标识24、码流2长度25。数据包体26中包含：码流1数据27和码流2数据 28。在本发明的包含多路音频或视频的数据包中可以为多路码流分别添加码流标识，并标明码流长度，这样可以将多路码流打包为一个包含多路音频或视频的数据包，使得多路码流同步的问题得到很好的解决。进一步的，由于添加了对应采集位置信息的码流标识，因此可以在接收端依据采集位置还原音频数据的播放位置，实现了听声辨位。

在步骤103之后，接收端为了播放所述包含多路音频或视频的数据包，本方法还包括：

步骤104，接收端接收到包含多路音频或视频的数据包后，解析出多路音频数据或视频数据，以及各路码流数据的采集位置信息；

具体的，所述解析包含多路音频或视频的数据包，具体为：读取数据包头部分的码流标识得到码流数据的采集位置，根据码流长度，从数据包体部分解析出相应的多路音频数据或视频数据。

步骤105，将多路音频数据或视频数据，按照各路码流数据的采集位置信息所对应的播放位置输出完成播放。

具体的，将解析出的码流数据内容输出到会场中的对应的播放位置完成播放，则与会者可以得到听声辨位的体验。

图3为在三个单屏会场与一个多屏会场组网时应用本发明通信的音频视频码流走向示意图，如图3所示，3个单屏会场分别为：单屏会场31、单屏会场 32和单屏会场33，所述三个单屏会场和1个三屏会场34进行组网，其中3个单屏会场的视频依次显示在三屏会场的左、中、右屏幕，各单屏会场可以选看三屏会场34的任一坐席视频。

首先三屏会场34中多个音频采集设备采集的音频码流，都输入到音频处理器设备，由音频处理器设备处理后分成左右两个声道的音频码流数据，再由负责三屏会场34的远程呈现多媒体终端对两个声道码流分别进行编码，并打包为包含多路音频的数据包进行发送。本实施例中以实时传送协议(Real-time Transport Protocol，RTP)包结构为例，表1为包含多路音频或视频的数据包在 RTP协议中的扩展结构。

表1

如表1所示，其中，标准的RTP头结构部分按照RFC3550定义的规范填充。扩展部分描述如下：

RTP H-Ext ID域用2个字节表示RTP扩展头标识，例如：赋值0x0011；

length域用2个字节表示扩展RTP头域的长度，一路码流的位置信息和长度一共占2个字节，因此通过填充和解析本域数值来获取后面一共含有几路码流；本实施例中以同一数据包中含左、右两路音频码流为例，因此length域的数值为4个字节；

posID1域用4个字节表示码流1的位置信息，例如：0001B表示左声道码流，0010B表示右声道码流，如果有多余2路码流可以用该域进行具体的区分；

length1表示posID1对应的码流的长度；

posID2域用4个字节表示码流2的位置信息；

length2表示posID2对应的码流的长度；

进一步的，表1中还有posID3和length3可以根据需要进一步扩展，来携带更多声道的音频数据码流。

RTP payload为数据体部分，按照posID1、posID2的顺序依次存放其对应的音频码流数据。

远程呈现系统多媒体终端按上述方式打包编码后的数据发送给多点处理单元(Multipoint Control Unit，MCU)35，由MCU35将包含多路音频的数据包发送给接收端。

3个单屏会场也可以按照上述方式编码打包各自的音频码流数据向MCU35 发送；如果单屏会场没有音频处理器设备，可以由单屏会场各自的远程呈现系统多媒体终端直接发送左、右声道数据相同的包给MCU35。MCU35接收上述会场远程呈现系统多媒体终端发送的码流数据后，解析扩展的RTP数据包头可以获取各路码流数据对应的位置信息和码流长度，根据视频显示位置进行混音发送处理；例如本实施例中，MCU35把单屏会场31的音频码流数据混入到左声道数据中；单屏会场32的音频码流数据同时混入到左右声道数据中；单屏会场33的音频码流数据混入到右声道数据中，然后按照上述扩展的RTP数据包结构打包发送给三屏会场34的远程呈现系统多媒体终端。

MCU35把单屏会场32、单屏会场33、单屏会场34的音频码流数据中，左声道和右声道数据分别混音，然后按照上述扩展的RTP数据包结构发送码流给单屏会场31的远程呈现系统多媒体终端。单屏会场31的远程呈现系统多媒体终端接收数据包后解析出左、右声道码流位置信息和对应码流数据，分别解码，并把左、右声道数据分别通过音频处理器设备输出到左右音箱，达到听声辨位的效果。如果单屏会场只有一个音箱，则左右声道数据都输出到同一音箱。

MCU35把单屏会场31、单屏会场33、单屏会场34的音频码流数据中，左声道和右声道数据分别混音，然后按照上述扩展的RTP数据包结构发送码流给单屏会场32的远程呈现系统多媒体终端。单屏会场32的处理和上述单屏会场 31处理方式相同。

MCU35把单屏会场31、单屏会场32、单屏会场34的音频码流数据中，左声道和右声道数据分别混音，然后按照上述扩展的RTP数据包结构发送码流给单屏会场33的远程呈现系统多媒体终端。单屏会场33的处理和上述单屏会场 31处理方式相同。

进一步的，本实施例中的视频数据也可以按照上述方法打包为包含多路视频的数据包进行传输，其中，posID1、posID2可以标识出视频码流数据的采集位置，同样可以对应接收端会场中的多个屏幕的播放位置。特别需要说明的，对于单屏会场可以根据需要在解析出的多路码流视频数据间进行切换。

图4为两个三个单屏会场组网时应用本发明通信的音频视频码流走向示意图，如图4所示，两个三屏会场点对点进行组网，三屏会场41的左、中、右坐席的视频依次显示在三屏会场42的左、中、右屏幕，三屏会场42的左、中、右坐席的视频依次显示在三屏会场41的左、中、右屏幕。三屏会场41的多个音频采集设备采集的音频码流都输入到音频处理器设备，由音频处理器设备处理后分成左右两个声道的码流数据，再由远程呈现多媒体终端对两个声道码流分别进行编码和打包，然后发送给对端的远程呈现多媒体终端，打包部分与图 3所述实施例中描述相同。三屏会场42的远程呈现多媒体终端接收到含有左右两声道的码流数据后，解析出左、右声道码流位置信息和对应码流数据，分别解码，并把左、右声道数据分别通过音频处理器设备输出到左右音箱，达到听声辨位的效果。本实施例中如果通过MCU43组网，处理方式类似，但码流数据需要通过MCU43分别中转给参加会议的会场的远程呈现多媒体终端。如果有3个或以上会场参与会议，则必须有MCU43参与码流数据的处理。

图5为本发明一种远程呈现技术中媒体数据发送和播放的系统结构示意图，如图5所示，所述系统发送端包括：一个或多个音视频采集设备51、多路码流数据处理模块52和多路码流数据传输模块53，其中，

所述一个或多个音视频采集设备51，用于分别采集与坐席相对应的音频或视频数据，将采集到的数据发送给多路码流数据处理模块52；

所述多路码流数据处理模块52，用于对采集到的音频或视频数据分别进行处理，得到根据采集位置区分的多路码流数据和各路码流数据的采集位置信息，将多路码流数据和所述采集位置信息发送给多路码流数据传输模块53；

具体的，所述多路码流数据处理模块52对采集到的音频或视频数据分别进行处理，具体为：将每一个采集位置采集到的音频或视频数据都分别处理为一路码流数据。其中，所述分别处理是根据采集位置的不同进行区分。例如：三屏会场中有左、中、右三个采集位置，针对左侧视频和音频采集设备采集到的数据，分别处理得到左侧视频码流数据和左侧音频码流数据，所述左侧音频码流数据即对应接收端播放的左声道；针对右侧视频和音频采集设备采集到的数据，分别处理得到右侧视频码流数据和右侧音频码流数据，所述右侧音频码流数据即对应接收端播放的右声道；针对中间视频和音频采集设备采集到的数据，分别处理得到中间视频码流数据和中间音频码流数据。其中，中间音频码流数据可以是对应接收端播放的中间声道，也可以同时对应接收端播放的左声道和右声道，对于与会者来说同时听到左右声道播放相同的声音，会感觉声音来自中间，即正前方。进一步的，针对多余3个屏幕的会场，则通过调整不同声道的音量大小，来体现音频数据的采集位置，原则上越接近于采集位置的声道的音量越大。

所述多路码流数据传输模块53，用于对多路码流数据进行编码，并把编码后的多路音频数据和所述采集位置信息统一打包，和/或编码后的多路视频数据和所述采集位置信息统一打包，分别发送包含多路音频或视频的数据包。

具体的，所述多路码流数据进行编码，具体为：根据传输协议对多路码流进行编码。所述包含多路音频或视频的数据包，包括：在数据包头部分为每一路的视频或音频数据添加码流标识，并且标明码流长度，然后将码流数据的具体内容添加到数据包体部分。其中，所述添加的码流标识，用于对应码流数据各自的采集位置信息。在本发明的包含多路音频或视频的数据包中可以为多路码流分别添加码流标识，并标明码流长度，这样可以将多路码流打包为一个包含多路音频或视频的数据包，使得多路码流同步的问题得到很好的解决。进一步的，由于添加了对应采集位置的码流标识，因此可以在接收端依据采集位置还原音频数据的播放位置，实现了听声辨位。

进一步的，在接收端，本系统还包括：多路码流数据传输模块54、多路码流数据处理模块55和多个音视频播放设备56，其中，

多路码流数据传输模块54，用于接收并解析发送端的多路码流数据传输模块53发送的包含多路音频或视频的数据包，将解析出的多路码流数据，以及各路码流数据的采集位置信息，发送给接收端的多路码流数据处理模块55；

多路码流数据处理模块55，用于将多路音频数据或视频数据，发送给各路码流数据的采集位置信息所对应的音视频播放设备56完成播放。

具体的，所述多路码流数据传输模块54解析包含多路音频或视频的数据包，具体为：读取数据包头部分的码流标识得到码流数据的采集位置信息，根据码流长度，从数据包体部分解析出相应的多路音频数据或视频数据。然后将解析出的码流数据内容输出到会场中的对应采集位置的播放位置完成播放，则与会者可以得到听声辨位的体验。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种远程呈现技术中媒体数据发送和播放的方法及系统 [P] . 中国专利： CN102655584B . 2017.11.24
2. 一种远程呈现技术中媒体数据发送和播放的方法及系统 [P] . 中国专利： CN102655584A . 2012-09-05
3. Method and system for sending and playing media data in telepresence technology [P] . 美国专利： US9363474B2 . 2016-06-07

机译：网真技术中媒体数据的发送和播放的方法及系统
4. Method and system for sending and playing media data in telepresence technology [P] . 美国专利： US9532000B2 . 2016-12-27

机译：网真技术中媒体数据的发送和播放的方法及系统
5. Method and system for sending and playing media data in telepresence technology [P] . 美国专利： US2016269683A1 . 2016-09-15

机译：网真技术中媒体数据的发送和播放的方法及系统