首页> 中国专利> 面向混合网络的伴音与视频协同呈现系统

面向混合网络的伴音与视频协同呈现系统

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本申请实施例提供一种面向混合网络的伴音与视频协同呈现系统，包括：视频链路模块，用于获取视频流，在视频流中插入时间戳，计算视频全链路的延迟时间；音频链路模块，用于获取与视频流相对应的音频流，根据音频流生成不同延迟时间的多路延迟音频流；同时，在音频流中插入可视化时间戳，生成延迟测算信号流；应用网关模块，用于根据延迟测算信号流计算音频全链路的延迟时间，根据视频全链路的延迟时间和音频全链路的延迟时间，确定一路延迟音频流并控制音频链路模块发送至移动终端。本申请实施例提供的呈现系统在面向电视伴音与频道视频主信号通过不同网络独立分发时，可以通过对延迟的计算和主动对齐，实现音画准实时同步播放。

著录项

公开/公告号CN114885198A

专利类型发明专利
公开/公告日2022-08-09

原文格式PDF
申请/专利权人中央广播电视总台;
展开▼

申请/专利号CN202210791260.X
发明设计人姜文波;顾军;刘玓;王振中;马健;赵旭;卢冠宇;孙剑;刘永强;顿子振;王汗青;李婵;田浩;喻庆杰;刘寒;
展开▼

申请日2022-07-07
分类号H04N21/43(2011.01);H04N21/8547(2011.01);
代理机构北京科慧致远知识产权代理有限公司 11739;北京科慧致远知识产权代理有限公司 11739;
代理人王乾旭;赵红凯
地址 100789 北京市朝阳区光华路甲一号中央广播电视总台技术局
入库时间 2023-06-19 16:20:42

法律信息

法律状态公告日

法律状态信息

法律状态
2022-10-21

授权

发明专利权授予
2022-08-26

实质审查的生效 IPC(主分类):H04N21/43 专利申请号:202210791260X 申请日:20220707

实质审查的生效
2022-08-09

公开

发明专利申请公布

说明书

技术领域

本申请涉及移动媒体技术领域，尤其涉及一种面向混合网络的伴音与视频协同呈现系统。

背景技术

近年来，随着超高清户外大屏、移动媒体的快速发展，新的广播电视传播方式也随之改变，内容的呈现形式与分发方法也日趋多样。一方面，数字电视、IPTV等广播或专用网络的视频传输仍然是电视节目传输的主要手段；另一方面，随着互联网/移动互联网的网络质量和速度不断提升，WebRTC/QUIC/SRT等众多低延迟传输协议发展，可以利用互联网/移动互联网实现可媲美广播专用网络传输质量的视音频分发。

但是，现有的技术实现并没有考虑基于分发端的统一控制、不同网络的分发延迟以及不同的频道自动切换，伴随着用户所使用的移动终端多样化及复杂的网络环境，经常会出现“音画不同步”的现象，在体验上会给用户带来一种不舒服感。

发明内容

为了解决上述技术缺陷之一，本申请实施例中提供了一种面向混合网络的伴音与视频协同呈现系统。

根据本申请实施例的第一个方面，提供了一种面向混合网络的伴音与视频协同呈现系统，包括：

视频链路模块，用于获取视频流，在所述视频流中插入时间戳，计算视频全链路的延迟时间；

音频链路模块，用于获取与所述视频流相对应的音频流，根据所述音频流生成不同延迟时间的多路延迟音频流；同时，在所述音频流中插入可视化时间戳，生成延迟测算信号流；

应用网关模块，用于根据延迟测算信号流计算音频全链路的延迟时间，根据所述视频全链路的延迟时间和音频全链路的延迟时间，确定一路延迟音频流并控制所述音频链路模块发送至所述移动终端。

可选的，所述视频链路模块包括视频编码器、传输分发服务器和机顶盒终端，所述视频编码器、所述传输分发服务器和所述机顶盒终端依次连接；

所述视频编码器，用于计算所述视频流传输至视频编码器的延迟时间，记为第一视频延迟时间；

所述机顶盒终端，用于基于所述时间戳计算所述视频流经视频编码器传输至机顶盒终端的延迟时间，记为第二视频延迟时间；计算所述视频流由所述机顶盒终端传输至户外大屏的延迟时间，记为第三视频延迟时间；

所述传输分发服务器，用于根据所述第一视频延迟时间、所述第二视频延迟时间和所述第三视频延迟时间，得到视频全链路的延迟时间并发送至所述应用网关模块。

可选的，所述视频编码器在所述视频流的SEI信息中插入时间戳，具体的，将SEI信息放在主编码图像数据之前，位于每个关键帧的前部。

可选的，所述音频链路模块包括音频编码服务器、音频延迟服务器、音频直播服务器，所述音频编码服务器、所述音频延迟服务器和所述音频直播服务器依次连接；

所述音频编码服务器，用于计算所述音频流传输至音频编码器的延迟时间，记为第一音频延迟时间；

所述音频延迟服务器，用于计算编码后的音频流传输至音频延播服务器的延迟时间，记为第二音频延迟时间；

所述音频直播服务器，用于将所述第一音频延迟时间和所述第二音频延迟时间发送至应用网关模块。

可选的，应用网关模块根据延迟测算信号流计算音频全链路的延迟时间，包括：

根据所述延迟测算信号流计算所述音频延播服务器至移动终端的延迟时间，记为第三音频延迟时间；

根据所述第一音频延迟时间、所述第二音频延迟时间和所述第三音频延迟时间，得到音频全链路的延迟时间。

可选的，所述根据所述延迟测算信号流计算所述音频延播服务器至移动终端的延迟时间，包括：

获取移动终端开始播放所述延迟测算信号流的本地时间以及所述移动终端播放所述延迟测算信号流的播放图像；

根据所述播放图像所对应的时间和所述本地时间计算所述音频延播服务器至移动终端的延迟时间。

可选的，所述音频延迟服务器生成以设定时间为步进的不同延迟时间的多路延迟音频流。

可选的，设定时间为200ms。

可选的，所述应用网关模块还用于获取所述移动终端的位置信息，根据所述位置信息确定对应的所述视频全链路的延迟时间。

可选的，所述根据所述视频全链路的延迟时间和音频全链路的延迟时间，确定一路延迟音频流并控制所述音频链路模块发送至所述移动终端，包括：

根据视频全链路的延迟时间和音频全链路的延迟时间的差值，根据所述差值确定对应延迟时间的一路延迟音频流并控制所述音频链路模块发送至所述移动终端。

采用本申请实施例中提供的面向混合网络的伴音与视频协同呈现系统，在伴音信号与视频信号通过不同网络独立分发时，可以通过对延迟的计算和主动对齐，实现伴音信号与视频信号的音画准实时同步播放。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例提供的面向混合网络的伴音与视频协同呈现系统的原理框图；

图2为本申请实施例提供的视频链路模块的原理框图；

图3为本申请实施例提供的音频链路模块的原理框图；

图4为本申请实施例提供的面向混合网络的伴音与视频协同呈现系统的信号流向图；

图5为本申请实施例提供的面向混合网络的伴音与视频协同呈现系统的业务流程图；

图6为本申请实施例提供的音频延播功能流程图。

具体实施方式

为了使本申请实施例中的技术方案及优点更加清楚明白，以下结合附图对本申请的示例性实施例进行进一步详细的说明，显然，所描述的实施例仅是本申请的一部分实施例，而不是所有实施例的穷举。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

在实现本申请的过程中，发明人发现面向传统仅具备视频播放能力的户外大屏场景，如何利用互联网/移动互联网实现超高清视频与电视伴音在异构网络的独立传输，并在终端实现大屏视频与用户手机上的电视伴音同步呈现，成为创新户外大屏节目形态、提高用户体验的关键环节。

图1为本申请实施例提供的面向混合网络的伴音与视频协同呈现系统的原理框图；图2为本申请实施例提供的视频链路模块的原理框图；图3为本申请实施例提供的音频链路模块的原理框图；图4为本申请实施例提供的面向混合网络的伴音与视频协同呈现系统的信号流向图；图5为本申请实施例提供的面向混合网络的伴音与视频协同呈现系统的业务流程图；图6为本申请实施例提供的音频延播功能流程图。

如图1-图6所示，本申请实施例中提供了一种面向混合网络的伴音与视频协同呈现系统，包括：

视频链路模块1，用于获取视频流，在所述视频流中插入时间戳，计算视频全链路的延迟时间；在视频流中插入时间戳，可以计算得出视频流从编码到解码的延迟时间，此为视频全链路中影响最大的因素。

音频链路模块2，用于获取与所述视频流相对应的音频流，根据所述音频流生成不同延迟时间的多路延迟音频流；同时，在所述音频流中插入可视化时间戳，生成延迟测算信号流。根据延迟测算信号流，可以计算得出音频流从延迟处理到移动终端的延迟时间，此为音频全链路中影响最大的因素。

应用网关模块3，用于根据延迟测算信号流计算音频全链路的延迟时间，根据所述视频全链路的延迟时间和音频全链路的延迟时间，确定一路延迟音频流并控制所述音频链路模块发送至所述移动终端。

需要说明的是，移动终端是播放伴音的设备，可以是手机、平板电脑。

在视频链路模块1中，视频流可为超高清4K/8K格式，本申请以8K播出系统输出的SMPTE 2110无压缩的视频流为例。

视频全链路指的是由8K播出系统至户外大屏的视频传输全链路，其中，户外大屏的数量较多，分布在不同的位置，因此视频全链路的延迟时间根据户外大屏而有所区别。

在音频链路模块2中，音频流为8K播出系统输出的无损的音视频流。

音频全链路指的是8K播出系统至移动终端的音频传输全链路，音频全链路的延迟时间根据移动终端的位置不同而有所区别。

在应用网关模块3中，选择需要协同呈现的视频全链路和音频全链路，并进行延迟计算和对齐，以便实现准实时同步播放。

在伴音信号与视频信号通过不同网络独立分发时，可以通过对延迟的计算和主动对齐，实现伴音信号与视频信号的音画准实时同步播放。

作为一个可选的实施例，如图2所述，所述视频链路模块1包括视频编码器110、传输分发服务器120和机顶盒终端130，所述视频编码器110、所述传输分发服务器120和所述机顶盒终端130依次连接。

所述视频编码器110，用于计算所述视频流传输至视频编码器的延迟时间，记为第一视频延迟时间；视频编码器获取视频流，对所述视频流进行编码，并在所述视频流中插入时间戳。具体的，视频编码器可采用AVS3编码器，也可采用其他型号的编码器，本申请实施例对此不作限定。

所述机顶盒终端130，用于基于所述时间戳计算所述视频流经视频编码器传输至机顶盒终端的延迟时间，记为第二视频延迟时间；计算所述视频流由所述机顶盒终端传输至户外大屏的延迟时间，记为第三视频延迟时间；机顶盒终端对接收到的编码后的视频流进行解码，并发送至户外大屏进行播放。

所述传输分发服务器120，用于根据所述第一视频延迟时间、所述第二视频延迟时间和所述第三视频延迟时间，得到视频全链路的延迟时间并发送至所述应用网关模块。传输分发服务器还用于传输分发编码后的视频流，分发至各个机顶盒终端。

可选的，所述视频编码器110在所述视频流的SEI信息中插入时间戳。具体的，将SEI信息放在主编码图像数据之前，位于每个关键帧的前部。在视频编码器端将时间戳以字符串形式放入信号h264 Access Unit中传输，为视频流插入一个关键帧，赋予视频流连续时间码，经过链路传输分发至客户端，客户端即机顶盒终端。当视频流传出分发至机顶盒终端时，在终端解出SEI信息，结合解码时间和缓冲区状态，可以计算得到视频流经视频编码器到机顶盒终端的延迟数据。

SEI信息全称: Supplemental Enhancement Information，可以把数据放入h264Access Unit中传输。SEI特点：不依赖于相关协议，RTSP和RTMP均可支持，其他协议只要播放端支持SEI解析均可以使用；兼容性很好，如播放端不支持自定义SEI数据解析，将SEI数据丢给H264解码器，解码器进行略掉，并不影响正常播放；在视频帧携带，完全和视频保持同步。

作为一个可选的实施例，如图3所述，所述音频链路模块2包括音频编码服务器210、音频延迟服务器220、音频直播服务器230，所述音频编码服务器210、所述音频延迟服务器220和所述音频直播服务器230依次连接。

所述音频编码服务器210，用于计算所述音频流传输至音频编码器的延迟时间，记为第一音频延迟时间。音频编码服务器对接收到的无编码音频流进行编码，将编码后的音频流推送至音频延迟服务器。

所述音频延迟服务器220，用于计算编码后的音频流传输至音频延播服务器的延迟时间，记为第二音频延迟时间。可根据编码后的音频流生成不同延迟时间的多路延迟音频流。同时在编码后的音频流中插入可视化时间戳，生成延迟测算信号流；将多路延迟音频流和延迟测算音频流下发至音频直播服务器，由音频直播服务器负责分发。

所述音频直播服务器230，用于将所述第一音频延迟时间和所述第二音频延迟时间发送至应用网关模块。

音频延迟服务器220根据所述音频流生成以设定时间为步进的不同延迟时间的多路音频流，其中，设定时间根据业务场景独立计算得到，设定时间可为200ms，进行音频源流数据帧缓存及多路音频流同时分发时的数据帧引用计数。

本申请实现了一进多出功能，每路输出延时根据业务场景进行独立计算，并在内存中进行音频源流数据帧缓存及多路输出同时分发时的数据帧引用计数，降低内存峰值，提高计算资源利用率，较实时输出多路不同延时音频流，可以做到单进程支撑更多路不同延迟的输出流。同时对于信源单AAC音频RTMP流的特殊性进行Demux优化，合理处理单音轨RTMP流Probe阶段额外缓冲数据帧所消耗的时间，降低输入延时。整个传输链路对音频数据进行透传，最大限度降低直播流处理所造成的延时消耗。

AAC，全称Advanced Audio Coding，是一种专为声音数据设计的文件压缩格式。

RTMP是Real Time Messaging Protocol（实时消息传输协议）的首字母缩写。该协议基于TCP，是一个协议族，包括RTMP基本协议及RTMPT/RTMPS/RTMPE等多种变种。RTMP是一种设计用来进行实时数据通信的网络协议，主要用来在Flash/AIR平台和支持RTMP协议的流媒体/交互服务器之间进行音视频和数据通信。支持该协议的软件包括Adobe MediaServer/Ultrant Media Server/red5等。RTMP与HTTP一样，都属于TCP/IP四层模型的应用层。

Demux即数据分发器，通常简称为多路分解器或者解复用器。

在上述实施例的基础上，所述应用网关模块计算音频全链路的延迟时间，包括：

根据所述延迟测算信号流计算所述音频延播服务器至移动终端的延迟时间，记为第三音频延迟时间。

根据所述第一音频延迟时间、所述第二音频延迟时间和所述第三音频延迟时间，得到音频全链路的延迟时间。

可选的，所述根据所述延迟测算信号流计算所述音频延播服务器至移动终端的延迟时间，包括：

获取移动终端开始播放所述延迟测算信号流的本地时间以及所述移动终端播放所述延迟测算信号流的的播放图像。

根据所述播放图像所对应的时间和所述本地时间计算所述音频延播服务器至移动终端的延迟时间。

播放图像的获取可由移动终端应用拉取延迟测算信号流，首先将视频播放器放在可视范围之外进行隐藏，然后由本地播放器加载视频流解码进行静音播放的同时，对指定区域（即播放器）进行截图并记录本地截图时间。

基于OCR技术识别所述播放图像所对应的时间，根据所述播放图像所对应的时间和所述本地时间计算所述音频延播服务器至移动终端的延迟时间。基于OCR计算识别所述播放图像所对应的时间，首先采用降噪、二值化、字符切分及归一化方法对图片进行预处理，分析器图片中需要识别的文字区域。为了提高识别的效率，其次对文字区分进行特征提取和降维，提取特征给到分类器确认文字类型。最后进行后处理，获取视频流中的可见时间戳截图中的正确文字信息，并记对比其与截图时间的差异，为音频全流程延迟计算提供数据依据。

在上述实施例的基础上，作为一个可选的实施例，所述应用网关模块还用于获取所述移动终端的位置信息，根据所述位置信息确定对应的所述视频全链路的延迟时间。具体的，可利用GPS定位服务，首先在网关服务中录入户外大屏的GPS位置信息，然后通过GeoHash编码对其位置信息进行编码，其过程是把二维的空间经纬度数据编码成一个字符串，最终得到一组编码后的大屏GPS编码集合。然后在移动终端应用启动时，获取到使用者手机的定位信息，并将其上传至网关服务，网关服务同样利用GeoHash编码，将手机的经纬度进行编码，然后将手机端的GeoHash编码与户外大屏的GeoHash编码集合进行对比，采取绝对距离最近的算法，从而确认手机端与户外大屏之间的绑定关系。

可选的，所述根据所述视频全链路的延迟时间和音频全链路的延迟时间，确定一路延迟音频流并控制所述音频链路模块发送至所述移动终端，包括：

所述应用网关模块预先存储有所有户外大屏的位置信息及视频全链路的延迟时间，获取所述移动终端的定位信息和音频全链路的延迟时间；根据定位信息确定距离最近的户外大屏，根据所述移动终端的音频全链路的延迟时间和对应户外大屏的视频全链路的延迟时间，选择对应延迟时间的一路音频流，控制传输至移动终端进行协同呈现。

本发明的优点在于：

1、业务场景：填补了面向混合网络情况下的电视及大屏视频在移动端协同播放音频的业务场景空白，提高了用户体验同一内容在不同设备上协同播放的音画同步能力。电视直播信号通过专线网组播至全国户外大屏进行播放，同步从播出分离出音频信号流通过互联网供用户通过手机端同步收听户外大屏播放画面的音频。实现声画智能自动同步匹配，匹配最近大屏视频画面对应音频流，同时支持用户在手机端向前、向后进行音频校正调节，微观调整至声画同步。

2、延迟测算：由于视频信号和音频信号是通过不同网络链路进行分发，同时由于网络延迟及抖动、编解码效率及流媒体服务等环节，不可避免导致终端音视频播放会与实际源输出有延迟，产生带有可见时间戳的视频流，通过图像尺寸的控制，模拟需计算流（视频或音频）的码流，并推送给下游直播分发系统。在终端开发屏幕截获程序，并在截获屏幕的同时，记录截获时间，并通过文本识别技术还原视频中的时间戳，计算延迟，并进行反复的测算数据校正，从而基本实现从源流输出到实现播放之间的延迟数据。

3、延时补偿：由于各地户外大屏的视频信号延迟以及通过互联网分发的音频信号之间的延时误差比较大，要做到音画同步，只通过传统的终端播放器缓存不能满足同步要求。所以增加了服务端延迟的控制，产生步进为200毫秒的一组音频流，移动终端根据延迟时间计算的结果，选择延迟接近的音频流，进行播放实现近似同步呈现的效果。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。本申请实施例中的方案可以采用各种计算机语言实现，例如，C语言、面向对象的程序设计语言Java和直译式脚本语言JavaScript等。

本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 面向混合网络的伴音与视频协同呈现系统 [P] . 中国专利： CN114885198A . 2022-08-09
2. 面向混合可编程网络环境的协同网络测量方法及系统 [P] . 中国专利： CN112202644B . 2022.01.11
3. THOUGHT-ORIENTED EDUCATION SYSTEM USING VIRTUAL REALITY VIDEO TECHNOLOGY AND SYSTEMATIC DESENSITIZATION METHOD BASED ON NETWORK [P] . 韩国专利： KR20170109791A . 2017-10-10

机译：虚拟现实视频技术的面向思想的教育系统及基于网络的系统去化方法
4. Object oriented mixed reality and video game authoring tool system and method [P] . AU2010201125B2 . 2012-08-16

机译：面向对象的混合现实与视频游戏创作工具系统及方法
5. OBJECT ORIENTED MIXED REALITY AND VIDEO GAME AUTHORING TOOL SYSTEM AND METHOD [P] . IN246489B . 2011-03-04

机译：面向对象的混合现实和视频游戏授权工具系统和方法