首页> 中国专利> 盲人无障碍电影音频处理方法、装置及存储介质

盲人无障碍电影音频处理方法、装置及存储介质

摘要

本发明涉及一种盲人无障碍电影音频处理方法、装置及存储介质,其中方法包括:分离得到正片视频帧队列QvideoES、正片音频帧队列QaudioES和AD轨音频帧队列QaudioES,并完成时间轴同步;提取正片处理段PCM数据帧序列和AD轨处理段PCM数据帧序列;对AD轨处理段PCM数据帧序列进行语音活动检测,得到每一帧的语音活动状态;对正片处理段PCM数据帧序列的每一帧计算音量,并对该正片音量序列种的元素逐个计算移动平均值;对AD轨处理段PCM数据帧序列中语音活动状态为不活动的帧修改为静音值,并对剩余帧逐个计算移动平均值;基于语音活动检测结果逐帧调节正片平均音量序列和AD轨平均音量序列。与现有技术相比,本发明具有使讲解内容能穿插在高动态范围的电影原声中进行播放等优点。

著录项

  • 公开/公告号CN115695902A

    专利类型发明专利

  • 公开/公告日2023-02-03

    原文格式PDF

  • 申请/专利号CN202211385507.4

  • 申请日2022-11-07

  • 分类号H04N21/439;H04N21/8547;H04N21/43;

  • 代理机构上海科盛知识产权代理有限公司;

  • 代理人蔡彭君

  • 地址 200042 上海市长宁区长宁路1027号1008E座

  • 入库时间 2023-06-19 18:30:43

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-02-03

    公开

    发明专利申请公布

说明书

技术领域

本发明涉及音频处理领域,尤其是涉及一种盲人无障碍电影音频处理方法、装置及存储介质。

背景技术

无障碍电影是专门为了方便残障人士观看的经过加工的电影节目,分为盲人与聋人两种版本。对于盲人观众,在保留电影原声和对白的同时,会适时地插入一些对电影画面内容的解说描述。

最早这些工作是在电影放映现场人工进行的,志愿者们要拿着话筒一遍遍重复劳动;随着越来越多的社会力量加入,专业制作的无障碍版本电影诞生,这些电影大多以光盘形式传播,不仅减少了志愿者的重复工作,也能让盲人在家就能轻松享受电影的乐趣。

随着互联网视频的普及,可以线上欣赏的无障碍电影也越来越多,由此诞生了一种新的形式:即在普通的电影版本上,外挂一路解说音轨来实现盲人无障碍电影,该音轨称为AD音轨(Audio Description Track),简称AD轨,其时长与电影正片保持一致。这种形式免去了电影介质的再生产,降低了制作成本。

采用AD轨的无障碍电影播放过程中,会有两路音轨同时播放,即一路电影音轨与一路解说音轨;在前期录制和制作解说音轨时,解说朗读的段落原则上会避开电影中人物的对白段落,选择较为安静的段落穿插解说,但电影中除了人物对白外,为了烘托气氛往往还有背景音乐、环境声响,在时间轴上不可避免地会与解说朗读的内容重叠,引起听觉掩蔽的现象,导致观众无法很好听清解说内容,影响观赏体验。

对此,一般播放器会支持AD轨的音量和电影音量独立控制,方便陪同观看的用户进行手动调节;对于原声动态范围较窄的影片,比如纪录片、文艺片,通过适当调大AD轨的音量,或调小原声轨的音量,基本可以让观众听清解说内容,也不影响电影本身的播放效果;但对于绝大部分影片,原声的动态范围是非常宽的,其时间轴波形呈现起伏的“山脉状”;而AD轨是纯语音,动态范围一般较窄,时间轴波形呈现平坦的“腊肠状”;此时再通过手动调节来获得全程舒适的听觉体验就相当困难了:由于两个轨道动态范围不匹配,如果调大AD轨音量,无法保证全程听清解说内容,甚至损害听力,但如果调小电影原声音量,那么原声的宽动态效果又会大打折扣。

综上可知,现有技术在播放带有AD音轨的盲人无障碍电影时,仍存在播放体验不佳的问题,所以有必要进行改进。

发明内容

本发明的目的就是为了提供一种基于外挂AD音轨的盲人无障碍电影音频处理方法、装置及存储介质,基于现有的盲人无障碍电影播放功能,结合语音活动检测(VAD)和音量自适应调节技术,克服了电影原声音轨对于AD音轨的听觉掩蔽效应,使讲解内容能穿插在高动态范围的电影原声中进行播放,弥补了外挂AD音轨这种盲人无障碍电影播放形式的短板,提升了盲人无障碍电影的观影体验。

本发明的目的可以通过以下技术方案来实现:

一种基于外挂AD音轨的盲人无障碍电影音频处理方法,包括:

获取正片的媒体数据流和外挂AD音轨的媒体数据流;

基于正片的媒体数据流解析分离得到正片视频帧队列Q

基于正片音频帧队列Q

对AD轨处理段PCM数据帧序列进行语音活动检测,得到每一帧的语音活动状态,其中,所述语音活动状态为活动或不活动;

对正片处理段PCM数据帧序列的每一帧计算音量,得到正片音量序列,并对该正片音量序列种的元素逐个计算移动平均值,得到正片平均音量序列;

对AD轨处理段PCM数据帧序列中语音活动状态为不活动的帧修改为静音值,并对剩余帧逐个计算移动平均值,得到AD轨平均音量序列;

基于语音活动检测结果逐帧调节正片平均音量序列和AD轨平均音量序列;

基于处理得到的正片平均音量序列和AD轨平均音量序列生成待播放的音频。

所述基于语音活动检测结果逐帧调节正片平均音量序列和AD轨平均音量序列,具体包括:

初始调节值生成步骤:逐帧确定正片平均音量序列和AD轨平均音量序列中每帧音量的相对调节幅度,得到正片相对调节值序列和AD轨相对调节值序列;

音量调节步骤:根据正片相对调节值序列和AD轨相对调节值序列调节正片平均音量序列和AD轨平均音量序列。

所述正片相对调节值序列和AD轨相对调节值序列中任一帧的调节值的确定过程如下:

当该帧的语音活动状态为不活动时,正片相对调节值和AD轨相对调节值均为0;

当该帧的语音活动状态为活动时,则计算该帧的正片平均音量和AD轨平均音量的差值:

若该帧的正片平均音量和AD轨平均音量的差值小于-10,则正片相对调节值和AD轨相对调节值均为0;

若该帧的正片平均音量和AD轨平均音量的差值小于在-10到0之间,AD轨相对调节值为0,正片相对调节值为D

若该帧的正片平均音量和AD轨平均音量的差值小于在0到10之间,则正片相对调节值为-10,AD轨相对调节值为D

若该帧的正片平均音量和AD轨平均音量的差值大于10,则正片相对调节值为-10,AD轨相对调节值为10。

所述基于语音活动检测结果逐帧调节正片平均音量序列和AD轨平均音量序列,还包括:

调节值优化步骤:对由初始调节值生成步骤得到的正片相对调节值序列和AD轨相对调节值序列进行平滑处理;

所述音量调节步骤中具体为使用调节值优化步骤得到的结果进行音量调节。

所述平滑处理处理的过程具体为:

其中:D

所述步长由淡入淡出窗口长度确定。

所述正片处理段PCM数据帧序列和AD轨处理段PCM数据帧序列共提取有多个。

所有PCM数据帧序列和AD轨处理段PCM数据帧序列的长度相等。

一种基于外挂AD音轨的盲人无障碍电影音频处理装置,包括存储器、处理器,以及存储于所述存储器中的程序,所述处理器执行所述程序时实现如上述的方法。

一种存储介质,其上存储有程序,所述程序被执行时实现如上述的方法。

与现有技术相比,本发明具有以下有益效果:基于现有的盲人无障碍电影播放功能,结合语音活动检测(VAD)和音量自适应调节技术,克服了电影原声音轨对于AD音轨的听觉掩蔽效应,使讲解内容能穿插在高动态范围的电影原声中进行播放,弥补了外挂AD音轨这种盲人无障碍电影播放形式的短板,提升了盲人无障碍电影的观影体验。

附图说明

图1是本发明实施例提供的一种基于外挂AD音轨的盲人无障碍电影播放方法的流程示意图;

图2是本发明图1中步骤S5的子流程图;

图3是本发明实施例提供的语音活动检测(VAD)算法的流程图;

图4是本发明步骤S504中当VAD(t)=1时正片和AD轨两个音轨的调节值与相对音量关系图;

图5是本发明实施例提供的一种基于外挂AD音轨的盲人无障碍电影播放系统架构图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。

如图1所示,本发明供的基于外挂AD音轨的基于外挂AD音轨的盲人无障碍电影音频处理方法,可以用于播放盲人无障碍电影,包括以下步骤:

步骤S1,获取节目正片的媒体数据流,同时获取外挂AD音轨的媒体数据流,解析两种数据流的封装格式与编码类型;本发明所支持的媒体数据流类型包括但不限于HLS、DASH、MP4、RTSP、RTMP;

步骤S2,从节目正片的媒体数据流中分离出视频帧和音频帧,将所述视频帧加入到正片视频帧队列Q

步骤S3,启动播放时钟并循环更新,所述时钟启动初始值为队列Q

步骤S4,在时钟处理循环内,从上述队列Q

步骤S5,从上述正片PCM数据队列Q

如图2所示,步骤S5进一步包含以下步骤:

步骤S501,对PCM数据并进行分帧,帧长为Wl,帧个数n=W

步骤S502,通过语音活动检测(VAD)算法检测上述F

在本实施例中,采用过零率与平均幅度这两个波形特征作为检测语音活动的参考指标,所述过零率指的是PCM数据采样点每秒钟穿过横轴(零电平)的次数,所述平均幅度指的是PCM数据样本幅值的平均值;

具体地,本实施例中语音活动检测算法可以按以下步骤进行:

(a)过零率及平均幅度计算步骤,逐帧计算过零率ZCR(t)以及平均幅度A

(b)语音状态判别步骤,如图3所示,根据过零率阈值ZCR

如果A

如果A

其它情况下,VAD(t)维持前一帧的语音状态;

步骤S503,对上述F

上述每一帧PCM数据音量L(t)的计算公式:

L(t)=20*log(Sample

其中Sample

在本发明中以移动平均值作为实际衡量音频帧音量大小的指标,目的是避免音量的短时陡增和陡降对调节结果产生干扰,同时可以通过增加移动平均算法的窗口大小,控制音量自动调节的灵敏度;

具体地,本实施例采用采用指数加权移动平均EWMA算法来计算移动平均值,计算公式为:

v(t)=β*v(t-1)+(1-β)*θ(t)

其中θ(t)为t时刻实际音量值,系数β为加权下降的速率,v(t)为t时刻音量的移动平均值;

本实施例中分帧长度W

步骤S504,根据L

具体地,音量修正包括以下步骤:

(a)逐帧确定PCM数据帧序列F

当VAD(t)=0时,D

当VAD(t)=1时,根据L

若d<=-10,则D

若-10

若0

若d>10,则D

表1给出了本实施例中5对音频帧音量数据在调整前和调整后的变化情况;

图4直观地展示了步骤S504中VAD(t)=1时正片音轨与AD轨的调节值与上述相对音量Ddb的关系,由图可见,本发明中对正片音轨最大音量相对调节值限制在-10dB以上,这是为了防止正片音量下降过多而破坏电影气氛和背景音乐的连贯性;另一方面,本发明中对及AD音轨的相对调节值限制在10dB以下,是为了避免音量过响对给听力造成损害,同时避免AD音轨在增益计算时发生溢出;通过对实际播放场景的收集和分析,本发明所限定的±10dB的调节限度可以满足在绝大多数高动态范围电影外挂无障碍AD音轨的需求;

(b)对调节值序列进行窗口平滑处理,目的是为了避免音量陡增和陡降,实现淡入淡出的调节效果,设定淡入淡出窗口长度W

(c)根据每帧的最终调节值,对PCM数据帧序列F

sample'=sample*10

其中sample'为调节后的样本值,sample为原样本值,D’为当前帧的最终音量调节值;

步骤S6,将正片处理段PCM数据帧序列Fpcm1、AD轨处理段PCM数据帧序列F

步骤S7,在时钟处理循环内,从Q

步骤S8,根据视频渲染队列Q

当T>t+T

当T<=t+T

图5是本发明实施例提供的一种基于外挂AD音轨的盲人无障碍电影播放系统架构图,如图5所示,包括:

媒体解析装置10,用于输入节目正片与外挂AD音轨的媒体数据流路径,解析并输出两种数据流的封装格式与编码类型;

数据缓冲装置20,连接于所述媒体解析装置,用于从节目正片的媒体数据流中分离出视频帧和音频帧,从外挂AD音轨的媒体数据流中提取音频帧,并控制正片视频帧队列Q

播放时钟控制装置30,连接于所述数据缓冲装置,用于启动和管理播放时钟,设定播放时钟启动的初始值为队列Q

音频解码装置40,连接于所述播放时钟控制装置与数据缓冲装置,用于在接收到时钟更新消息后对AD轨音频帧队列Q

音频处理装置50,连接于音频解码装置,用于对解码后的正片音频数据及AD音轨音频数据进行分帧、语音活动检测、音量检测及修正等处理,使得AD轨中有讲解内容段时,正片音量相对AD轨尽量不超过-10dB;

进一步地,上述音频处理装置包含以下子装置:

音频分帧装置501,用于对PCM数据并进行分帧,以得到正片处理段PCM数据帧序列F

AD音轨语音活动检测(VAD)装置502,连接于上述音频分帧装置,用于检测上述Fpcm2的每一帧的语音活动状态,得到AD音轨语音活动状态序列VAD(t

音量检测装置503,连接于上述音频分帧装置,用于对F

上述正片音量检测装置中,每一帧PCM数据音量L(t)的计算公式:

L(t)=20*log(Sample

其中Sample

音量修正装置504,连接于上述AD音轨语音音量检测装置,用于根据L

具体地,音量修正装置还包括以下子装置:

(a)相对调节值计算装置,用于逐帧确定PCM数据帧序列F

当VAD(t)=0时,D

当VAD(t)=1时,根据L

若d<=-10,则D

若-10

若0

若d>10,则D

(b)调节值平滑处理装置,连接于相对调节值计算装置,用于对调节值序列进行平滑处理,避免音量陡增和陡降,实现淡入淡出的调节效果,设定淡入淡出窗口长度W

(c)最终修正值计算装置,连接于调节值平滑处理装置,用于对PCM数据帧序列F

sample'=sample*10

其中sample'为调节后的样本值,sample为原样本值,D’为当前帧的最终音量调节值;

音频播放装置60,连接于音频处理装置,用于将处理后的正片处理段PCM数据帧序列F

视频解码装置70,连接于所述数据缓冲装置,用于从Q

视频渲染装置80,连接于视频解码装置与播放时钟控制装置,用于实现音视频同步播放,根据视频渲染队列Q

当T>t+T

当T<=t+T

上述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号