首页> 中国专利> 一种广播电视语音识别系统方法及系统

一种广播电视语音识别系统方法及系统

摘要

本发明公开了一种广播电视语音识别方法及系统,其中方法包括:根据广播电视数据提取出音频数据;对音频数据进行预处理,得到特征文本数据;将特征文本数据发送给云服务器进行识别处理,得到男女声识别、说话人识别以及语音识别结果;对数据预处理、男女声识别、说话人识别以及语音识别结果进行融合以及结构化文本标识,生成结构化的语音识别结果。该方法对现有语音识别方法进行改进,融合各种广播电视数据预处理技术以及广播电视语音识别方法,对语音数据针对广播电视行业的数据处理要求进行识别处理,对各识别结果进行融合并生成结构化的语音识别结果,能够为后续广播电视节目的其他业务的智能化处理提供基础数据,且处理速度加快并提高准确度。

著录项

  • 公开/公告号CN103700370A

    专利类型发明专利

  • 公开/公告日2014-04-02

    原文格式PDF

  • 申请/专利权人 北京中科模识科技有限公司;

    申请/专利号CN201310648375.4

  • 发明设计人 陈鑫玮;徐波;

    申请日2013-12-04

  • 分类号G10L15/26(20060101);G10L15/30(20130101);H04N21/439(20110101);

  • 代理机构11002 北京路浩知识产权代理有限公司;

  • 代理人李相雨

  • 地址 100190 北京市海淀区中关村东路95号自动化大厦5层

  • 入库时间 2024-02-19 22:57:46

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2016-08-17

    授权

    授权

  • 2014-04-30

    实质审查的生效 IPC(主分类):G10L15/26 申请日:20131204

    实质审查的生效

  • 2014-04-09

    著录事项变更 IPC(主分类):G10L15/26 变更前: 变更后: 申请日:20131204

    著录事项变更

  • 2014-04-02

    公开

    公开

说明书

技术领域

本发明涉及音视频处理技术领域,特别涉及一种广播电视语音识 别方法及系统。

背景技术

目前在广播电视领域,对广播电视语音识别主要利用适用于各行 业的传统语音识别方法,而传统的语音识别主要采用模式匹配法,分 为训练和识别两个阶段,其中在训练阶段,用户将词汇表中的每一词 依次读或者说一遍,并且将其特征矢量作为模板存入模板库;在识别 阶段,将输入语音的特征矢量依次与模板库中的每个模板进行相似度 比较,将相似度最高者作为识别结果输出。

但是该语音识别应用在广播电视领域的语音识别存在以下问题:

1)广播电视行业对语音识别往往有特别的、不同于其他行业的 处理和操作,但是由于上述传统语音识别是应用于各行业的,对于广 播电视行业没有针对性,不能根据广播电视行业的特点对广播电视数 据中的非语音内容进行过滤。因为在广播电视行业内非语音内容对于 语音识别是不在处理范围之内的,所以如果不对非语音内容进行过 滤,就还需要对其进行传输和处理,不仅导致传输资源和计算资源的 浪费,而且还会由于非语音内容的存在导致出现较多的误识别操作, 并且影响处理速度。

2)由于传统语音识别技术不具备针对广播电视行业的语音识别 功能,导致识别结果不够完整,例如,对于一段广播电视数据无法判 断出说话发生的场景以及说话人的身份等重要信息,无法对语音内容 根据不同的说话人进行分段,无法标识每个语音词的时间戳,对后续 其他广播电视业务的智能化、自动化处理无法提供任何有价值的参考 信息。

综上,传统的语音识别方法应用在广播电视行业中存在耗费资 源、处理速度慢、准确度不高、提供信息量不足等问题。

发明内容

(一)要解决的技术问题

本发明要解决的技术问题是如何针对广播电视行业特点进行语 音识别,避免传统语音识别方法在广播电视行业应用中存在的缺点, 为后续其它广播电视行业业务的智能化、自动化处理提供充足可用的 基础数据。

(二)技术方案

为解决上述技术问题,本发明提供了一种广播电视语音识别方 法,包括:

S1、根据广播电视数据提取出音频数据;

S2、对所述音频数据进行预处理,得到特征文本数据;

S3、将所述特征文本数据发送给云服务器进行识别处理,得到男 女声识别、说话人识别以及语音识别结果;

S4、对所述数据预处理、男女声识别、说话人识别以及语音识别 结果进行融合以及结构化文本标识,生成结构化的语音识别结果。

进一步地,步骤S2对所述音频数据进行预处理具体包括:

S21、对所述音频数据进行切分和碎片化处理生成若干个句子文 件;

S22、对所述句子文件进行非语音过滤,留下语音句子文件;

S23、对每个语音句子文件进行宽窄带判别,对判别为宽带信号 的语音句子文件添加宽带标识,判别为窄带信号的语音句子文件添加 窄带标识;

S24、对添加宽带标识和窄带标识的语音句子文件进行音频特征 提取,得到特征文本数据,其中所述特征文本数据中包含该语音句子 的起止时间、语音特征信息、该句子归属的音视频文件名称和对应的 宽窄带标识。

进一步地,步骤S3将所述特征文本数据发送给云服务器进行识别 处理包括:男女声识别、说话人识别、语音内容识别和标点符号识别, 生成含有标识的语音识别结果。

进一步地,步骤S4对所述语音识别结果进行融合以及结构化文本 标识具体包括:

S41、对各个语音识别结果进行汇总、对齐,并按照其中包含的 起止时间进行排序;

S42、对排序后的语音识别结果按照结构化格式进行标记,包括 说话人性别标识、说话人标识、语音内容、标点符号以及时间戳。

进一步地,步骤S3进行识别处理的过程是根据语言模型库进行识 别的,且所述语音模型库通过网络文本采集和网络文本学习不断进行 更新。

为解决上述技术问题,本发明还提供了一种广播电视语音识别系 统,该系统包括:

提取单元,根据广播电视数据提取出音频数据;

预处理终端,对所述音频数据进行预处理,得到特征文本数据, 并发送给云服务器;

云服务器,对所述特征文本数据进行识别处理,得到语音识别结 果,并对所述语音识别结果进行融合以及结构化文本标识,生成结构 化的语音识别结果。

进一步地,所述预处理终端包括:

切分模块,对所述音频数据进行切分和碎片化处理生成若干个句 子文件;

非语音过滤模块,对所述句子文件进行非语音过滤,留下语音句 子文件;

宽窄带判别模块,对每个语音句子文件进行宽窄带判别,对判别 为宽带信号的语音句子文件添加宽带标识,判别为窄带信号的语音句 子文件添加窄带标识;

音频特征提取模块,对添加宽带标识和窄带标识的语音句子文件 进行音频特征提取,得到特征文本数据,其中所述特征文本数据中包 含该语音句子的起止时间、属于音视频文件名称和对应的宽窄带标 识。

进一步地,所述云服务器包括:

男女声识别模块,用于对所述特征文本数据进行男女声识别;

说话人识别模块,用于对所述特征文本进行说话人识别;

语音内容与标点符号识别模块,用于对所述特征文本进行语音内 容识别以及标点符号识别,生成含有标点符号标识的语音识别结果;

识别结果处理模块,对所述语音识别结果进行融合以及结构化文 本标识,生成结构化的语音识别结果。

进一步地,所述识别结果处理模块进一步包括:

汇总排序模块,用于对各个语音识别结果进行汇总、对齐,并按 照其中包含的起止时间进行排序;

加标识模块,用于对排序后的语音识别结果按照结构化格式进行 标记,包括说话人性别标识、说话人标识、语音内容、标点符号以及 时间戳。

进一步地,所述云服务器中还包括:语言模型智能学习模块,用 于定期搜集网络文本,通过对网络文本的学习定期更新语言模型库, 在识别处理过程中根据定期更新的语言模型库进行识别。

(三)有益效果

本发明实施例提供了一种广播电视语音识别方法及系统,其中方 法包括:根据广播电视数据提取出音频数据;对所述音频数据进行预 处理,得到特征文本数据;将所述特征文本数据发送给云服务器进行 识别处理,得到男女声识别、说话人识别以及语音识别结果;对所述 数据预处理、男女声识别、说话人识别以及语音识别结果进行融合以 及结构化文本标识,生成结构化的语音识别结果。。该方法基于云计 算对现有语音识别方法进行改进,融合广播电视数据预处理技术、男 女声识别技术、说话人识别技术以及广播电视语音识别方法,对语音 数据进行预处理后再具体针对广播电视行业的数据处理要求进行识 别处理,对广播电视数据预处理结果、男女声识别结果、说话人识别 结果以及语音识别结果进行融合以及结构化文本标识,生成结构化的 语音识别结果,能够为广播电视节目的语音检索、字幕识别、主持人 识别等后期智能化处理功能提供基础数据,能够使得广播电视语音识 别处理速度加快并提高准确度。

为后续其他广播电视业务的智能化、自动化处理提供基础数据具 体包括以下几点:

1)对语音的识别结果以及对语音词时间戳的标识结果可以为 广播电视语音内容的检索业务提供基础数据;

2)对语音句子的切分时间点标识结果,以及宽窄带的判别结 果,可以为广播电视节目的拆分提供边界时间点的参考;

3)对广播电视中语音内容的识别以及标点符号的识别,可以 为广播电视节目中的字幕识别提供内容参考;

4)对语音句子的说话人识别以及宽窄带的判别结果,可以为 广播电视节目中的主持人识别、嘉宾识别、说话场景识别(室内场景、 室外场景)等提供依据。

附图说明

图1为本发明实施例一提供的一种广播电视语音识别方法的步骤 流程图;

图2为本发明实施例一提供的预处理操作的步骤流程图;

图3为本发明实施例一提供的语音/非语音判别过程中音频分类 方法的技术框架示意图;

图4为本发明实施例一提供的对广播电视数据进行语音识别的具 体流程图;

图5为本发明实施例二提供的一种广播电视语音识别系统的组成 示意图;

图6为本发明实施例二提供的预处理终端的组成示意图;

图7为本发明实施例二提供的云服务器的组成示意图;

图8为本发明实施例二提供的语音内容与标点符号识别模块的工 作流程图;

图9为本发明实施例二提供的云服务平台架构示意图。

具体实施方式

下面结合附图和实施例,对本发明的具体实施方式作进一步详细 描述。以下实施例用于说明本发明,但不用来限制本发明的范围。

实施例一

本发明实施例一提供了一种广播电视语音识别方法,步骤流程如 图1所示,具体包括以下步骤:

步骤S1、根据广播电视数据提取出音频数据。

步骤S2、对音频数据进行预处理,得到特征文本数据。

步骤S3、将特征文本数据发送给云服务器进行识别处理,得到男 女声识别、说话人识别以及语音识别结果;

步骤S4、对数据预处理、男女声识别、说话人识别以及语音识别 结果进行融合以及结构化文本标识,生成结构化的语音识别结果。

上述方法首先从用户提供的待识别广播电视数据(即音视频数 据)中抽取出音频数据,并经过预处理后得到特征文本数据,再由云 服务器对其进行识别处理,最后对得到的数据预处理、男女声识别、 说话人识别以及语音识别结果进行融合以及结构化文本标识,最终生 成结构化的语音识别结果,并将其以可扩展标记语言XML返回给用 户。对语音识别结果添加语音词的时间戳、句子的时间戳、男女声、 说话人等标识,能够为广播电视语音内容的检索、字幕识别以及主持 人识别等提供依据,更加方便后续其他广播电视业务的智能化、自动 化处理,为各种操作和处理提供基础数据。

优选地,本实施例步骤S1之前还包括:接收用户发送的广播电视 数据,其中该广播电视数据中包括音视频数据,可以理解为音频数据 和视频数据。接收到广播电视数据之后,要首先判断该广播电视数据 是否为语音识别系统支持的音视频数据类型,如果不是支持的或者说 可识别的音视频数据,则拒绝处理。

本实施例中的音视频解码采用G.711的编解码标准,利用ffmpeg 软件解码工具实现音视频的解码,抽取音频部分保存为pcm格式, 可兼容当前各种主流的广播电视音视频数据格式,例如wmv,wma, wav,mp3,asf,rm,mp4、avi、flv等格式。如果判断出是可识别的 音视频数据,则对该音视频数据进行解码,并进一步从中提取出属于 音频部分的数据,并将得到的音频数据作为步骤S2的待处理数据。

优选地,本实施例中的步骤S2对音频数据进行预处理,预处理内 容主要包括按照适合语音识别的标准进行切分以及碎片化,对碎片化 后的句子文件进行语音/非语音、宽带/窄带的判别并标识,最后提取 包含有语音特征的特征文本数据,预处理操作的步骤流程如图2所示, 具体包括以下步骤:

步骤S21、对音频数据进行切分和碎片化处理生成若干个句子文 件。

由于接收到的音频数据是比较完整的数据块,需要对其切分和碎 片化处理,生成若干个小的、适合语音识别系统处理的句子文件。具 体的切分过程如下:

首先对该音频数据进行解析,分析各音频采样点的能量信号值, 找到静音位置,在本实施例中以50帧,一帧200个采样点作为静音点 阀值,超过该静音点阀值时,说明该点为静音位置;找到静音位置之 后,按照静音位置对音频数据进行切分,即碎片化生成离散的句子文 件,并对每个句子文件打上时间标识,最终得到的句子文件以pcm格 式保存。

步骤S22、对句子文件进行非语音过滤,留下语音句子文件。

由于步骤S21只是根据静音位置对音频数据进行切分,其中还 包括大量的非语音内容,而这些内容对于后续的音频识别没有任何帮 助,也起不到任何积极的作用,相反的,由于非语音内容的存在还会 加重语音识别系统对音频数据的传输和计算的处理负担,还会导致误 识别的发生,因此需要对生成的句子文件进行非语音过滤,即对碎片 化后的句子文件进行语音/非语音判别,剩下语音句子文件,该步骤 具体如下:

首先,解析每个碎片化后的句子文件,根据语音/非语音分类模 型,通过分类器对每个句子文件进行语音/非语音的判别;

其次,根据判别结果,对非语音的句子文件进行删除标识的操作, 并记录句子时间位置。

本实施例中使用了一种基于支持向量机(Support Vector  Machine,简称SVM)的音频分类方法,首先基于能量门限,把短句 子分成静音和非静音,然后通过选择有效而又鲁棒的音频特征,把非 静音信号分成4类:语音(纯语音、非纯语音)、非语音(音乐、环 境音),该方法具有很高的分类准确率和处理速度,该音频分类方法 的技术框架如图3所示。

步骤S23、对每个语音句子文件进行宽窄带判别,对判别为宽带 信号的语音句子文件添加宽带标识,判别为窄带信号的语音句子文件 添加窄带标识。

对每个语音句子进行宽窄带判别,以便根据判别结果为后续语音 识别时选择哪种语音识别模型提供参考,该步骤具体如下:

首先,对过滤后剩下的适合语音识别系统处理的语音句子片断进 行逐条分析,判别其语音句子为宽带(高采样率)或窄带(低采样率), 以便后续语音识别时选择哪种语音识别模型提供参考;

其次,对每条语音句子进行宽窄带标识,即对宽带信号的语音句 子文件添加宽带标识,对窄带信号的语音句子文件添加窄带标识。

具体的,本实施例中宽窄带判别通过分析音频信号中的频谱能量 值进行判别,当8K以上的频谱能量值大于0.1时,该音频信号为宽 带,当8K以下的频谱能量值小于或等于0.1时,该音频信号则为窄 带信号。

步骤S24、对添加宽带标识和窄带标识的语音句子文件进行音频 特征提取,得到特征文本数据,其中特征文本数据中包含该语音句子 的起止时间、语音特征信息、该句子归属的音视频文件名称和对应的 宽窄带标识。

为节省网络带宽资源,对语音句子文件添加宽窄带标识之后,还 要进行音频特征的提取,将音频数据转化为文本特征数据,以减少网 络传输的数据量,具体如下:

首先,对对添加宽带标识和窄带标识的语音句子文件进行逐条分 析,抽取MFCC(Mel Frequency Cepstrum Coefficient,Mel频率倒谱 系数)和PLP(Packet Level Protocol,分组级协议)语音特征,这是 在语音识别领域常用的两种语音特征;

其次,对抽取后的每条语音特征进行时间标识,使得最后得到的 特征文本数据中包含该语音句子的起止时间、属于哪个音视频文件的 文件名称以及对应的宽窄带标识。

需要说明的是,该步骤不仅将输入语音信号转换成比较鲁棒且具 有区分能力的语音特征,用于区分不同的说话人,而且在特征提取基 础上还进行了一定的归一化,其中的归一化内容包括:

1)均值归一化CMN,主要降低信道影响;

2)方差归一化CVN,主要降低加性噪声影响;

3)声道长度归一化VTLN,主要降低声道差异造成的影响;

4)高斯化Gaussianization,是CMN+CVN的推广算法;

5)抗噪算法,降低背景噪声对系统性能影响,使用AWF和VTS 算法。

优选地,本实施例步骤S3将特征文本数据发送给云服务器,进 入语音识别流程。本实施例中云服务器调用模块采用Web Service接 口协议,将待识别的广播电视任务信息以XML消息的方式发送至与 服务器端进行语音识别。其中识别任务的XML消息包含以下内容:

1)待识别的广播电视文件名称;

2)碎片化的句子文件列表;

3)每个句子文件的语音/非语音标识;

4)每个句子文件的宽带/窄带标识;

5)每个鉴定为语音的句子文件的语音特征文本;

6)每个句子文件的起止时间标识。

云服务器接收到识别任务后,进行识别处理包括:男女声识别、 说话人识别、语音内容识别和标点符号识别,生成含有标识的语音识 别结果,该步骤具体如下:

(1)将待识别的语音句子文件对应的语音特征文本以XML(可 扩展语言)消息的方式逐条发送到远端用于广播电视语音识别处理的 与服务器,在XML消息中除了包含语音特征文本数据之外,还应该 包含以下信息:语音句子文件对应的起止时间、该语音句子文件归属 的广播电视音视频文件名称、该语音句子文件的宽窄带标识;

(2)云服务器中的语音识别系统基于云计算框架构建,当语音 句子的特征文本发送到广播电视语音识别云时,通过控制器根据云服 务器中计算资源的占用情况,为该条语音句子文件的识别合理分配计 算资源;

(3)语音识别系统调用分配到的计算资源对语音特征分别进行 男女声识别、说话人识别、语音内容与标点符号识别,其中男女声识 别根据男女声分类模型,通过分类器对每个句子进行男女声的分类判 别并标识;说话人识别根据说话人模型库,对每个句子进行说话人的 识别并标识;语音内容识别和标点符号识别对每个句子进行语音内容 的识别,同时标记标点符号,并对识别出的每个词汇进行时间标注。

优选地,本实施例步骤S4对语音识别结果进行融合以及结构化文 本标识的具体包括:

步骤S41、对各个语音识别结果进行汇总、对齐,并按照其中包 含的起止时间进行排序,具体的:针对每个语音句子的识别结果进行 融合,按照其归属的广播电视音视频文件进行汇总整理,将各句子的 不同识别结果(男女声识别、说话人识别、语音内容与标点符号识别) 按照时间点对齐,并进行时间排序。

步骤S42、对排序后的语音识别结果按照结构化格式进行标记, 包括说话人性别标识、说话人标识、语音内容、标点符号以及时间戳, 具体的:针对排序好的识别结果,按照特定的结构化的格式进行文本 结果标识,标识内容包括每个句子文件的说话人性别、说话人、句子 中的语音内容、句子中每个语音词的时间戳、句子中断点的标点符号。

最后生成结构化的语音识别结果,之后再将语音识别结果以 XML消息的形式反馈给用户,其中XML消息包含以下内容:

1)识别的广播电视文件名称;

2)碎片化的句子文件列表;

3)每个句子文件的语音/非语音标识;

4)每个句子文件的宽带/窄带标识;

5)每个句子文件的语音识别结果;

6)每个句子文件的说话人标识;

7)每个句子文件的男女声标识;

8)每个句子文件的起止时间标识。

优选地,本实施例为保障语音识别的准确率,在步骤S3进行识 别处理的过程是根据声学模型库与语言模型库进行识别的,其中语言 模型库通过对网络文本的采集和对网络文本的学习不断进行更新。定 期通过互联网进行网络文本的采集,通过对网络文本的学习定期优化 语言模型库,具体如下:

1)从互联网中定期搜集网络文本,通过网络爬虫,定期向各大 搜索引擎(如百度、谷歌、搜搜、搜狗、搜库等)以及各大广播电视 相关的门户网站(如央视网、各地网台、新浪、搜狐等)抓取网页链 接,搜集热门词汇以及网络文章。

2)通过搜集的网络文本对网络文章进行分词,并统计词频、词 数,将分词结果、网络热词采集结果以及统计数据录入该语音识别系 统中的语言模型库,供各语音识别模块进行参考,实现对语言模型库 的定期更新,以保障广播电视语音识别的准确率。

基于上述,本实施例对广播电视数据进行语音识别的具体流程如 图4所示,具体包括:

首先,接收广播电视数据,将其发送给预处理终端进行音视频解 码,从中提取出音频数据,之后进行音频切分以及碎片化,对碎片化 后的句子文件进行语音/非语音判别,如果是语音则继续下一步骤, 否则将其标记为非语音,并不做继续处理。对于语音句子文件继续进 行宽窄带判别、语音特征提取,再将得到的特征文本数据通过语音识 别的“云”调用,将其以XML消息作为语音识别任务发送给云服务 器进行语音识别处理。云服务器端的云服务平台对其分别进行男女声 识别、说话人识别、语音内容识别与标点符号识别,再对识别结果进 行融合等处理后反馈给与服务平台,同时从网络学习新的网络词汇、 热门词汇等对云服务平台的语言模型库进行定期更新,保证语音识别 的准确率。最后,云服务器将识别结果,也就是结构化的语音识别结 果通过XML形式反馈给用户,供用户参考、检索等进一步地智能化 处理。

通过本实施例提供的识别方法,基于云计算对现有语音识别方法 进行改进,融合广播电视数据预处理技术、男女声识别技术、说话人 识别技术以及广播电视语音识别方法,对语音数据进行预处理后再具 体针对广播电视行业的数据处理要求进行识别处理,对广播电视数据 预处理结果、男女声识别结果、说话人识别结果以及语音识别结果进 行融合以及结构化文本标识,生成结构化的语音识别结果,能够为后 续其他广播电视业务的智能化、自动化处理提供基础数据,具体包括 以下几点:

5)对语音的识别结果以及对语音词时间戳的标识结果可以为 广播电视语音内容的检索业务提供基础数据;

6)对语音句子的切分时间点标识结果,以及宽窄带的判别结 果,可以为广播电视节目的拆分提供边界时间点的参考;

7)对广播电视中语音内容的识别以及标点符号的识别,可以 为广播电视节目中的字幕识别提供内容参考;

8)对语音句子的说话人识别以及宽窄带的判别结果,可以为 广播电视节目中的主持人识别、嘉宾识别、说话场景识别(室内场景、 室外场景)等提供依据。

另外,处理速度加快,能够应对海量数据的语音识别问题,还由 于定期对语言模型库进行学习与更新,能够提高语音识别的准确度。

实施例二

本发明实施例二还提供了一种广播电视语音识别系统,组成示意 图如图5所示,该系统包括:

提取单元10,根据广播电视数据提取出音频数据;

预处理终端20,对音频数据进行预处理,得到特征文本数据,并 发送给云服务器30;

云服务器30,对特征文本数据进行识别处理,得到语音识别结果, 并对语音识别结果进行融合以及结构化文本标识,生成结构化的语音 识别结果。

优选地,本实施例中的预处理终端20的组成示意图如图6所示, 具体包括:

切分模块21,对音频数据进行切分和碎片化处理生成若干个句子 文件;

非语音过滤模块22,对句子文件进行非语音过滤,留下语音句子 文件;

宽窄带判别模块23,对每个语音句子文件进行宽窄带判别,对判 别为宽带信号的语音句子文件添加宽带标识,判别为窄带信号的语音 句子文件添加窄带标识;

音频特征提取模块24,对添加宽带标识和窄带标识的语音句子文 件进行音频特征提取,得到特征文本数据,其中特征文本数据中包含 该语音句子的起止时间、语音特征信息、该句子归属的音视频文件名 称和对应的宽窄带标识。

优选地,本实施例中的云服务器30的组成示意图如图7所示,具 体包括:

男女声识别模块31,用于对特征文本数据进行男女声识别。

由于在生理和心理学方面,男性、女性说话有明显的差异,如声 带产生的基音、口腔结构(喉咽、舌头、腭、唇、齿等)产生的共振 峰频率、呼出气流的大小和强弱等。因此语音信号中包含说话人的性 别特征。在本实施例中,通过GMM-SVM(Gaussian Mixture  Models-Support Vector Machines)混合模型的技术框架,建立了全体 变化空间建模(Total Variability Modeling)的男女声识别(即说话人 性别识别)。全体变化空间建模在训练空间矩阵时,不再区分说话人 空间和信道空间,通过总体空间来表示,简化了空间的数学表示,大 大降低了对训练数据的依赖程度。通过多系统融合,给出最终的性别 结果判定。

说话人识别模块32,用于对特征文本进行说话人识别。

在本实施例中说话人识别基于说话人之间的两类差别来实现的: 一是不同声道频谱特性的发音上本身存在差异,这种差异体现在发音 的语音特征分布上不一样;二是不同说话人的高层次特征(high-level  features)存在差异,即由于生活环境和背景不同,后天形成的,如习 惯用语、韵律、语言结构等差异。目前国际上主流的说话人识别系统 基本上都是基于这些特点,用统计建模的方法解决来说话人识别问 题。具体的,说话人识别系统包括以下两个模块:

A、说话人建模工具模块:通过区分训练的方法,如支持向量机 SVM,或者基于统计建模的方法,如高斯混合模型GMM,对说话人 进行建模,刻画不同说话人各自的特征空间分布特性,用于区分不同 的说话人。

B、说话人判别算法模块:将输入语音的特征与相应的说话人模 型进行匹配,根据匹配程度判别输入语音的说话人身份。

语音内容与标点符号识别模块33,用于对特征文本进行语音内容 识别以及标点符号识别,生成含有标识的语音识别结果。

模块包含4个组成部分:声学模型库、语言模型库、搜索与解码、 标点符号生成,工作流程图如图8所示,输入语音特征后,根据该语 音特征是宽带信号还是窄带信号,由搜索与解码模块选择调用智能学 习而来的声学模型库与语言模型库对语音内容进行识别,识别后生成 的文本(句子)送入标点符号生成模块进行标点符号的识别,最后生 成带有标点符号标识的语音识别结果。

4个组成部分分别采用的识别技术介绍如下:

A、声学模型库:在本实施例中采用基于CD-DNN-HMM(上 下文相关的深度神经网络的隐马尔可夫模型)声学模型库,比传统的 基于GMM-HMM(高斯混合模型的隐马尔可夫模型)声学模型库识 别准确率要更高。

B、语言模型库:在本实施例中采用N-Gram(N元语法)语言 模型,该模型基于这样一种假设,第n个词的出现只与前面N-1个词 相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的 乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数 得到。N-Gram语言模型简单有效,被语音识别业界所广泛使用。

C、搜索与解码:在本实施例中采用Viterbi搜索算法等动态规 划方法,搜索在给定模型情况下的最优结果;基于动态规划的Viterbi 算法在每个时间点上的各个状态,计算解码状态序列对观察序列的后 验概率,保留概率最大的路径,并在每个节点记录下相应的状态信息 以便最后反向获取词解码序列。Viterbi算法在不丧失最优解的条件 下,同时解决了连续语音识别中HMM模型状态序列与声学观察序列 的非线性时间对准、词边界检测和词的识别,也是常用的语音识别搜 索的基本策略。

标点符号生成:在本实施例中采用了一种利用纯文本信息添加中 文口语句子句末标点的方法。该方法从句子的不同粒度角度,建模全 局词汇信息与标点的关系,并使用多层感知器来融合在不同粒度下得 到的标点模型,从而实现了标点(句号、问号和叹号)生成。

识别结果处理模块34,对语音识别结果进行融合以及结构化文本 标识,生成结构化的语音识别结果。其中本实施例中,识别结果处理 模块34首先对广播电视数据中各个语音句子文件的语音识别结果(带 标点符号、每个语音词带时间戳)进行汇总及融合。

优选地,本实施例中的识别结果处理模块34进一步包括:

汇总排序模块,用于对各个语音识别结果进行汇总、对齐,并按 照其中包含的起止时间进行排序;

加标识模块,用于对排序后的语音识别结果按照结构化格式进行 标记,包括说话人性别标识、说话人标识、语音内容、标点符号以及 时间戳。

优选地,本实施例中的云服务器30中还包括:语言模型智能学 习模块35,用于定期搜集网络文本,通过对网络文本的学习定期更 新语言模型库,在识别处理过程中根据定期更新的语言模型库进行识 别,以确保语音识别的准确率。。

本实施例中的云服务器30是基于语音识别云服务平台36实现 的,具体的语音识别云服务平台基于ICE与SOA相结合的云服务平 台框架进行构建,由ICE框架完成分布式计算,通过SOA框架对外 提供云服务,完成基于Web Service的识别任务与识别结果的通信。

在本实施例中服务平台中,将各种识别模块(即男女声识别模块 31、说话人识别模块32、语音内容与标点符号识别模块33以及识别结 果处理模块34)封装成为插件,形成标准的云服务,配置在框架中, 成为云服务平台的一部分,各种识别模块可以在不影响系统正常运行 的情况下在平台中方便地添加和卸载,当待识别的数据量增加时,云 服务平台将自适应地添加识别模块,以完成海量的广播电视语音识别 任务。

该云服务平台架构如图9所示,广播电视数据完成预处理后,通 过调用数据接入接口将语音识别任务以XML任务消息传递给控制单 元,由控制单元根据当前的计算资源的状态(计算资源的状态通过监 控单元搜集),主要包括CPU、内存、网络状态,结合识别节点的任 务执行状态,任务优先级,以及执行效率的先验知识,动态决策并分 配最优的计算资源完成识别任务的执行。

综上所述,本实施例提供的识别系统融合广播电视数据预处理技 术、男女声识别技术、说话人识别技术以及广播电视语音识别方法, 对语音数据进行预处理后再具体针对广播电视行业的数据处理要求 进行识别处理,对广播电视数据预处理结果、男女声识别结果、说话 人识别结果以及语音识别结果进行融合以及结构化文本标识,生成结 构化的语音识别结果,能够为后续其他广播电视业务的智能化、自动 化处理提供基础数据。另外,由于采用对碎片化的语音数据并行处理 的方式,处理速度加快,能够应对海量数据的语音识别问题,同时由 于定期对语言模型库进行智能学习与更新,能够提高语音识别的准确 度。

以上实施方式仅用于说明本发明,而并非对本发明的限制,有关 技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下, 还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明 的范畴,本发明的专利保护范围应由权利要求限定。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号