首页> 中国专利> 一种广播电视语音识别系统方法及系统

一种广播电视语音识别系统方法及系统

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了一种广播电视语音识别方法及系统，其中方法包括：根据广播电视数据提取出音频数据；对音频数据进行预处理，得到特征文本数据；将特征文本数据发送给云服务器进行识别处理，得到男女声识别、说话人识别以及语音识别结果；对数据预处理、男女声识别、说话人识别以及语音识别结果进行融合以及结构化文本标识，生成结构化的语音识别结果。该方法对现有语音识别方法进行改进，融合各种广播电视数据预处理技术以及广播电视语音识别方法，对语音数据针对广播电视行业的数据处理要求进行识别处理，对各识别结果进行融合并生成结构化的语音识别结果，能够为后续广播电视节目的其他业务的智能化处理提供基础数据，且处理速度加快并提高准确度。

著录项

公开/公告号CN103700370A

专利类型发明专利
公开/公告日2014-04-02

原文格式PDF
申请/专利权人北京中科模识科技有限公司;
展开▼

申请/专利号CN201310648375.4
发明设计人陈鑫玮;徐波;
展开▼

申请日2013-12-04
分类号G10L15/26(20060101);G10L15/30(20130101);H04N21/439(20110101);
代理机构11002 北京路浩知识产权代理有限公司;
代理人李相雨
地址 100190 北京市海淀区中关村东路95号自动化大厦5层
入库时间 2024-02-19 22:57:46

法律信息

法律状态公告日

法律状态信息

法律状态
2016-08-17

授权

授权
2014-04-30

实质审查的生效 IPC(主分类):G10L15/26 申请日:20131204

实质审查的生效
2014-04-09

著录事项变更 IPC(主分类):G10L15/26 变更前: 变更后: 申请日:20131204

著录事项变更
2014-04-02

公开

公开

说明书

技术领域

本发明涉及音视频处理技术领域，特别涉及一种广播电视语音识别方法及系统。

背景技术

目前在广播电视领域，对广播电视语音识别主要利用适用于各行业的传统语音识别方法，而传统的语音识别主要采用模式匹配法，分为训练和识别两个阶段，其中在训练阶段，用户将词汇表中的每一词依次读或者说一遍，并且将其特征矢量作为模板存入模板库；在识别阶段，将输入语音的特征矢量依次与模板库中的每个模板进行相似度比较，将相似度最高者作为识别结果输出。

但是该语音识别应用在广播电视领域的语音识别存在以下问题：

1）广播电视行业对语音识别往往有特别的、不同于其他行业的处理和操作，但是由于上述传统语音识别是应用于各行业的，对于广播电视行业没有针对性，不能根据广播电视行业的特点对广播电视数据中的非语音内容进行过滤。因为在广播电视行业内非语音内容对于语音识别是不在处理范围之内的，所以如果不对非语音内容进行过滤，就还需要对其进行传输和处理，不仅导致传输资源和计算资源的浪费，而且还会由于非语音内容的存在导致出现较多的误识别操作，并且影响处理速度。

2）由于传统语音识别技术不具备针对广播电视行业的语音识别功能，导致识别结果不够完整，例如，对于一段广播电视数据无法判断出说话发生的场景以及说话人的身份等重要信息，无法对语音内容根据不同的说话人进行分段，无法标识每个语音词的时间戳，对后续其他广播电视业务的智能化、自动化处理无法提供任何有价值的参考信息。

综上，传统的语音识别方法应用在广播电视行业中存在耗费资源、处理速度慢、准确度不高、提供信息量不足等问题。

发明内容

（一）要解决的技术问题

本发明要解决的技术问题是如何针对广播电视行业特点进行语音识别，避免传统语音识别方法在广播电视行业应用中存在的缺点，为后续其它广播电视行业业务的智能化、自动化处理提供充足可用的基础数据。

（二）技术方案

为解决上述技术问题，本发明提供了一种广播电视语音识别方法，包括：

S1、根据广播电视数据提取出音频数据；

S2、对所述音频数据进行预处理，得到特征文本数据；

S3、将所述特征文本数据发送给云服务器进行识别处理，得到男女声识别、说话人识别以及语音识别结果；

S4、对所述数据预处理、男女声识别、说话人识别以及语音识别结果进行融合以及结构化文本标识，生成结构化的语音识别结果。

进一步地，步骤S2对所述音频数据进行预处理具体包括：

S21、对所述音频数据进行切分和碎片化处理生成若干个句子文件；

S22、对所述句子文件进行非语音过滤，留下语音句子文件；

S23、对每个语音句子文件进行宽窄带判别，对判别为宽带信号的语音句子文件添加宽带标识，判别为窄带信号的语音句子文件添加窄带标识；

S24、对添加宽带标识和窄带标识的语音句子文件进行音频特征提取，得到特征文本数据，其中所述特征文本数据中包含该语音句子的起止时间、语音特征信息、该句子归属的音视频文件名称和对应的宽窄带标识。

进一步地，步骤S3将所述特征文本数据发送给云服务器进行识别处理包括：男女声识别、说话人识别、语音内容识别和标点符号识别，生成含有标识的语音识别结果。

进一步地，步骤S4对所述语音识别结果进行融合以及结构化文本标识具体包括：

S41、对各个语音识别结果进行汇总、对齐，并按照其中包含的起止时间进行排序；

S42、对排序后的语音识别结果按照结构化格式进行标记，包括说话人性别标识、说话人标识、语音内容、标点符号以及时间戳。

进一步地，步骤S3进行识别处理的过程是根据语言模型库进行识别的，且所述语音模型库通过网络文本采集和网络文本学习不断进行更新。

为解决上述技术问题，本发明还提供了一种广播电视语音识别系统，该系统包括：

提取单元，根据广播电视数据提取出音频数据；

预处理终端，对所述音频数据进行预处理，得到特征文本数据，并发送给云服务器；

云服务器，对所述特征文本数据进行识别处理，得到语音识别结果，并对所述语音识别结果进行融合以及结构化文本标识，生成结构化的语音识别结果。

进一步地，所述预处理终端包括：

切分模块，对所述音频数据进行切分和碎片化处理生成若干个句子文件；

非语音过滤模块，对所述句子文件进行非语音过滤，留下语音句子文件；

宽窄带判别模块，对每个语音句子文件进行宽窄带判别，对判别为宽带信号的语音句子文件添加宽带标识，判别为窄带信号的语音句子文件添加窄带标识；

音频特征提取模块，对添加宽带标识和窄带标识的语音句子文件进行音频特征提取，得到特征文本数据，其中所述特征文本数据中包含该语音句子的起止时间、属于音视频文件名称和对应的宽窄带标识。

进一步地，所述云服务器包括：

男女声识别模块，用于对所述特征文本数据进行男女声识别；

说话人识别模块，用于对所述特征文本进行说话人识别；

语音内容与标点符号识别模块，用于对所述特征文本进行语音内容识别以及标点符号识别，生成含有标点符号标识的语音识别结果；

识别结果处理模块，对所述语音识别结果进行融合以及结构化文本标识，生成结构化的语音识别结果。

进一步地，所述识别结果处理模块进一步包括：

汇总排序模块，用于对各个语音识别结果进行汇总、对齐，并按照其中包含的起止时间进行排序；

加标识模块，用于对排序后的语音识别结果按照结构化格式进行标记，包括说话人性别标识、说话人标识、语音内容、标点符号以及时间戳。

进一步地，所述云服务器中还包括：语言模型智能学习模块，用于定期搜集网络文本，通过对网络文本的学习定期更新语言模型库，在识别处理过程中根据定期更新的语言模型库进行识别。

（三）有益效果

本发明实施例提供了一种广播电视语音识别方法及系统，其中方法包括：根据广播电视数据提取出音频数据；对所述音频数据进行预处理，得到特征文本数据；将所述特征文本数据发送给云服务器进行识别处理，得到男女声识别、说话人识别以及语音识别结果；对所述数据预处理、男女声识别、说话人识别以及语音识别结果进行融合以及结构化文本标识，生成结构化的语音识别结果。。该方法基于云计算对现有语音识别方法进行改进，融合广播电视数据预处理技术、男女声识别技术、说话人识别技术以及广播电视语音识别方法，对语音数据进行预处理后再具体针对广播电视行业的数据处理要求进行识别处理，对广播电视数据预处理结果、男女声识别结果、说话人识别结果以及语音识别结果进行融合以及结构化文本标识，生成结构化的语音识别结果，能够为广播电视节目的语音检索、字幕识别、主持人识别等后期智能化处理功能提供基础数据，能够使得广播电视语音识别处理速度加快并提高准确度。

为后续其他广播电视业务的智能化、自动化处理提供基础数据具体包括以下几点：

1）对语音的识别结果以及对语音词时间戳的标识结果可以为广播电视语音内容的检索业务提供基础数据；

2）对语音句子的切分时间点标识结果，以及宽窄带的判别结果，可以为广播电视节目的拆分提供边界时间点的参考；

3）对广播电视中语音内容的识别以及标点符号的识别，可以为广播电视节目中的字幕识别提供内容参考；

4）对语音句子的说话人识别以及宽窄带的判别结果，可以为广播电视节目中的主持人识别、嘉宾识别、说话场景识别（室内场景、室外场景）等提供依据。

附图说明

图1为本发明实施例一提供的一种广播电视语音识别方法的步骤流程图；

图2为本发明实施例一提供的预处理操作的步骤流程图；

图3为本发明实施例一提供的语音/非语音判别过程中音频分类方法的技术框架示意图；

图4为本发明实施例一提供的对广播电视数据进行语音识别的具体流程图；

图5为本发明实施例二提供的一种广播电视语音识别系统的组成示意图；

图6为本发明实施例二提供的预处理终端的组成示意图；

图7为本发明实施例二提供的云服务器的组成示意图；

图8为本发明实施例二提供的语音内容与标点符号识别模块的工作流程图；

图9为本发明实施例二提供的云服务平台架构示意图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

实施例一

本发明实施例一提供了一种广播电视语音识别方法，步骤流程如图1所示，具体包括以下步骤：

步骤S1、根据广播电视数据提取出音频数据。

步骤S2、对音频数据进行预处理，得到特征文本数据。

步骤S3、将特征文本数据发送给云服务器进行识别处理，得到男女声识别、说话人识别以及语音识别结果；

步骤S4、对数据预处理、男女声识别、说话人识别以及语音识别结果进行融合以及结构化文本标识，生成结构化的语音识别结果。

上述方法首先从用户提供的待识别广播电视数据（即音视频数据）中抽取出音频数据，并经过预处理后得到特征文本数据，再由云服务器对其进行识别处理，最后对得到的数据预处理、男女声识别、说话人识别以及语音识别结果进行融合以及结构化文本标识，最终生成结构化的语音识别结果，并将其以可扩展标记语言XML返回给用户。对语音识别结果添加语音词的时间戳、句子的时间戳、男女声、说话人等标识，能够为广播电视语音内容的检索、字幕识别以及主持人识别等提供依据，更加方便后续其他广播电视业务的智能化、自动化处理，为各种操作和处理提供基础数据。

优选地，本实施例步骤S1之前还包括：接收用户发送的广播电视数据，其中该广播电视数据中包括音视频数据，可以理解为音频数据和视频数据。接收到广播电视数据之后，要首先判断该广播电视数据是否为语音识别系统支持的音视频数据类型，如果不是支持的或者说可识别的音视频数据，则拒绝处理。

本实施例中的音视频解码采用G.711的编解码标准，利用ffmpeg 软件解码工具实现音视频的解码，抽取音频部分保存为pcm格式，可兼容当前各种主流的广播电视音视频数据格式，例如wmv，wma， wav，mp3，asf，rm，mp4、avi、flv等格式。如果判断出是可识别的音视频数据，则对该音视频数据进行解码，并进一步从中提取出属于音频部分的数据，并将得到的音频数据作为步骤S2的待处理数据。

优选地，本实施例中的步骤S2对音频数据进行预处理，预处理内容主要包括按照适合语音识别的标准进行切分以及碎片化，对碎片化后的句子文件进行语音/非语音、宽带/窄带的判别并标识，最后提取包含有语音特征的特征文本数据，预处理操作的步骤流程如图2所示，具体包括以下步骤：

步骤S21、对音频数据进行切分和碎片化处理生成若干个句子文件。

由于接收到的音频数据是比较完整的数据块，需要对其切分和碎片化处理，生成若干个小的、适合语音识别系统处理的句子文件。具体的切分过程如下：

首先对该音频数据进行解析，分析各音频采样点的能量信号值，找到静音位置，在本实施例中以50帧，一帧200个采样点作为静音点阀值，超过该静音点阀值时，说明该点为静音位置；找到静音位置之后，按照静音位置对音频数据进行切分，即碎片化生成离散的句子文件，并对每个句子文件打上时间标识，最终得到的句子文件以pcm格式保存。

步骤S22、对句子文件进行非语音过滤，留下语音句子文件。

由于步骤S21只是根据静音位置对音频数据进行切分，其中还包括大量的非语音内容，而这些内容对于后续的音频识别没有任何帮助，也起不到任何积极的作用，相反的，由于非语音内容的存在还会加重语音识别系统对音频数据的传输和计算的处理负担，还会导致误识别的发生，因此需要对生成的句子文件进行非语音过滤，即对碎片化后的句子文件进行语音/非语音判别，剩下语音句子文件，该步骤具体如下：

首先，解析每个碎片化后的句子文件，根据语音/非语音分类模型，通过分类器对每个句子文件进行语音/非语音的判别；

其次，根据判别结果，对非语音的句子文件进行删除标识的操作，并记录句子时间位置。

本实施例中使用了一种基于支持向量机（Support Vector Machine，简称SVM）的音频分类方法，首先基于能量门限，把短句子分成静音和非静音，然后通过选择有效而又鲁棒的音频特征，把非静音信号分成4类：语音（纯语音、非纯语音）、非语音（音乐、环境音），该方法具有很高的分类准确率和处理速度，该音频分类方法的技术框架如图3所示。

步骤S23、对每个语音句子文件进行宽窄带判别，对判别为宽带信号的语音句子文件添加宽带标识，判别为窄带信号的语音句子文件添加窄带标识。

对每个语音句子进行宽窄带判别，以便根据判别结果为后续语音识别时选择哪种语音识别模型提供参考，该步骤具体如下：

首先，对过滤后剩下的适合语音识别系统处理的语音句子片断进行逐条分析，判别其语音句子为宽带（高采样率）或窄带（低采样率），以便后续语音识别时选择哪种语音识别模型提供参考；

其次，对每条语音句子进行宽窄带标识，即对宽带信号的语音句子文件添加宽带标识，对窄带信号的语音句子文件添加窄带标识。

具体的，本实施例中宽窄带判别通过分析音频信号中的频谱能量值进行判别，当8K以上的频谱能量值大于0.1时，该音频信号为宽带，当8K以下的频谱能量值小于或等于0.1时，该音频信号则为窄带信号。

步骤S24、对添加宽带标识和窄带标识的语音句子文件进行音频特征提取，得到特征文本数据，其中特征文本数据中包含该语音句子的起止时间、语音特征信息、该句子归属的音视频文件名称和对应的宽窄带标识。

为节省网络带宽资源，对语音句子文件添加宽窄带标识之后，还要进行音频特征的提取，将音频数据转化为文本特征数据，以减少网络传输的数据量，具体如下：

首先，对对添加宽带标识和窄带标识的语音句子文件进行逐条分析，抽取MFCC（Mel Frequency Cepstrum Coefficient，Mel频率倒谱系数）和PLP（Packet Level Protocol，分组级协议）语音特征，这是在语音识别领域常用的两种语音特征；

其次，对抽取后的每条语音特征进行时间标识，使得最后得到的特征文本数据中包含该语音句子的起止时间、属于哪个音视频文件的文件名称以及对应的宽窄带标识。

需要说明的是，该步骤不仅将输入语音信号转换成比较鲁棒且具有区分能力的语音特征，用于区分不同的说话人，而且在特征提取基础上还进行了一定的归一化，其中的归一化内容包括：

1）均值归一化CMN，主要降低信道影响；

2）方差归一化CVN，主要降低加性噪声影响；

3）声道长度归一化VTLN，主要降低声道差异造成的影响；

4）高斯化Gaussianization，是CMN+CVN的推广算法；

5）抗噪算法，降低背景噪声对系统性能影响，使用AWF和VTS 算法。

优选地，本实施例步骤S3将特征文本数据发送给云服务器，进入语音识别流程。本实施例中云服务器调用模块采用Web Service接口协议，将待识别的广播电视任务信息以XML消息的方式发送至与服务器端进行语音识别。其中识别任务的XML消息包含以下内容：

1）待识别的广播电视文件名称；

2）碎片化的句子文件列表；

3）每个句子文件的语音/非语音标识；

4）每个句子文件的宽带/窄带标识；

5）每个鉴定为语音的句子文件的语音特征文本；

6）每个句子文件的起止时间标识。

云服务器接收到识别任务后，进行识别处理包括：男女声识别、说话人识别、语音内容识别和标点符号识别，生成含有标识的语音识别结果，该步骤具体如下：

（1）将待识别的语音句子文件对应的语音特征文本以XML（可扩展语言）消息的方式逐条发送到远端用于广播电视语音识别处理的与服务器，在XML消息中除了包含语音特征文本数据之外，还应该包含以下信息：语音句子文件对应的起止时间、该语音句子文件归属的广播电视音视频文件名称、该语音句子文件的宽窄带标识；

（2）云服务器中的语音识别系统基于云计算框架构建，当语音句子的特征文本发送到广播电视语音识别云时，通过控制器根据云服务器中计算资源的占用情况，为该条语音句子文件的识别合理分配计算资源；

（3）语音识别系统调用分配到的计算资源对语音特征分别进行男女声识别、说话人识别、语音内容与标点符号识别，其中男女声识别根据男女声分类模型，通过分类器对每个句子进行男女声的分类判别并标识；说话人识别根据说话人模型库，对每个句子进行说话人的识别并标识；语音内容识别和标点符号识别对每个句子进行语音内容的识别，同时标记标点符号，并对识别出的每个词汇进行时间标注。

优选地，本实施例步骤S4对语音识别结果进行融合以及结构化文本标识的具体包括：

步骤S41、对各个语音识别结果进行汇总、对齐，并按照其中包含的起止时间进行排序，具体的：针对每个语音句子的识别结果进行融合，按照其归属的广播电视音视频文件进行汇总整理，将各句子的不同识别结果（男女声识别、说话人识别、语音内容与标点符号识别）按照时间点对齐，并进行时间排序。

步骤S42、对排序后的语音识别结果按照结构化格式进行标记，包括说话人性别标识、说话人标识、语音内容、标点符号以及时间戳，具体的：针对排序好的识别结果，按照特定的结构化的格式进行文本结果标识，标识内容包括每个句子文件的说话人性别、说话人、句子中的语音内容、句子中每个语音词的时间戳、句子中断点的标点符号。

最后生成结构化的语音识别结果，之后再将语音识别结果以 XML消息的形式反馈给用户，其中XML消息包含以下内容：

1）识别的广播电视文件名称；

2）碎片化的句子文件列表；

3）每个句子文件的语音/非语音标识；

4）每个句子文件的宽带/窄带标识；

5）每个句子文件的语音识别结果；

6）每个句子文件的说话人标识；

7）每个句子文件的男女声标识；

8）每个句子文件的起止时间标识。

优选地，本实施例为保障语音识别的准确率，在步骤S3进行识别处理的过程是根据声学模型库与语言模型库进行识别的，其中语言模型库通过对网络文本的采集和对网络文本的学习不断进行更新。定期通过互联网进行网络文本的采集，通过对网络文本的学习定期优化语言模型库，具体如下：

1）从互联网中定期搜集网络文本，通过网络爬虫，定期向各大搜索引擎（如百度、谷歌、搜搜、搜狗、搜库等）以及各大广播电视相关的门户网站（如央视网、各地网台、新浪、搜狐等）抓取网页链接，搜集热门词汇以及网络文章。

2）通过搜集的网络文本对网络文章进行分词，并统计词频、词数，将分词结果、网络热词采集结果以及统计数据录入该语音识别系统中的语言模型库，供各语音识别模块进行参考，实现对语言模型库的定期更新，以保障广播电视语音识别的准确率。

基于上述，本实施例对广播电视数据进行语音识别的具体流程如图4所示，具体包括：

首先，接收广播电视数据，将其发送给预处理终端进行音视频解码，从中提取出音频数据，之后进行音频切分以及碎片化，对碎片化后的句子文件进行语音/非语音判别，如果是语音则继续下一步骤，否则将其标记为非语音，并不做继续处理。对于语音句子文件继续进行宽窄带判别、语音特征提取，再将得到的特征文本数据通过语音识别的“云”调用，将其以XML消息作为语音识别任务发送给云服务器进行语音识别处理。云服务器端的云服务平台对其分别进行男女声识别、说话人识别、语音内容识别与标点符号识别，再对识别结果进行融合等处理后反馈给与服务平台，同时从网络学习新的网络词汇、热门词汇等对云服务平台的语言模型库进行定期更新，保证语音识别的准确率。最后，云服务器将识别结果，也就是结构化的语音识别结果通过XML形式反馈给用户，供用户参考、检索等进一步地智能化处理。

通过本实施例提供的识别方法，基于云计算对现有语音识别方法进行改进，融合广播电视数据预处理技术、男女声识别技术、说话人识别技术以及广播电视语音识别方法，对语音数据进行预处理后再具体针对广播电视行业的数据处理要求进行识别处理，对广播电视数据预处理结果、男女声识别结果、说话人识别结果以及语音识别结果进行融合以及结构化文本标识，生成结构化的语音识别结果，能够为后续其他广播电视业务的智能化、自动化处理提供基础数据，具体包括以下几点：

5）对语音的识别结果以及对语音词时间戳的标识结果可以为广播电视语音内容的检索业务提供基础数据；

6）对语音句子的切分时间点标识结果，以及宽窄带的判别结果，可以为广播电视节目的拆分提供边界时间点的参考；

7）对广播电视中语音内容的识别以及标点符号的识别，可以为广播电视节目中的字幕识别提供内容参考；

8）对语音句子的说话人识别以及宽窄带的判别结果，可以为广播电视节目中的主持人识别、嘉宾识别、说话场景识别（室内场景、室外场景）等提供依据。

另外，处理速度加快，能够应对海量数据的语音识别问题，还由于定期对语言模型库进行学习与更新，能够提高语音识别的准确度。

实施例二

本发明实施例二还提供了一种广播电视语音识别系统，组成示意图如图5所示，该系统包括：

提取单元10，根据广播电视数据提取出音频数据；

预处理终端20，对音频数据进行预处理，得到特征文本数据，并发送给云服务器30；

云服务器30，对特征文本数据进行识别处理，得到语音识别结果，并对语音识别结果进行融合以及结构化文本标识，生成结构化的语音识别结果。

优选地，本实施例中的预处理终端20的组成示意图如图6所示，具体包括：

切分模块21，对音频数据进行切分和碎片化处理生成若干个句子文件；

非语音过滤模块22，对句子文件进行非语音过滤，留下语音句子文件；

宽窄带判别模块23，对每个语音句子文件进行宽窄带判别，对判别为宽带信号的语音句子文件添加宽带标识，判别为窄带信号的语音句子文件添加窄带标识；

音频特征提取模块24，对添加宽带标识和窄带标识的语音句子文件进行音频特征提取，得到特征文本数据，其中特征文本数据中包含该语音句子的起止时间、语音特征信息、该句子归属的音视频文件名称和对应的宽窄带标识。

优选地，本实施例中的云服务器30的组成示意图如图7所示，具体包括：

男女声识别模块31，用于对特征文本数据进行男女声识别。

由于在生理和心理学方面，男性、女性说话有明显的差异，如声带产生的基音、口腔结构（喉咽、舌头、腭、唇、齿等）产生的共振峰频率、呼出气流的大小和强弱等。因此语音信号中包含说话人的性别特征。在本实施例中，通过GMM-SVM（Gaussian Mixture Models-Support Vector Machines）混合模型的技术框架，建立了全体变化空间建模（Total Variability Modeling）的男女声识别（即说话人性别识别）。全体变化空间建模在训练空间矩阵时，不再区分说话人空间和信道空间，通过总体空间来表示，简化了空间的数学表示，大大降低了对训练数据的依赖程度。通过多系统融合，给出最终的性别结果判定。

说话人识别模块32，用于对特征文本进行说话人识别。

在本实施例中说话人识别基于说话人之间的两类差别来实现的：一是不同声道频谱特性的发音上本身存在差异，这种差异体现在发音的语音特征分布上不一样；二是不同说话人的高层次特征（high-level features）存在差异，即由于生活环境和背景不同，后天形成的，如习惯用语、韵律、语言结构等差异。目前国际上主流的说话人识别系统基本上都是基于这些特点，用统计建模的方法解决来说话人识别问题。具体的，说话人识别系统包括以下两个模块：

A、说话人建模工具模块：通过区分训练的方法，如支持向量机 SVM，或者基于统计建模的方法，如高斯混合模型GMM，对说话人进行建模，刻画不同说话人各自的特征空间分布特性，用于区分不同的说话人。

B、说话人判别算法模块：将输入语音的特征与相应的说话人模型进行匹配，根据匹配程度判别输入语音的说话人身份。

语音内容与标点符号识别模块33，用于对特征文本进行语音内容识别以及标点符号识别，生成含有标识的语音识别结果。

模块包含4个组成部分：声学模型库、语言模型库、搜索与解码、标点符号生成，工作流程图如图8所示，输入语音特征后，根据该语音特征是宽带信号还是窄带信号，由搜索与解码模块选择调用智能学习而来的声学模型库与语言模型库对语音内容进行识别，识别后生成的文本（句子）送入标点符号生成模块进行标点符号的识别，最后生成带有标点符号标识的语音识别结果。

4个组成部分分别采用的识别技术介绍如下：

A、声学模型库：在本实施例中采用基于CD-DNN-HMM（上下文相关的深度神经网络的隐马尔可夫模型）声学模型库，比传统的基于GMM-HMM（高斯混合模型的隐马尔可夫模型）声学模型库识别准确率要更高。

B、语言模型库：在本实施例中采用N-Gram（N元语法）语言模型，该模型基于这样一种假设，第n个词的出现只与前面N-1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。N-Gram语言模型简单有效，被语音识别业界所广泛使用。

C、搜索与解码：在本实施例中采用Viterbi搜索算法等动态规划方法，搜索在给定模型情况下的最优结果；基于动态规划的Viterbi 算法在每个时间点上的各个状态，计算解码状态序列对观察序列的后验概率，保留概率最大的路径，并在每个节点记录下相应的状态信息以便最后反向获取词解码序列。Viterbi算法在不丧失最优解的条件下，同时解决了连续语音识别中HMM模型状态序列与声学观察序列的非线性时间对准、词边界检测和词的识别，也是常用的语音识别搜索的基本策略。

标点符号生成：在本实施例中采用了一种利用纯文本信息添加中文口语句子句末标点的方法。该方法从句子的不同粒度角度，建模全局词汇信息与标点的关系，并使用多层感知器来融合在不同粒度下得到的标点模型，从而实现了标点（句号、问号和叹号）生成。

识别结果处理模块34，对语音识别结果进行融合以及结构化文本标识，生成结构化的语音识别结果。其中本实施例中，识别结果处理模块34首先对广播电视数据中各个语音句子文件的语音识别结果（带标点符号、每个语音词带时间戳）进行汇总及融合。

优选地，本实施例中的识别结果处理模块34进一步包括：

汇总排序模块，用于对各个语音识别结果进行汇总、对齐，并按照其中包含的起止时间进行排序；

加标识模块，用于对排序后的语音识别结果按照结构化格式进行标记，包括说话人性别标识、说话人标识、语音内容、标点符号以及时间戳。

优选地，本实施例中的云服务器30中还包括：语言模型智能学习模块35，用于定期搜集网络文本，通过对网络文本的学习定期更新语言模型库，在识别处理过程中根据定期更新的语言模型库进行识别，以确保语音识别的准确率。。

本实施例中的云服务器30是基于语音识别云服务平台36实现的，具体的语音识别云服务平台基于ICE与SOA相结合的云服务平台框架进行构建，由ICE框架完成分布式计算，通过SOA框架对外提供云服务，完成基于Web Service的识别任务与识别结果的通信。

在本实施例中服务平台中，将各种识别模块（即男女声识别模块 31、说话人识别模块32、语音内容与标点符号识别模块33以及识别结果处理模块34）封装成为插件，形成标准的云服务，配置在框架中，成为云服务平台的一部分，各种识别模块可以在不影响系统正常运行的情况下在平台中方便地添加和卸载，当待识别的数据量增加时，云服务平台将自适应地添加识别模块，以完成海量的广播电视语音识别任务。

该云服务平台架构如图9所示，广播电视数据完成预处理后，通过调用数据接入接口将语音识别任务以XML任务消息传递给控制单元，由控制单元根据当前的计算资源的状态（计算资源的状态通过监控单元搜集），主要包括CPU、内存、网络状态，结合识别节点的任务执行状态，任务优先级，以及执行效率的先验知识，动态决策并分配最优的计算资源完成识别任务的执行。

综上所述，本实施例提供的识别系统融合广播电视数据预处理技术、男女声识别技术、说话人识别技术以及广播电视语音识别方法，对语音数据进行预处理后再具体针对广播电视行业的数据处理要求进行识别处理，对广播电视数据预处理结果、男女声识别结果、说话人识别结果以及语音识别结果进行融合以及结构化文本标识，生成结构化的语音识别结果，能够为后续其他广播电视业务的智能化、自动化处理提供基础数据。另外，由于采用对碎片化的语音数据并行处理的方式，处理速度加快，能够应对海量数据的语音识别问题，同时由于定期对语言模型库进行智能学习与更新，能够提高语音识别的准确度。

以上实施方式仅用于说明本发明，而并非对本发明的限制，有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本发明的范畴，本发明的专利保护范围应由权利要求限定。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种广播电视语音识别系统方法及系统 [P] . 中国专利： CN103700370B . 2016.08.17
2. 一种广播电视语音识别系统方法及系统 [P] . 中国专利： CN103700370A . 2014-04-02
3. VOICE RECOGNITION SYSTEM AND METHOD OF ROBOT SYSTEM [P] . SG11201705705SA . 2017-08-30

机译：语音识别系统及机器人系统方法
4. VOICE RECOGNITION SYSTEM AND METHOD OF ROBOT SYSTEM [P] . CA2973512A1 . 2016-07-21

机译：语音识别系统及机器人系统方法
5. VOICE RECOGNITION SYSTEM AND METHOD OF ROBOT SYSTEM [P] . 世界知识产权组织专利： WO2016112634A1 . 2016-07-21

机译：语音识别系统及机器人系统方法