首页> 中国专利> 实现语音业务融合背景音乐的系统及其方法

实现语音业务融合背景音乐的系统及其方法

摘要

本发明公开了一种实现语音业务融合背景音乐的系统,包括文语转换服务器、背景音乐融合单元和语音服务器,其中文语转换服务器,用于将文本信息转换为语音信息;背景音乐融合单元,用于为语音信息融合背景音乐;语音服务器,分别与所述文语转换服务器和背景音乐融合单元连接,用于根据用户的语音业务请求信息,选择相应的文本信息发送给文语转换服务器处理,并将文语转换服务器转换处理后反馈的语音信息发送给背景音乐融合单元处理,及将背景音乐融合单元反馈的融合了背景音乐的语音信息播放给用户。相应地,本发明还提出了一种实现语音业务融合背景音乐的方法。本发明可以实现为TTS语音业务融合背景音乐。

著录项

  • 公开/公告号CN1737901A

    专利类型发明专利

  • 公开/公告日2006-02-22

    原文格式PDF

  • 申请/专利权人 华为技术有限公司;

    申请/专利号CN200410059187.9

  • 发明设计人 吴燕宇;游崇;毛睿;

    申请日2004-08-16

  • 分类号G10L13/02(20060101);G06F17/20(20060101);

  • 代理机构11227 北京集佳知识产权代理有限公司;

  • 代理人王学强

  • 地址 518129 广东省深圳市龙岗区坂田华为总部办公楼

  • 入库时间 2023-12-17 16:59:29

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2013-10-16

    未缴年费专利权终止 IPC(主分类):G06F17/20 授权公告日:20090513 终止日期:20120816 申请日:20040816

    专利权的终止

  • 2009-05-13

    授权

    授权

  • 2006-04-19

    实质审查的生效

    实质审查的生效

  • 2006-02-22

    公开

    公开

说明书

技术领域

本发明涉及文语转换(TTS,Text To Speech)技术领域,尤其涉及一种实现语音业务融合背景音乐的系统及其方法。

背景技术

目前,在通信网络系统中存在着大量的语音业务,而语音业务中最常见的两种语音形式包括:事先录制处理的语音和TTS语音(TTS语音为即时合成语音)。

其中,事先录制处理的语音一般应用于比较固定的场景,如每次播放的语音内容都是一样的场景,事先录制处理的语音具有良好的语音通信效果。

文语转换TTS技术可以实现即时将输入的文本信息转换为语音信息,并将转换出来的语音信息即时通过语音播放工具,如:Media Player、Dialogic或NMS语音卡等语音播放工具进行播放。因此TTS语音经常用于即时合成语音并播放的场景,如:天气预报、航班即时信息或股票即时信息等,这些语音应用情况下,信息是在不停变化的,每次找人现场录音是非常不现实的;而采用文语转换TTS技术进行播放语音,每次只需更新相应的文本信息,在进行语音播放的时候,再根据文本信息利用TTS技术即时合成语音信息并播放,就可以满足上述这些场景的需求。当然,TTS语音同事先录制处理的语音质量相比,在语音自然度方面还存在着一定的差距。

请参阅图1,该图是现有技术通信网络系统中TTS语音合成的处理过程示意图;其中在通信网络系统中实现TTS语音合成的处理过程主要如下:

(1)用户终端1接入通信网络系统中的接入交换机2,触发其上提供的TTS语音业务;

(2)接入交换机2根据用户终端1申请的业务情况通知语音服务器(VoiceService)3进行TTS语音播放处理;

(3)语音服务器3接收到通知后,将存储的文本信息发送到TTS服务器(TTS Server)4;

(4)TTS Server 4收到文本信息后,将文本信息转换合成为语音信息,并将转换后的语音信息返回给Voice Server 3;

(5)Voice Server 3接收到语音信息后,经由中继线路E1将语音信息通过接入交换机2播放给用户终端1。

同时为了更好的提高语音服务质量,为提供给用户收听的语音业务增加一段和谐的背景音乐是一个非常好的办法,尤其是针对于TTS语音业务,可以在很大程度上弥补TTS语音自然度较差的缺陷。

但是目前,背景音乐功能仅限于应用在事先录制处理的语音业务中,一般是借助Cool Edit软件中的“Mix Paste”功能(该Cool Edit软件具有将两段语音进行叠加处理的功能)或其他类似软件的功能将背景音乐叠加融入到事先录制处理的语音业务中,这样就实现了为事先录制处理的语音业务加入背景音乐的目的。

而对于TTS语音业务,由于其是即时合成语音技术,即只有在用户终端接入通信系统进行触发TTS语音业务时,文本信息Text才能被即时转换合成语音信息,并需要将转换处理后的语音信息马上播放给用户终端,而这个转换及播放过程是在很短的时间内完成的,而这个短暂的时间根本就来不及通过如上所述的背景音乐融合方式将背景音乐添加到TTS语音业务中。

发明内容

本发明要解决的技术问题在于提出一种可以为TTS语音业务融合背景音乐的实现语音业务融合背景音乐的系统及其方法。

为解决上述问题,本发明提出了一种实现语音业务融合背景音乐的系统,包括文语转换服务器、背景音乐融合单元和语音服务器,其中:

文语转换服务器,用于将文本信息转换为语音信息;

背景音乐融合单元,用于为语音信息融合背景音乐;

语音服务器,分别与所述文语转换服务器和背景音乐融合单元连接,用于根据用户的语音业务请求信息,选择相应的文本信息发送给文语转换服务器处理,并将文语转换服务器转换处理后反馈的语音信息发送给背景音乐融合单元处理,及将背景音乐融合单元反馈的融合了背景音乐的语音信息播放给用户。

其中所述背景音乐融合单元中进一步包括线性叠加子单元,用于对语音信息的线性比特流和背景音乐的线性比特流进行线性叠加运算,以实现为语音信息融合背景音乐。

其中所述背景音乐融合单元中进一步包括:

线性叠加子单元,用于对语音信息的线性比特流和背景音乐的线性比特流进行线性叠加运算;

格式转换子单元,用于将语音信息及背景音乐的非线性比特流格式转换为线性比特流格式后发送给线性叠加子单元处理;并将线性叠加子单元处理后的融合了背景音乐的语音信息的线性比特流格式转换为相应非线性比特流格式。

其中所述背景音乐融合单元可以置于语音服务器内部。

相应地,本发明还提出了一种实现语音业务融合背景音乐的系统,包括背景音乐融合单元、语音服务器和文语转换服务器,其中:

背景音乐融合单元,用于为语音信息融合背景音乐;

语音服务器,用于根据用户的语音业务请求信息,将相应的融合了背景音乐的语音信息播放给用户;

文语转换服务器,分别与所述背景音乐融合单元和语音服务器连接,用于将语音服务器发来的根据用户的语音业务请求信息选择的文本信息转换为语音信息,并将转换后的语音信息发送到背景音乐融合单元处理,及将背景音乐融合单元反馈的融合了背景音乐的语音信息反馈给语音服务器。

其中所述背景音乐融合单元可以置于文语转换服务器内部。

相应地,本发明还提出了一种实现语音业务融合背景音乐的方法,包括步骤:

根据用户的语音业务请求信息选取相应的文本信息;

将选取文本信息转换为语音信息;

为转换后的语音信息融合背景音乐;并

将融合了背景音乐的语音信息播放给用户。

其中可以通过对语音信息的线性比特流和背景音乐的线性比特流进行线性叠加运算实现为语音信息融合背景音乐。

其中所述为转换后的语音信息融合背景音乐的过程具体包括步骤:

将语音信息及背景音乐的非线性比特流格式转换为线性比特流格式;

对语音信息的线性比特流和背景音乐的线性比特流进行线性叠加运算,得到线性比特流格式的融合了背景音乐的语音信息;及

转换融合了背景音乐的语音信息的线性比特流格式为相应非线性比特流格式。

本发明实现语音业务融合背景音乐的系统及其方法通过在TTS语音合成系统中增加背景音乐融合单元的处理技术,可以实现为TTS语音业务提供背景音乐的功能,因此这种处理方案不但提高了TTS语音业务的服务质量,同时也丰富了TTS语音业务的应用性。

附图说明

图1是现有技术通信网络系统中TTS语音合成的处理过程示意图;

图2是TTS语音合成系统在未添加背景音乐功能时的语音合成处理过程示意图;

图3是本发明提出的第一种实现语音业务融合背景音乐的系统的主要组成框图;

图4是本发明提出的另一种实现语音业务融合背景音乐的系统的主要组成框图;

图5是本发明实现语音业务融合背景音乐的系统中背景音乐融合单元的具体组成结构示意图;

图6是本发明实现语音业务融合背景音乐的方法的主要实现过程流程图;

图7是利用本发明实现语音业务融合背景音乐的方法在TTS语音合成系统中进行实施的具体处理过程示意图。

具体实施方式

本发明实现语音业务融合背景音乐的系统及其方法主要是通过为TTS语音合成系统添加一个背景音乐合成单元,以用于对通过TTS技术即时合成的语音融合背景音乐,以较好的提高TTS语音的服务质量。而其中背景音乐融合单元的具体处理功能就是实现TTS语音和背景音乐的融合,即将两段不同的语音数据进行叠加融合,这部分技术已经是公知技术,现有技术中已存在多种对不同语音数据进行叠加融合的运算处理技术,本发明这里对背景音乐融合单元的如何实现并不关心,而是重点在于介绍为整个TTS语音合成系统融合背景音乐的系统及其方法进行详细阐述。

请参阅图2,该图是TTS语音合成系统在未添加背景音乐功能时的语音合成处理过程示意图;其主要处理过程为:

步骤S1,用户终端10发送语音业务请求信息到语音服务器20,其中语音业务请求信息如可以为“查询天气预报”或“查询股市行情”等语音业务请求信息;

步骤S2,语音服务器20根据用户终端10发来的语音业务请求信息触发相应的文本信息,并将其发送到TTS服务器30进行文语转换处理;

步骤S3,TTS服务器30将转换处理后的语音信息反馈给语音服务器20;

步骤S4,语音服务器20将接收的语音信息即时播放给用户终端10,从而完成为用户提供TTS语音服务的过程。

请参阅图3,该图是本发明提出的第一种实现语音业务融合背景音乐的系统的主要组成框图;这种方案中的实现语音业务融合背景音乐的系统的主要构成部分包括文语转换服务器(即TTS服务器)30、背景音乐融合单元40和语音服务器20,其中:

TTS服务器30主要用于将文本信息(Text)转换为语音信息(Speech);

背景音乐融合单元40,主要用于为语音信息(Speech)融合一段背景音乐;

语音服务器20,分别与TTS服务器30和背景音乐融合单元40连接,主要用于根据用户的语音业务请求信息,来选择相应的文本信息(Text),再将选择的文本信息(Text)发送给TTS服务器30进行处理,并将TTS服务器30转换处理后反馈的语音信息(Speech)发送到背景音乐融合单元40进行处理,继而再将背景音乐融合单元40反馈的融合了背景音乐的语音信息(Speech’)播放给用户收听。

其中背景音乐融合单元40可以置于语音服务器20的内部,即这时的语音服务器20就具有为TTS语音直接融合背景音乐的功能。

另外,实现为TTS语音融合背景音乐的功能还可以通过另外一种系统方式,即把背景音乐融合单元40的功能集成到TTS服务器30中,以在TTS服务器30将文本信息转换成语音信息后,直接将背景音乐融合到转换好的TTS语音信息中,进而实现为TTS语音业务融合背景音乐的功能。请参阅图4,该图是本发明提出的另一种实现语音业务融合背景音乐的系统的主要组成框图;这种方案中的实现语音业务融合背景音乐的系统的主要构成部分包括背景音乐融合单元40、语音服务器20和TTS服务器30,而其中:

背景音乐融合单元40,主要用于为语音信息(Speech)融合入背景音乐;

语音服务器20,用于根据用户的语音业务请求信息,将相应的融合了背景音乐的语音信息(Speech’)播放给用户;

TTS服务器30,分别与背景音乐融合单元40和语音服务器20连接,用于将语音服务器20发来的根据用户的语音业务请求信息而选择的文本信息(Text)转换为语音信息(Speech),并将转换后的语音信息(Speech)发送到背景音乐融合单元40进行处理,及将背景音乐融合单元40反馈的融合了背景音乐的语音信息(Speech’)反馈给语音服务器20进行播放。

其中上述的背景音乐融合单元40可以置于TTS服务器30的内部;即这时的TTS服务器30就具有为TTS语音直接融合背景音乐的功能。

上述两种实现语音业务融合背景音乐的系统相比较而言,第一种实现语音业务融合背景音乐的系统在TTS语音合成过程中就融合背景音乐的处理过程更为灵活,因为这种系统中背景音乐融合单元40和TTS服务器30没有绑定关系,这样就可以给运营商提供一种增值业务,让用户自行定制不同的背景音乐,灵活的选择自身希望听到的TTS合成语音的背景音乐,特别是在用电话听取邮件等应用方面具有很大的应用空间。

上述已经描述了背景音乐融合单元40中的具体实现技术已为公知的技术,其对TTS语音信息和背景音乐进行融合的算法可以通过现有技术的多种方式实现,如对于本身就是线性比特流格式的TTS语音信息和背景音乐文件,可以直接采用“线性叠加”处理方式将背景音乐融合到TTS语音信息中;而对于其他格式的非线性比特流格式的TTS语音信息和背景音乐文件,则需要先将TTS语音信息和背景音乐文件的非线性比特流格式转换为线性比特流格式,然后再对线性比特流格式的TTS语音信息和背景音乐文件进行“线性叠加”运算,然后再将“线性叠加”处理后的融合了背景音乐的TTS语音信息的线性比特流格式转换为相应的非比特流格式。

正是基于上述理由,当背景音乐和TTS语音信息本身就已经是线性比特流格式的情况,其背景音乐融合单元40中还进一步包括有线性叠加子单元401,以用于对语音信息的线性比特流和背景音乐的线性比特流进行线性叠加运算,以实现为语音信息融合背景音乐的目的。

而当背景音乐和TTS语音信息是其他非线性比特流格式的情况,其背景音乐融合单元40中就进而要包括线性叠加子单元401和格式转换子单元402两个处理单元,请参阅图5,该图是本发明实现语音业务融合背景音乐的系统中背景音乐融合单元的具体组成结构示意图;其中:

线性叠加子单元401,主要用于对语音信息的线性比特流和背景音乐的线性比特流进行线性叠加运算;而其线性叠加运算的算法可以采用现有技术中已有的任何一种叠加算法;

格式转换子单元402,与线性叠加子单元401连接,主要用于将语音信息及背景音乐的非线性比特流格式转换为线性比特流格式后发送给线性叠加子单元401进行处理;并将线性叠加子单元401叠加处理后的融合了背景音乐的语音信息的线性比特流格式转换为相应非线性比特流格式,从而完成为TTS语音信息融合背景音乐的目的。

相应地,本发明还提出了一种实现语音业务融合背景音乐的方法,请参阅图6,该图是本发明实现语音业务融合背景音乐的方法的主要实现过程流程图;其中具体实现过程包括步骤:

步骤S100,TTS语音合成系统根据用户的语音业务请求信息选取相应的文本信息,即用户请求天气预报信息时,就选取此时的天气预报文本信息;如果用户请求股市行情信息时,就选取此时的股市行情文本信息;

步骤S200,将步骤S100选取的文本信息(Text)转换为语音信息(Speech);

步骤S300,为步骤S200转换处理后的语音信息(Speech)融合背景音乐,以得到融合了背景音乐的语音信息(Speech’);

步骤S400,将通过步骤S300中融合了背景音乐的语音信息播放给用户收听。

同理,如果TTS语音信息和背景音乐本身已经为线性比特流格式,则步骤S300中就可以直接通过对语音信息的线性比特流和背景音乐的线性比特流进行线性叠加运算以实现为语音信息融合背景音乐的目的。

而如果TTS语音信息和背景音乐本身是其他格式的非线性比特流格式,则步骤S300中为转换后的语音信息融合背景音乐的过程具体包括:

首先,将语音信息及背景音乐的非线性比特流格式分别转换为线性比特流格式;

再次,对语音信息的线性比特流和背景音乐的线性比特流进行线性叠加运算,以得到线性比特流格式的融合了背景音乐的语音信息;

最后,转换融合了背景音乐的语音信息的线性比特流格式为相应非线性比特流格式,从而完成为非线性比特流格式的TTS语音信息融合非线性比特流格式的背景音乐的目的。

请参阅图7,该图是利用本发明实现语音业务融合背景音乐的方法在TTS语音合成系统中进行实施的具体处理过程示意图;其中主要处理过程为:

用户通过用户终端10接入通信网络系统中的接入交换机15,并发送语音业务请求信息以触发其上提供的TTS语音业务;

接入交换机15根据请求信息中包含的用户申请的业务情况通知语音服务器(Voice Service)20进行TTS语音播放处理;

语音服务器20接收到通知后,选取预先存储的相应文本信息发送到TTS服务器(TTS Server)30;

TTS Server 30收到相应文本信息后,将文本信息转换合成为语音信息,并将转换后的语音信息返回给Voice Server 20;

Voice Server 20接收到TTS语音信息后,发送接收到的TTS语音信息给与其连接的背景音乐融合单元40;

背景音乐融合单元40对接收的TTS语音信息进行融合背景音乐的处理,然后将融合了背景音乐的TTS语音信息反馈给Voice Server 20;

Voice Server 20经由中继线路E1将融合了背景音乐的TTS语音信息通过接入交换机15播放给用户终端10。

综上可以看出,本发明实现语音业务融合背景音乐的系统及其方法和现有技术的TTS语音播放模式相比,在TTS语音合成系统中增加了一个“背景音乐融合单元”,该单元的主要功能就是将两段语音(TTS语音和背景音乐语音)进行融合(叠加),即对从TTS Server获取到的TTS语音信息,即时地给予融合一段背景音乐。这样整个TTS语音业务的处理过程就实现了为最终播放给用户的TTS语音增加优美的背景音乐的目的。从而通过本发明的实现方案,在最终实现了为TTS语音增加背景音乐的基础上,也可以通过为TTS语音信息添加背景音乐,而提高TTS语音业务的服务质量。

以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号