首页> 中国专利> 使用预编程的语音特征的语音转换器

使用预编程的语音特征的语音转换器

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

语音处理系统按照多种预编程的语音类型中用户所选类型来修改输入语音的各个方面。开始，语音转换器接收表示输入语音信号的共振峰信号和表示输入信号的基本频率的音调信号。以下一个或两个也可以被接收：包括指示输入信号是有声的、无声的或混合的发声信号，以及/或者表示输入语音信号的能量的增益信号。语音转换器也接收多个预编程的语音类型中用户所选类型，每个类型规定修改一个或多个接收信号(即，共振峰、发声、音调、增益)的一个方式。语音转换器按所选语音类型修改共振峰、发音、音调和/或增益信号中至少一个。

著录项

公开/公告号CN1647159A

专利类型发明专利
公开/公告日2005-07-27

原文格式PDF
申请/专利权人高通股份有限公司;
展开▼

申请/专利号CN03808552.6
发明设计人 N·毕;A·P·德加科;
展开▼

申请日2003-02-19
分类号G10L21/00;
代理机构31100 上海专利商标事务所有限公司;
代理人李家麟
地址美国加利福尼亚州
入库时间 2023-12-17 16:25:17

法律信息

法律状态公告日

法律状态信息

法律状态
2020-02-18

未缴年费专利权终止 IPC(主分类):G10L21/00 授权公告日:20090805 终止日期:20190219 申请日:20030219

专利权的终止
2009-08-05

授权

授权
2005-09-21

实质审查的生效

实质审查的生效
2005-07-27

公开

公开

说明书

发明背景

1.发明领域

本发明涉及语音处理，尤其涉及按照多种预编程的特征中用户所选特征修改接收语音信号的多个方面的语音转换器。

2.相关领域描述

语音转换是将一说话者的语音转换为另一说话者的语音，诸如将一男性的语音转换为一女性的语音，反之亦然。语音转换系统是一新概念，多数语音转换系统仍处于研究阶段。创新技术有限公司的SOUNDBLASTER软件包是少数能在个人计算机上运行用于修改语音的已知声响效果产品。此产品使用了包括以宽带PCM形式的数字化模拟波形的输入信号，并且用于根据用户输入以多种方式修改输入信号。一些示例性效果被命名为女声变男声、男声变女声、神声(Zeus)以及小松鼠声(chipmunk)。

尽管诸如这些的产品对于一些应用有用，当考虑用于比个人计算机更小型的应用中时，或者当考虑用于要求语音转换的更高级模式时，它们不是很适当。也就是，个人计算机提供大量的存储、宽带采样频率、巨大的处理功率以及在诸如无线电话的小型应用中并非总存在的其它这样的资源。根据转换的期望复杂性，为这样小型的应用开发语音转换系统非常困难或不可能。

伴随已知的语音调节软件的一附加问题是经转换的语音并非总听起来自然。尽管造成此的原因可能对其它人未知，本发明者已经发现问题在于到诸如音调和共振峰的语音质量的相同转换的应用。

结果，由于某些未解决的问题，已知语音转换系统并非对于所有应用总完全适当。

发明摘要

大致上，本发明涉及按照多种预编程的特征(“语音类型”)中用户所选特征规定修改输入语音的多个方面的语音转换方法。开始，语音转换器接收信号，此信号包括表示输入语音信号的共振峰信号和表示输入信号的基本频率的音调信号。可选地，一个或两个下列信号也被另外接收：包括指示语音信号是有声的或无声的或混合的发声信号，以及/或者表示输入信号的能量的增益信号。语音转换器也接收多种语音类型中用户所选的一类型，每个语音类型规定一种修改一个或多个接收信号(即，共振峰、发声、音调、增益)的方式。例如，不同的语音类型可以规定信号的修改以创建单调语音、低沉的语音、女性语音、悦耳的语音、耳语语音或其它效果。语音转换器按照所选语音类型规定修改一个或多个接收信号。

本发明向它的用户提供几个明显的优点。例如，本发明提供特征上为小型但功能强大的语音转换器。另外，语音转换器与诸如车载的无线电话所使用的信号的窄带信号相兼容。本发明的另一个优点是可以开分修改语音质量，诸如音调和共振峰。这避免了传统语音转换包产生的非自然语音，统语音转换包将同一转换率应用于音调和共振峰信号。

本发明也提供几个其它优点和好处，它们通过本发明的下列描述将变得明显。

附图的简要描述

图1是语音处理系统的硬件组件和互连的框图。

图2是数字数据处理机器的框图。

图3示出了示例性信号承载媒体。

图4是包括语音转换器的无线电话的框图。

图5是按照多种预编程的特征中用户所选特征规定，通过修改输入语音信号而语音转换的操作顺序流程图。

优选实施例的详细描述

通过考虑下面提出的结合附图的详细描述，对于本领域的技术人员本发明的特征、性质和优点将变得更加明显。

硬件组件与互连

整体结构

本发明的一方面涉及语音处理系统，可以由多种硬件组件和互连实施，一示例由图1中示出的语音处理系统100描述。语音处理系统100包括多种子组件，每个子组件可用硬件设备、软件设备、硬件或软件设备的一部分、或者上述的组合来实现。下面结合示例性的数字数据处理装置、逻辑电路以及信号承载媒体更加详细地描述这些子组件的组成。

大致上，系统100接收输入语音108，使用编码器102对输入语音编码，使用语音转换器104修改经编码的语音，使用解码器106对经修改的语音解码，以及可选地再使用语音转换器104修改经解码的语音。结果为输出语音136。

不像诸如SOUNDBLASTER软件包的先前产品，系统100使用语音产生类型来描述正由系统100处理的语音。语音产生类型在人造语音生成领域公知，它认为语音能够按激励源、表示声道的频率响应的滤声器以及嘴唇的多种辐射特性建模。激励源可以包括有声源和无声源或者它们的组合，有声源是喉脉冲的准周期串，无声源是在声道的不同地方产生的随机变化的噪声。一个全极点无线冲激响应滤波器对声道传递函数建模，其中极点被用于描述声道的共振频率或共振峰频率。对于每个个体，激励源由于有声语音的基本频率而被区分。共振峰频率由于声道的几何结构而被区分。为了独立地修改共振峰和音调，本发明将编码器内的共振峰和音调分离，编码器是基于语音产生类型被设计的。

编码器102和解码器106可以使用多种商用产品的原理来实现。例如，编码器102可以使用被提供在车上的无线电话的多种已知信号编码器来实现。解码器106可以使用已知实现在基站、集线器、交换器或者无线电话网络的其它网络设施处的多种信号编码器的原理来实现。数字无线电话学中的每个连接实现某种类型的编码器和解码器。然而系统100不像编码器和解码器，它包括语音转换器104包含的中频组件，下面更详细地描述。而且，如下面更详细地描述，编码器和解码器都被提供在同一无线电话或其它计算单元中。

编码器

更加详细地参考图1，编码器102分析输入语音108以标识输入语音的多种属性，所述输入语音包括共振峰、发声、音调和增益。这些特性被提供在输出112a、114a、116a和118a上。可任选地，对于不试图修改语音的这些方面的应用，发声和/或增益信号以及随后它们的处理被忽略。编码器102包括预滤波器110，此预滤波器将输入语音分为适当大小的窗，如20毫秒。在示出的实施例中，输入语音的随后处理按逐个窗执行。而且，预滤波器110可以执行其它功能，诸如阻止DC信号或抑制噪声。LPC分析器112将线性预测编码(LPC)应用于预滤波器110的输出。如所说明，LPC分析器112和随后的处理阶段每时刻一窗地处理输入语音。然而为了参考简单，处理大致按照输入语音和它的副产品被讨论。LPC分析是将源信号从语音的声道特性中分离的已知技术，在多个参考中有说明，包括文本L.Rabinger&B.Juang所著的语音识别基础。此参考通过引用完全被结合与此。LPC分析器112提供LPC系数(在输出112a上)和输出112b上的残余信号。LPC系数是描述共振峰的特性。

残余信号被指向发声检测器114、音调搜索器116和增益计算器118，在各个输出114a、116a、118a处提供输出信号。组件114、116、118处理残余信号以提取分别表示发声、音调和增益的源信息。在一示例中，“发声”表示输入语音108是有声的、无声的或混合的；“音调”表示输入语音108的基本频率；“增益”表示输入语音108的能量，以dB或其它适当的单位表示。可任选地，发声检测器114和增益计算器118的一个或两个可以从编码器102中被忽略。

语音转换器

大致上，语音转换器104从编码器102接收共振峰、发声、音调和增益信号，然后按照语音类型库130中包括的多种预编程的语音类型中用户所选类型规定而修改这些信号的一个、一些或全部。库130可以使用电路存储、磁盘存储、诸如磁带的顺序媒体或者任何其它存储媒体来实现。每个语音类型表示不同的特性，这些特性包含关于如何修改规定的一个或多个共振峰、发声、音调和/或增益的指令，以达到期望的语音转换结果。下面稍后讨论一些示例性的特性。

库130接收指示期望的语音类型的用户选择的用户输入130a。用户输入130a可以通过诸如小键盘、按钮、开关、拨号盘、触摸屏或任何其它人类用户接口的接口而被接收。或者，当用户是非人类时，输入130a可以来自网络、通信信道、存储器、无线链路或者接收来自诸如主机、网络附加处理器、应用程序等等的输入的其它通信接口。

按照用户所选输入130a，语音类型库130使所选语音类型的各个组件对于共振峰调节器122、发声调节器124、音调调节器126、增益调节器128以及(下面分开描述的)后滤波器120可用。或者，不将用户输入130a指向库130，用户输入130a可以指向组件122、124、126、128，使这些组件从库130检索期望的语音类型。每个语音类型规定当此语音类型被用户输入130a选中时由每个组件122、124、126、128应用的修改(如果存在)。

共振峰调节器122可以被实现以执行多种功能，下面更加详尽地描述。在一示例中，共振峰调节器122将线112a上的LPC系数与用户所选语音类型规定或包含的矩阵中规定的乘数相乘。在另一示例中，共振峰调节器122将LPC系数转换为线性频谱对(LSP)域，将得到的LSP对与一常数相乘，然后将LSP对转换回LPC系数。LSP技术在参考Rabinger和Juang的标题为“语音识别基础”的上述引用中被讨论。

发声调节器124按照用户所选语音类型规定将发声信号114a变为有声的、无声的或混合的期望值。音调调节器126将音调信号116a与诸如0.5、1.5的比率相乘或将应用于不同音节、时间片或来自116a的信号的其它子组件的不同比率的表相乘。如另一可选实施例，音调调节器126可以将音调变为预定值(单音)或多个不同的预定值(如曲调)。增益调节器128通过将增益信号118a与一比率或者将随时间应用不同比率的表相乘而改变它。

语音类型130被被设计以提供多种预编程的语音转换效果。例如，通过使用某些比率修改音调和共振峰，语音可以从男性被转换到女性，反之亦然。在一些情况下，一比率被应用于音调，不同的比率被应用于共振峰，以便达到更多的自然音响变换语音。或者，可以通过将音调替换为预定的音调声调模式而引入口音，以及可任选地在某些语音上修改共振峰。如另一示例，机器人语音可以通过将音调固定在某一值上而建立，可任选地固定发声特性以及可选择地通过增加共振来修改共振峰。在又一示例中，通过将音调变到预定曲调的音调而使讲话语音被转换到歌唱语音。

可任选地，语音转换器104可以包括后滤波器120。按照来自类型库130的用户所选语音类型的内容，后滤波器120将适当的滤波过程应用于来自解码器106的信号(下面讨论)。在一实施例中，后滤波器120执行经解码的语音的频谱斜率修改。如一不同或附加功能，后滤波器120可以将应用诸如低通、高通或者活动滤波的滤波。一些示例包括有限冲激响应和无限冲激响应滤波器。一示例性的滤波方案应用y(n)＝x(n)+x(n-L)以产生回声效果。

解码器

一般地，解码器106执行与编码器102相反的功能，即将共振峰、发声、音调和增益(按照语音转换器104所修改)重组成输出语音。解码器106包括激励信号生成器132，此生成器从转换器104接收发声、音调和增益信号(具有任何修改)并且在线132a上提供代表性的LPC残余信号。生成器132的结构和操作可以按照与相关领域中原理相似的原理。

LPC合成器134，将反向LPC处理应用于来自共振峰调节器122的共振峰和来自生成器132的残余信号132a，以便在输出134a上产生代表性的语音信号。因此，合成器134和生成器132组合地执行与LPC分析器112相反的功能。合成器134的结构和操作可以按照与相关领域中原理相似的原理。

在一实施例中，LPC合成器134的输出134a可以被用作输出语音136。或者，如上所述并且在图1中说明的，LPC合成器输出的语音信号134a可以被路由回后滤波器120并且按照用户所选语音类型规定而修改。这样，后滤波器120的输出变为如图1中说明的输出语音136。

示例性数字数据处理装置

如上面提到的，数据处理实体，诸如语音处理系统100或者它们的一个或多个独立组件，可以用多种形式被实现。一示例为数字数据处理装置，由图2的数字数据处理装置200的硬件组件和互连例示。

装置200包括处理器202，诸如微处理器、个人计算机、工作站或者其它处理机器，它们被耦合到存储器204。在本示例中，存储器204包括快速访问存储器206以及非易失存储器208。快速访问存储器206可以包括随机访问存储器(“RAM”)，可以被用于存储由处理器202执行的编程指令。非易失存储器208可以包括如，电池支持的RAM、EEPROM、诸如“硬驱动”、磁带驱动(磁带驱动)的一个或多个磁数据存储盘、或者任何其它适当的存储设备。装置200也包括输入/输出210，诸如线、总线、电缆、电磁链路、或者处理器202与到装置200的其它硬件外接交换数据的其它装置。

尽管前面特定的描述，普通技术人员(得益于本揭示)将认识到，上述装置可以使用不同构造的一机器来实现，而不违背本发明的外围。如一特定实例，可以除去组件206、208中的一个，而且存储器204、206和/208可以被提供在处理器202的板上，或者甚至被提供在装置200的外面。

逻辑电路

与上述数字数据处理装置相反，本发明的一个不同实施例使用逻辑电路来代替计算机执行指令，以实现语音处理系统100的一些或所有处理实体。按照速度、费用、加工成本等等方面的应用的某些要求，此逻辑可以通过构造具有数千个微集成晶体管的应用专用集成电路(ASIC)来实现。这样的ASIC可以使用CMOS、TTL、VLSI或者另一个适当的构造来实现。其它选择包括数字信号处理芯片(DSP)、离散电路(诸如，电阻、电容、二极管、电感以及晶体管)、现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、可编程逻辑设备(PLD)等等。

无线电话

在一示例性应用中，无任何限制，语音处理系统100可以在无线电话400(图4)中与无线电话领域内已知的其它电路一起被实现。电话400包括扬声器408、用户界面410、麦克风414、收发机404、天线406以及管理器402。管理器402，可以通过诸如上面结合图3-4描述的电路来实现，它管理组件404、408、410和414的操作和它们之间的信号路由。管理器402包括系统100包含的语音转换模块402a。模块402a执行功能如，从诸如麦克风414和/或收发机404的默认或用户特定源获取输入语音并且按照来自通过接口410接收的用户的指示修改输入语音，然后将输出语音提供到扩音器408、收发机404、或者其它默认和用户特定目的地。

作为电话400的又一选择，系统100可以用多种其它设备来实现，诸如个人计算机、计算工作站、网络开关、个人数字助理(PDA)、或者任何其它有用的应用。

操作

已经描述了本发明的结构特性，下面将描述本发明的操作方面。

信号承载媒体

无论本发明的一些功能使用一个还是多个机器执行的程序序列来实现，这些序列可以包含在多种形式的信号承载媒体中。在图2的上下文中，例如，这样的信号承载媒体可以包括存储器204或另一个信号承载媒体，如磁数据存储软盘300(图3)，它们由处理器202直接或间接访问。无论包含在存储器206、软盘300或者其它地方，指令可以被存储在多种机器可读数据存储媒体上。一些示例包括直接访问存储器(如，通常的“硬盘”、廉价盘的冗余阵列(“RAID”)、或者另一个直接访问存储设备(“DASD”))、诸如磁或光带的顺序访问存储器、电的非易失存储器(如，ROM、EPROM或EEPROM)、电池支持的RAM、光存储器(如，CDROM、WORM、DVD、数字的光带)、纸质“打孔”卡、或者其它适当的信号传输媒体，包括逻辑的或数字的传输媒体、逻辑和通信链路以及无线通信。在本发明的说明性实施例中，机器可读指令可以包括软件目标代码，经诸如汇编语言、C等的语言编译。

逻辑电路

与上述信号传输媒体不同，一些或所有本发明的功能使用逻辑电路被实现，而非使用处理器来执行指令。因此，这样的逻辑电路被配置以执行实现本发明的方法的操作。逻辑电路可以使用多种不同类型的电路来实现，电路如上所述。

操作的总体顺序

图5示出了语音转换顺序500，以说明本发明的一个操作实施例。大致上，该顺序包括按照多种预编程的语音类型中用户所选的一类型修改接收语音信号的多个方面的任务。通过按照用户所选语音类型规定来修改语音信号的共振峰、发声、音调和/或增益实现此。为了解释方便，而非要想任何限制，图5的示例在上述语音处理系统100的上下文中被描述。

序列500开始于步骤501，当编码器102接收输入语音108。接着是编码过程502。在步骤503中，预滤波器110将输入语音分为适当大小的窗，诸如20毫秒。在示出的实施例中，输入语音的随后处理被逐窗地执行。另外，预滤波器110可以执行其它功能，如阻挡DC信号或抑制噪声。在步骤504中，LPC分析器112将LPC应用于预滤波器110的输出。如所示出，LPC分析器112和每个随后的处理阶段分别处理输入语音的每个窗。然而为了参考方便，处理大致上根据输入语音和它的副产品被讨论。LPC分析器112在输出112a上提供LPC系数(共振峰)以及在输出112b上提供残余信号。

在步骤506中，残余信号被分流。换言之，LPC分析器112将残余信号指向发声检测器114、音调搜索器116和增益计算器118，而且这些组件在它们各自的输出114a、116a、118a提供输出信号。组件114、116、118处理残余信号，以提取表示发声、音调和增益的源信息。在本示例中，如上面所提到，“发声”表示输入语音108是有声的、无声的或者混合的；“音调”表示输入语音108的基本频率；“增益”表示输入语音108的能量，以dB或其它适当的单位表示。可选地，如果从编码器102中忽略发声检测器114和增益计算器118的一个或两个，则这里示出的这些组件的功能也被忽略。

在步骤502之后，语音转换发生在507中。在步骤508中，用户从将被语音转换器104应用的语音类型库130中选择一语音类型。也在步骤508中，语音类型库130接收用户输入130a然后相应地使所选特性的各个组件可用于共振峰调节器122、发声调节器124、音调调节器126以及增益调节器128。在一可选实施例中，用户输入130a可以被指向组件122、124、126、128而非库130，使这些组件从库130中检索期望的语音类型。当语音类型被选择时，每种语音类型规定一特定的修改(如果存在)被组件122、124、126、128中的一个或多个应用。

每种语音类型规定修改接收信号(即，共振峰、发声、音调、增益)的至少一个的一方式。“用户”可以是人类操作员、主控机器、网络连接的处理器、应用程序、或者其它功能实体。在步骤509、510、512、514中，组件122、124、126、128接收和修改它们各自的输入信号112a、114a、116a、118a。换言之，共振峰112接收表示输入语音信号108的共振峰信号112a(步骤509)；发声调节器124接收包括指示输入语音信号108是有声的、无声的或者混合的发声信号114(步骤510)；音调调节器126接收包括输入语音信号108的基本频率的表示的音调输入语音信号116a(步骤512)；增益调节器128接收表示输入语音信号108的能量的增益信号118a(步骤514)。

同样在步骤509、510、512、514中，组件122、124、126和/或128按照用户输入130a所选的语音类型修改接收信号112a、114a、116a、118a中的一个或多个。例如，步骤509可以包括共振峰调节器122，调节器122通过将输入信号的LPC系数转换为LSP而修改共振峰信号112a、按照用户所选语音类型修改LSP，然后将修改的LSP转换回LPC系数。用于修改LSP的一示例性技术由等式1示出，如下。

LSP_new(i)＝LSP(i)^*F^*(11-i)/(F+10-i)

其中：i从1到10。

F是范围从0.5到2的共振峰移动因数，取决于相关语音类型的期望效果。例如，当F＝1时，LSPnew9(i)＝LSP(I)并且无移动。

另一个用于移动共振峰的技术由等式2表示，如下。

LSP_new(i)＝LSP(i)^*F

其中：i从1到10。

F是期望的共振峰移动因数。

如步骤510的示例，发声调节器124可以包括改变发声信号114a，以便将输入语音108变为发声的、无声的或者混合的不同性质。如步骤512的示例，音调调节器116可以修改音调信号116a，通过乘以预定系数(诸如，0.5、0.2或另一比率)，将音调乘以将应用于不同音节或时间片或其它组件的微分系数矩阵，用一个或多个音调的固定模式替换音调，或者另一操作。如步骤514的示例，增益调节器128可以修改信号118a，以便将输入语音108的增益标准化到预定的或用户输入的值。

在语音转换507之后，发生解码515。在步骤516中，激励信号生成器132从转换器104接收发声、音调和增益信号(具有任何修改)，并且在132a提供代表性的LPC残余信号。因此，生成器132执行LPC分析器112的功能的逆。在步骤518中，合成器134将逆LPC处理应用于共振峰(来自共振峰调节器122)和残余信号132a(来自生成器132)，以便在134a处产生代表性的语音输出信号。因此，合成器134执行LPC分析器112的功能的逆。在一实施例中，LPC合成器134的输出134a可以被用作输出语音136。

或者，如上所述，在步骤519中LPC合成器134输出的语音信号134a可以被路由返回用于更多语音转换。换言之，在步骤520中，后滤波器120按照用户所选语音类型修改LPC合成器134的信号，这种情况下后滤波器120(而非合成器134)的输出在步骤522中构成输出语音136。在一实施例中，后滤波器120执行输出语音的频谱斜率修改。后滤波器120可以应用滤波，诸如低通、高通、或者活动的滤波。一些示例包括有限脉冲响应或者无限脉冲响应滤波。更特别的示例是应用诸如y(n)＝x(n)+x(n-L)的函数以产生回声效果。

其它实施例

前面的揭示示出了本发明的几个示例性实施例，然而对其中进行多种改变和修改对于本领域的技术人员是显而易见的，同时不违背本附加权利要求书定义的发明范围。而且，尽管本发明的元件可以被描述或声明为单数的，也可以考虑使用复数，除非明确表明限于单数。另外，普通技术人员将认识到，为了解释和声明，操作序列必须以某特定顺序陈列，但是本发明允许超出这些特定顺序的多种改变。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 使用预编程的语音特征的语音转换器 [P] . 中国专利： CN100524463C . 2009.08.05
2. 使用预编程的语音特征的语音转换器 [P] . 中国专利： CN1647159A . 2005-07-27
3. SPEECH CONVERTER UTILIZING PREPROGRAMMED VOICE PROFILES [P] . IN237937B . 2010-01-22

机译：使用预先编程的语音配置文件的语音转换器
4. SPEECH CONVERTER UTILIZING PREPROGRAMMED VOICE PROFILES [P] . IN2004CN01824A . 2007-09-21

机译：使用预先编程的语音配置文件的语音转换器
5. Speech converter utilizing preprogrammed voice profiles [P] . 美国专利： US6950799B2 . 2005-09-27

机译：使用预编程语音配置文件的语音转换器