首页> 中国专利> 基于波形编辑的汉语文字-语音转换方法及系统

基于波形编辑的汉语文字-语音转换方法及系统

摘要

本发明属于信号处理技术领域。本发明提供一种基于波形编辑的汉语文字-语音转换方法,包括由计算机输入的字符串按语音分词法分割成词或词组串,再进行音变、调变处理生成音元波形索引串,到音元波形数据库中取出相应的音光波形,再进行编辑,得到语音数据序列。采用本方法构成的文-语转换系统由通用计算机、语音输出板、扬声器及相应的方法软件所组成。本发明具有输出语音自然度高、可理解性好、处理速度快的特点。

著录项

  • 公开/公告号CN1099165A

    专利类型发明专利

  • 公开/公告日1995-02-22

    原文格式PDF

  • 申请/专利权人 清华大学;

    申请/专利号CN94103372.4

  • 发明设计人 蔡莲红;魏华武;

    申请日1994-04-01

  • 分类号G06F3/16;G10L5/04;

  • 代理机构清华大学专利事务所;

  • 代理人廖元秋

  • 地址 100084 北京市海淀区清华园

  • 入库时间 2023-12-17 12:35:46

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2004-06-02

    专利权的终止未缴年费专利权终止

    专利权的终止未缴年费专利权终止

  • 1996-07-24

    授权

    授权

  • 1995-02-22

    公开

    公开

  • 1995-02-08

    实质审查请求的生效

    实质审查请求的生效

说明书

本发明属于信号处理技术领域,特别涉及汉语文字-语音转换技术。

语音是信息交流的工具,自然语音(人发音)的清晰度高,易于理解。在人机交互中,以语音方式传递信息方便,自然,需求也日益迫切。国内外均开展了机器合成语音,文字-语音转换的研究。文字-语音转换是语音合成技术的延伸,它先把文字串变成发音参数控制序列,然后利用语音合成技术让机器或计算机输出声音。

已有的一种汉语文字-语音转换方法如图1所示。该方法首先将输入的字符串经字符-参数转换,变成发音参数控制串,然后从语音参数库中取出语音参数(通常的语音参数为LPC系数或共振峰参数),再利用激励源的激励信号,通过语音合成法得到语音数据序列,经D/A转换,最后输出语音流。

这种基于参数(LPC或共振峰)的语音输出方法自然度较差,因为有限参数很难适应语音的细微变化,特别是此方法对声母的共振峰参数和激励信号的描述还欠完善,共振峰参数修改较为复杂,难于实时进行,另外该方法的文-语转换没有包括基于语音的分词算法,影响了输出语音的自然度和可理解性。

本发明的目的在于克服已有技术的文-语转换方法的不足之处,提出一种基于波形编辑的汉语文字-语音转换方法及其系统,具有输出语音自然度高,可理解性好的特点。

本发明提出的一种基于波形编辑的汉语文字-语音转换方法,其特征在于包括以下步骤:

(1)首先将输入的汉字内码或拼音串按语音分词法分割成词或词组串,在词间插入停顿符;

(2)所说的词或词组串再按音变、调变规则处理,生成带语音特性标注的音元波形索引串;

(3)建立音元波形数据库,根据所说的音元波形索引串到所说的音元波形数据库中取出相应的音元波形;

(4)再对所说的音元波形进行编辑,即修正音元波形的音强、音高、音长,得到语音数据序列。

本发明所说的语音分词法包括正向扫描极大匹配法,连续单字词的“二三原则”组词法,字粘组词法,歧义词串的逆向最大词匹配分词法,所说的正向扫描极大匹配法是建立分词词库,将所说的输入的汉字内码或拼音串从句首向后逐字,假设分割点形成词,与词库中词汇匹配,所说的连续单字词的“二三原则”组词法是指当连续单字词个数超过四个时,按二三原则组成组词,所说的字粘组词法是建立标有虚词粘词规则的虚词库,按虚词库中粘词规则将词汇串中的虚词与其前、后的词粘在一起,所说的歧义词串的向后最大词匹配分词法是指从歧义词串的最后一个字节开始,向前逐步加字匹配,找到最长词的结束点。

本发明所说的音变、调变处理包括以下步骤:1)把文本分词后的字符串用它的汉字发音来替换的文本替换;2)利用多音字词典,将所说的字符串标出正确的发音的多音字处理;3)利用建立的音变、调变规则库使所说的字符串生成带发音特性标注的音元索引串。

本发明是建立在波形编辑方法上的针对汉语实现的文字到语音的转换方法,包括语音分词法,音变调变处理,建立音元波形数据库以及音元波形编辑几部分。如图2所示,下面分别对各组成部分进行详细描述。

语义分词是汉语自然语言理解的基本课题,考虑汉语文-语转换要求而设计的语音分词法,在技术上有独到之处,本发明中的语音分词法工作流程如图3所示,其特征之一是分词是采用正向扫描极大匹配方法。特征之二在于分词后再采用字粘法,合成发音短语。特征之三在于歧义词串内的逆向最大词匹配分词法。特征之四在于对非登录词处理。

所说的正向扫描极大匹配法是从句首向后扫描,在确定词界限时是从当前字向后按最大词匹配,把句子分成词或词组串。其工作流程如图4。与本语音分词法相匹配,建立分词词库,库中包括二字词,三字词和四字词。所说的扫描指的是逐字假设分割点,形成词,与词库中词汇匹配。

所说的极大匹配指的是,在扫描中按极大匹配确定不可以再分的字符串的原则。例如语句“原子在反应中化合成分子”经上述正向扫描极大匹配法,扫描匹配的过程如下:

比较  结果

原子  "原子"是词

原子在  "原子在"、"子在"不是词,确定"原子"是词

在反  "在反"不是词

在反应  "在反应"不是词,"反应"是词,确定"在"是单字词

反应中  "反应中"不是词,确定"反应"是词

中化  "中化"不是词

中化合  "中化合"不是词,"化合"是词,确定"中"为单字词

化合成  "化合成"、"合成"是词

化合成分  "化合成分","合成分"不是词,"化合","成分"是词

化合成分子  "化合成分子","合成分子"不是词,"化合","合成""成分""分子"是词;因此"化合成分子"是一个按极大匹配得到的歧义词串。

分割的结果是:原子反应化合成分子。“原子”“反应”是两个二字词,“在”,“中”为两个单字词,“化合成分子”是暂不能再分的歧义词串。

所说的字粘法指的是把某些副词与紧挨着它的词粘在一起,形成短语,使语流停顿适当,改善听音效果。比如上句中的“的”字,应和它前面的词粘在一起发音,这样才能更符合人类的发音习惯。本发明中建立了虚词库,库中标出这些虚词的粘词规则(与前词粘,还是与后词粘)。

所说的歧义词串的逆向最大词匹配分词法,是在正向扫描极大匹配分词确定为歧义词串后,再用逆向最大词匹配将其分成词。工作过程是从歧义词串的最后一个字节开始向前逐步加字匹配,找到最长词的结束点,即为最大词结束。如上例“化合成分子”划分为“组合成”和“分子”两个词。

所说的对非登录词处理,指的是非登录词在分词时被分为单字词。本发明中,设计了“二三原则”。当连续单字词数超过四个时,按“二三原则:组词,然后读出。设连续单字词数为N,二三原则组词个数为W则:W=2×取整( (N)/5 )+取整{0.3×[ (N)/5 -取整( (N)/5 )]}

举例  N  W  组合方式  组合词数

5  0  2,3  2+0

6  2  3,3  2+取整[0.3×0.2]

7  3  2,3,2  2+取整[0.3×0.4]

8  3  2,3,3  2+取整[0.3×0.6]

9  4  2,3,2,2  2+取整[0.3×0.8]

10  4  2,3,2,3  4

11  4  2,3,3,3  4+取整[0.3×0.2]

12  5  2,3,2,3,2  4+取整[0.3×0.4]

13  5  2,3,2,3,3  4+取整[0.3×0.6]

14  6  2,3,2,3,2,2  4+取整[0.3×0.8]

15  6  2,3,2,3,2,3  6

本发明中的语音分词方法分词速度快,每秒可分几千个词,由于它考虑了语音输出的特点,因而对后续音变,调变处理奠定了良好基础,对提高输出语流的自然度做出极大贡献。

音变调变处理包括文本替换、多音字处理、变音、变调等。

文本替换指的是把文本用它的汉字发音来替换,如把“%”替换成“百分之”,“÷”替换成“除以”等。多音字处理的目的是使一字多音的汉字在相应的词中得以正确发音。如“正”在“正好”中读zhèng,在“正月”中读zhēng。多音字处理的工作过程是:先建立多音字词典,在字典中列出带多音字的词汇,并标注其发音。在文-语转换系统中,字符串被分词后,到多音字词典中查出正确的发音。变音、变调是指在语声流中,按发音规则发生的声音的变化,这种变化有以下几种:

(1)变调:每个单独的音节有确定的音调,但在词组中,由于相邻音节发音的影响,音调发生变化。如上声相连时,前面的上声近似阳平,三个上声相连时,前两个上声近似阳平。

(2)弱化:弱化就是把语流中的某些音节读成轻声,如“你的”中的“的”,“杯子”中的“子”,“爸爸”中的第二个“爸”。

(3)强化:强化就是把语流中的某些音节加强,读成重音。如“努力学习”中的“努力”。

(4)儿化:汉语中的音节带有儿化韵尾,产生了儿化韵,如“花儿”。

(5)音联音变:语流中,相邻声、韵母,相邻音节在发音过程中互相影响,发生了音变。

(6)语调与音节韵律:汉语有多种语气,如疑问(?)、祈使(。)、陈述(。!)和感叹(!)语气。一种语气又有不同的情态,语气情态的变化反映在句中各音节的音调变化上。

以上仅列出有关音变、调变规则的部分例子,而大量的规则和实例是由语言学家们研究、归纳出来的。本发明特征之一是将那些规则应用于汉语文字-语音转换系统中。特征之二是音变、调变规则的实施。文献上的参数语音合成多是修改LPC或共振峰参数。而在本发明中,建立了音变、调变的规则库,然后经处理程序,生成带发音特性标注的音元索引串,音元索引是按发音规则生成的音元波形数据库中的音元地址。发音特性标注的特征在于在音元索引串中插入发音特征的字符或数字说明,它包括:

a、停顿标注:停顿标注分为声韵母间、音节间、词间、句间、段间五种。

b、发音基本特性标注:这是指发音的强度,速度和音高标注,它们是互为独立的参数。

c、音变特性标注:这里指发音的强调、弱化、儿化、音联音变特性。强调指中心词或重音。

d、语调特性,这里指语句语调标注;语调标注的依据是句尾的标点符号。

句尾标点符号  语气  语调特性  例句

?  疑问  强升调  你是张老师吗?

.  陈述,祈使  平调  这是张老师.

!  祈使,感叹  弱升调  停止前进!

天气真好呀!

本发明的音元指音元波形数据库中一个数据项。它可以是一个音节波形的数据,也可以是一个声母、一个韵母、一个拼音过渡段数据。它是音元波形编辑的基本单位。

本发明的音元波形数据库其特征之一在于当音元波形是以音节为单位时,它包括汉语的单音节正常发音、轻声、二字词的前音节和二字词的后字节。需要输出语音时,根据发音规则,取出相应的音节波形数据进行编辑拼接。

音元波形数据库,其特征之二在于当音元波形是小于音节的音元时,音元波形可能是韵母半音节、声母半音节或韵-声过渡段。需要输出语音时,根据分词结果和语音特性标注,取出相应的音元波形数据,由音元波形编辑方法进行编辑拼接。

本发明的音元波形编辑方法是按发音特性标注,修正音元波形的音强的轻/重、音高的低/高、音长的短/长;以提高输出语流的自然度。

具体工作如下:

a、语音基本参数设置。在实行音元波形编辑前,先设置语音的基本参数。即按系统要求或发音基本特性标注,设置语音的强度、速度和音高。通常每个标注参数可分为M等级(M为正整数,如M=10),系统设置为1~M范围内任一整数。

b按停顿标注,在音元波形中插入无声间隔。本发明中停顿共分五种,如前所述。其无声间隔由短到长的顺序是:声韵母间、音节间、词间、句间、段间。

c、音变处理,按音变特性标注,修正词或短语中音元波形强度、长短、音高及音强的时域包络。称之为“音元波形变音法”,具体标注和相应的处理如下:

标注  处理

中心词、重音  提高音强、音高、加长音长

弱化  降低音强、音高、缩短音长

儿化  修改波形的时域包络

音联音变  按音变要求,从音元波形数据库中读取指定波形,并加以修正。

d、语调修正:根据语调特性标注,修正音元波形,称之为“音元波形变调算法”。

汉语语调变化,反映在各音节的声调变化上。人在讲话时,以词或词组为停顿单元,以词组或句子为理解单元,本发明的语调修正方法是根据句尾标点符号所确定的语气,修正句尾之前的3~5个音节的音高,即修正从句尾向前的两个词或短语的音高。具体方法是:

语调  修正方法

强升调  修正声调音节向后依次提高声调△%

弱升调 修正声调音节向后依次提高声调 (△)/2 %

降调 修正声调音节向后依次降低声调 (△)/2 %

设平调标注为6,声调变化范围为10,修正声调音节个数为N。

则声调增量:△= 4/(N)

e、平滑滤波:在实现波形编辑时,完成波形的剪切,拼接,并进行平滑滤波,平滑滤波就是对新拼接成的语音数据进行滤波,以保证语音特性不突变,称之为“特性连续波形修正方法”,如音强平滑方法,具体做法是在语音拼接点n的前和后各取N个语音数据,计算其平均幅度,MF=>> >Σ>>i>=>n>->N>+>1>>n>>S>>(>i>)>>>和MB=>> >Σ>>i>=>n>+>1>>>N>+>n>>>S>>(>i>)>>>然后计算它们的平均相对幅度差,

若E为正,且E> 1/3 ,修正拼接点前的波形;

若E为负,且E<- 1/3 ,修正拼接点后的波形,具体算法是:

S(i)=(1-|E|)·S(i) n-N+1≤i≤n当E> 1/3

或n+1≤i≤N+n当E<- 1/3

本发明的语音生成方法,不再是建立在参数合成方法基础上,而是直接对语音的时域波形数据进行编辑,因此它的计算量小、语音自然度高。汉语音节特征明显,音变调变规律复杂多变,协同发音对语音流的自然度,可理解性影响大,故本发明音元波形数据库以音节、半音节、拼音过渡段为音元。

本发明语音分词法:区别于语义分词,它考虑到人类听音过程中的理解特点,较好地解决了分词算法,歧义字串处理,连续单字词处理,短语合成等问题,使分词结果给语音理解、音变、调变处理奠定了良好基础。

本发明音变,调变处理,充分考虑到人类发音讲话的习惯,确定音节在语流中的正确发音。音元波形编辑算法是以软件方法修改音元波形,以获得连续自然的语声流。

本发明设计出采用所述方法的汉语文字语音转换系统,其特征在于由通用计算机,通过计算机接口连接的语音输出板,扬声器所组成,所说的语音输出板,由数/换转换器,滤波器,功率放大器及固化的文-语转换程序所组成。

附图简要说明:

图1为已有技术汉语文字-语音转换方法流程框图。

图2为本发明汉语文字-语音转换方法流程框图。

图3为本发明语音分词法工作流程框图。

图4为本发明正向扫描极大匹配法流程框图。

图5为本发明汉语文字-语音转换系统结构框图。

本发明设计出采用本发明所述基于音节波形编辑的汉语文字-语音转换方法的汉语文字-语音转换系统。其系统框图如图5所示。包括通用计算机,采用本发明所述方法编制的软件程序存于计算机硬盘或内存中,与计算机接口连接的语音输出板。本实施例中与语音分词方法相配合的分词词库包括二字词、三字词和四字词共6万个词。还建立了多音字词典,用于确定多音字在不同词中的正确发音。词典内为每一个多音字建一个子词表,并标志其发音序号,如“行”字的子词表如下:

行:  银1  走2  道3

实际发音是  银行(háng)、行(xíng)走、道行(héng)

音变、调变处理同本发明。举例说明轻声处理:若当前字与前面的字相同,且为“奶、嫂、姐、爸、妈、哥、弟、爷、娃、看、瞧、跳、蹦……”等字之一时,当前字改为轻声。若当前字不是词头字,又不组成叠字词,是“的、子、了、呢、啊、吗、吧、们、哪”之一且为词尾字,则读轻声。又如特殊音处理“一”

"一"的处理:

当"一"是词尾字时,读阳平,如"第一(yī)"

当"一"字后面与之成词的字读去声时,"一"读阳平如:"一(yí)个"

否则读去声,如"一(yì)组"

本实施例中输入的是汉字内码串,经分词、音变处理,得到带标注的音元波形数据库的索引串。串中指出该发音在数据库中的偏址。这里标注主要是停顿标志、结束标志。停顿分三类:字间、词间和句子间的停顿赋予不同的标志,给以不同的停顿时间。语音输出时,若遇结束标志即返回。

本实施例中音元波形数据库中的音元是单音节,其中包括二字词的前音节、二字词的后音节、轻声音节及一些特殊音音节。各音节数据经压缩后存储。全部音节数据合并成一个文件,并建立索引文件。指明各拼音码在文件的偏移地址。

当从数据库中取出相应的音节数据后,用“特性连续波形修正方法”修正音强,最后输出语音。

与本软件方法相配的语音输出硬件、包括数/模转换器、滤波器,功率放大器及扬声器,如图6所示。计算机键盘输入的汉字、数字、符号、或计算机内的文本文件均可作为汉语文-语转换方法的输入。音元波形数据库和软件程序存于计算机硬盘或内存中。计算机执行程序,对字符串进行处理,然后利用语音输出硬件,将语音数据转换成模拟量经滤波、功率放大,输出到扬声器中。语音输出板插于计算机的扩展槽中。语音输出板也可采用市场上的通用音频卡,如Sound Blaster及其兼容卡。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号