首页> 中国专利> 歌声生成装置及具有歌声生成功能的便携通信终端

歌声生成装置及具有歌声生成功能的便携通信终端

摘要

一种歌声生成装置,其具备:输入装置,其输入表示在歌声再现中使用的曲调的乐谱数据;存储装置,其存储用文本形式(HV-Script形式)记述至少一个发音文字的发音特性(或发音方式)的多个发音数据;控制装置,其通过使前述乐谱数据中的各音符和从存储装置中读出的所希望的发音数据附加对应关系,来生成发音数据列;歌声再现装置,根据该发音数据列再现歌声。由于预先存储的发音数据能够限定在规定的发音文字或音速等所对应的数据,因此即使在便携通信终端这样的小型电子仪器中也可以实现。另外,仅通过用户输入所希望的乐曲的音符等,且输入与歌词相关的文字,就可以自动实现歌词和音符的整合性,由此,能够容易生成并再现歌声。

著录项

  • 公开/公告号CN1661674A

    专利类型发明专利

  • 公开/公告日2005-08-31

    原文格式PDF

  • 申请/专利权人 雅马哈株式会社;

    申请/专利号CN200510005543.3

  • 发明设计人 山木清志;

    申请日2005-01-20

  • 分类号G10L13/04;G10H1/00;G10H7/00;

  • 代理机构72003 隆天国际知识产权代理有限公司;

  • 代理人高龙鑫;张龙哺

  • 地址 日本静冈县

  • 入库时间 2023-12-17 16:25:17

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2016-03-16

    未缴年费专利权终止 IPC(主分类):G10L13/04 授权公告日:20071010 终止日期:20150120 申请日:20050120

    专利权的终止

  • 2007-10-10

    授权

    授权

  • 2005-10-26

    实质审查的生效

    实质审查的生效

  • 2005-08-31

    公开

    公开

说明书

技术领域

本发明涉及由语音合成的歌声生成装置、将歌声生成功能具体化的程序、以及具有歌声生成功能的便携通信终端。

背景技术

近年来,开发、产品化了各种便携式电话机(cellular phones,PHS(personalhandyphone system:登录商标))和便携通信终端(PDA(personal digital assistant)等),例如,也产品化了用户登录自己制作的曲调,具有将该曲调作为振铃音而再现功能的便携式电话机。

另外,日本专利申请公开公报特开平11-184490中,公开了下面一种歌声合成方法,即根据原有的规则语音合成方法的语音合成中,只能将由规定的文本组成的单词和文章简单地声音化并朗诵,而不能在其上面附加所希望的曲调并生成所谓的“歌声(singing voice)”,鉴于这样的问题点,根据规定的歌词和音符信息合成歌声的歌声合成方法。具体地讲,读入符合乐谱和MIDI(Musical Instrument Digtal Interface)规格的文件等,从其中包含的音符信息中抽出基本频率和时间长度,进一步,相对于音符对歌词分配平假名(由日语的50音文字等组成,各个文字根据元音及辅音的组合来发音),将其分解为音韵系列,将前述抽出的基本频率及时间长度作为韵律信息,将音韵系列作为文本输入信息,通过规则语音合成方式进行语音合成(speech synthesis)。

但是,上述的便携式电话机中可利用的用户自制曲调是只登录并再现曲调的,不是具有再现歌声的功能的。

此外,虽然上述公报公开的技术提到了歌声的再现功能,但并没有记载将歌词用平假名分别附加到音符上的方式等的具体方法。在将语音波形作为语音合成的单位来使用的情况下,数据量变大,在存储容量小的便携式电话机等的小型电子仪器中是难于实现的。

发明内容

本发明是鉴于上述的问题点而成的,其涉及:即使在便携通信终端等的小型电子仪器中也能容易地实现用于歌声合成的数据输入,并能够根据该数据通过语音合成来生成歌声的歌声生成装置、将歌声生成功能具体化的程序、以及具有歌产生成功能的便携通信终端。

本发明的歌声生成装置,由如下部分构成:输入装置,其输入表示在歌声再现中使用的曲调的乐谱数据;存储装置,其存储用文本形式(HV-Script形式)来记述至少一个发音文字的发音特性(或发音方式)的多个发音数据;控制装置,其通过对前述乐谱数据中的各个音符和从前述存储装置中读出的所希望的发音数据附加对应关系,来生成发音数据列;歌声再现装置,其根据前述发音数据列再现歌声。

上述发音数据是由发音文字和规定其发音特性的韵律符号组成,输入装置可以输入所希望的文字,另外,控制装置用输入的所希望的文字(例如构成歌词的文字)替换与各个音符具有对应关系的所希望的发音数据中含有的发音文字。

上述歌声再现装置根据发音数据列中包含的发音文字和韵律符号,再现具有规定的发音特性、且由发音数据列中包含的发音文字所表示的歌声。

上述发音数据是至少与一个音速对应的数据,另外,控制装置是,在乐谱数据的音速与存储装置中存储的发音数据所对应的音速不同的情况下,相应于乐谱数据的音速与发音数据所对应的音速的比,来改变发音数据的韵律符号的音长,据此,以与输入的乐谱数据的音速相一致地生成发音数据列。

也可以进行下述的发音控制,即在将由上述的发音数据所表示的发音文字进行发音时,在该发音的开始时刻,以比由乐谱数据指定的音高稍微低的音高开始发音,在此之后,恢复到指定的音高。

进而,在将由发音数据所表示的发音文字进行发音时,也可以在其发音途中将使音高上下变动的颤音效果附加在发音数据中。

也可以生成具体化上述歌声生成装置的功能的程序,并装入到计算机系统等中,或者将具体化歌声生成装置的功能的结构装入到便携通信终端中。

附图说明

图1是表示与本发明的优选实施方式相关的歌声再现装置的构成的框图。

图2是表示图1中示出的HV音源的内部构成的框图。

图3是表示图2中示出的共振峰生成单元的内部构成的框图。

图4A表示韵律符号的代表例子。

图4B表示由韵律符号的句首的音调控制例子。

图4C表示由韵律符号的发音途中的音调控制例子。

图5是用于说明对于发音文字“ら”的歌声用HV-Script的记述方法的表。

图6表示利用HV歌声数据发音时所使用的乐谱的一部分。

图7是表示歌声数据生成装置的构成的框图。

图8是表示由歌声生成装置的HV歌声数据生成处理的流程图。

图9是接着图8表示由歌声生成装置的HV歌声数据生成处理的流程图。

图10是表示HV歌声数据解释和再现处理的流程图。

图11是表示将歌声生成装置的功能具体化的便携式电话机的构成的框图。

具体实施方式

参照附图并与实施例一同对本发明进行详细的说明。

图1至图6以及图7中,表示与本发明的优选实施例相关的歌声再现装置以及歌声数据生成装置的功能构成。另外,歌声生成装置由图1所示的歌声再现装置和图7所示的歌声数据生成装置构成。

本实施例中所述的“HV歌声数据(即:发音数据列)”是以文本的形式记述的HV-Script(Human Voice Script)数据,特别是由歌声再现用中记述的歌声用HV-Script数据(或者发音数据)构成,该文本包含为再现所希望的声音而使用的规定的符号。

这里,HV-Script由包含韵律符号(用于指定重音、音高(音阶、音程)、发音长(音长、发音时间)等的发音形态的符号)的成为语音合成对象的文本的字符串构成,但在本实施例中特别是为了执行歌声的生成,一个HV-Script由一个发音文字和规定其音高·音长等的韵律符号构成。另外,其详细的情况在后面记述。

图1中,符号1a表示HV歌声再现播放器,控制HV歌声数据的再现和其停止等。当接收HV歌声数据的再现指示时,HV歌声再现播放器1a开始该HV歌声数据中包含的歌声用HV-Script的解释。相应于该歌声用HV-Script的记述内容,HV歌声再现播放器1a控制HV驱动器2a并执行以下的处理。

即,HV驱动器2a参照合成辞典存储器3a中存储的合成辞典,并执行下面的处理。

人的声音具有依存于声带和口腔等形状的共振峰(formant;固有的频率频谱),合成辞典中存储有与该共振峰相关的参数。即,合成辞典是如下数据库,即将对于实际的声音以其发音文字单位(例如日语的情况下为“あ”、“い”等文字单位)进行抽样及分析的结果而得到的参数,作为共振峰帧数据(formant frame data)以各个发音文字单位进行预先存储的数据库。该数据库还存储有对应于后述的韵律符号而变更与上述共振峰相关的参数用的数据。

HV驱动器2a,对HV-Script中的包含韵律符号的发音字符串进行解释,使用上述合成辞典对于与标准发音相关的共振峰帧数据,加入附加由韵律符号指定的重音、音阶、音长等的变更,并变换为共振峰帧列,向HV音源4a输出。HV音源4a根据从HV驱动器2a输出的共振峰帧列而生成发音信号,输出到扬声器5a。扬声器5a根据该发音信号对规定的歌声进行发音。

如上所述,歌声再现装置由HV歌声播放器1a、HV驱动器2a、合成辞典存储器3a、HV音源4a、以及扬声器5a构成。

另外,HV歌声播放器1a及HV驱动器2a是包含由存储器及CPU(中央处理器)等构成的控制装置的,通过将具体化实现这些功能的程序存入存储器并执行来实现该功能的装置。

在此,参照图2和图3说明HV音源4a的详细情况。

HV音源4a是根据CSM(composite sinusoidal model;复合正弦波模型)语音合成方法来动作的装置,本实施例的情况下,一个音素(phoneme)由8种的共振峰构成,上述合成辞典作为参数存储有8组的共振峰频率、共振峰能级、及音调信息。

即,HV音源4a如图2所示的那样具有8个共振峰生成单元40a~40h和一个音调生成单元50,基于从发音用音序器(图中未示出)输出的有关共振峰的参数以及音调信息,在共振峰生成单元40a~40h中生成对应的共振峰信号,在混音单元60中合成并生成音素。通过连续进行这样的音素生成,来合成所希望的声音。另外,在各个共振峰生成单元40a~40h中,产生成为生成共振峰信号用的基础的基本波形,但在该基本波形的产生中,可以使用例如由公知的FM(frequency modulation)音源的波形发生器。音调生成单元50具有通过运算来生成音调(音高:tone pitch)的功能,仅在应发音的音素为浊音(voicedsound)的情况下,将运算的音调附加在生成的音素上。

下面,参照图3说明共振峰生成单元40a~40h的内部构成。

共振峰生成单元40a~40h各自具有同样的构成,如图3所示,由波形发生器41、噪音发生器42、加法器43、以及放大器44构成。

波形发生器41根据按每一个音素的每一个共振峰而指定的共振峰频率、共振峰的基本波形(正弦波、三角波等)、以及该波形的相位而产生构成1个音素的1个共振峰。噪音发生器42是相应于由波形发生器41产生的共振峰的为浊音还是清音(unvoiced sound)而进行动作的,在清音的情况下,生成噪音并供给到加法器43。

加法器43对由波形发生器41产生的共振峰和由噪音发生器42供给的噪音进行加法运算。该加法器43的加法运算结果,通过放大器44被放大到规定的共振峰能级。

如上所述,各个共振峰生成单元40a~40h与构成各音素的一个共振峰有关地而构成,一个音素是由多个共振峰(本实施例是8种共振峰)合成而形成的。所以,为了生成1个音素,需要生成构成该音素的多个共振峰并对其进行合成。因此,通过如图2所示这样的构成,进行使用共振峰参数的语音合成。

如上所述,在CSM语音合成方法中,基于频率参数或振幅参数等生成多个共振峰并对其进行合成,由此形成音素,据此,进行语音合成。比如,在语音合成“さくら”这样的日语单词时,通过在每几ms到几十ms设定多组的参数,合成/S/→/A/→/K/→/U/→/R/→/A/的6个音素(辅音、元音)而进行发音。

提供给共振峰生成单元40a~40h的参数,按每一个音素预先定义,登录到合成辞典中。另外,关于与构成各文字的音素有关的信息(例如日语的“さ”的情况下,其是由2个音素/S/和/A/构成的信息)也登录到合成辞典中。并且,在通过韵律符号变更重音的情况下,对于该韵律符号所适用的音素所对应的共振峰帧数据,附加相应于韵律符号的变更之后,供给到HV音源4a。

接下来,说明HV-Script和歌声用HV-Script的详细情况。

HV-Script中含有的韵律符号,是对于发音文字指定并附加所希望的重音等的符号,在除了歌声生成用途以外还可以用于一般的语音合成中。下面,示出一般的语音合成中所利用的根据日语的HV-Script的一个例子。

(例) “か_さが  ほ^5し_い4 い’ 4ね$2—”

该HV-Script的例子,是包含在“かさがほしいね一”的语言中附加所希望的声调并进行语音合成用的韵律符号进行记述的。该例中记述的符号“’”、“^”、“_”、“$”等是韵律符号,表示附加在日语文字(即假名文字或长音符号“—”)上的声调的种类,对于紧跟韵律符号之后的文字(在紧跟韵律符号之后记述有数值的情况下,是接着该数值的文字)附加规定的重音的符号。

图4A示出代表的韵律符号的意思。这里,韵律符号“’”表示在词头音调上扬的频率控制(参照图4B的(1)),韵律符号“^”表示发音中音调上扬的控制(参照图4C的(3)),韵律符号“_”表示在词头音调下降的控制(参照图4B的(2)),韵律符号“$”表示发音中音调下降的控制(参照图4C的(4)),根据这些各种的音调控制而进行语音合成。另外,在紧跟韵律符号之后附加有数值的情况下,该数值表示附加的重音的变化量。例如,“か_3さが”中,表示在“さ”的词头音调只下降数值3所示的量,接下来的“が”以该下降后的音调进行发音。此外,最初发音的“か”以标准的音调发音。

这样地,在发音的语言中所包含有的文字中附加重音或者声调时,在该字符之前附加图4A所示的韵律符号(进一步,表示声调变化量的数值)并记述HV-Script。另外,本实施例中,只例示出了与音调控制相关的韵律符号,除此以外,还可以使用控制声音的强弱、速度、音质等的韵律符号。

本实施例中,将歌声用HV-Script登录到后述的HV歌声数据库,该歌声用HV-Script,是作为控制对发音文字进行发音时的音高或音长等的发音特性用的信息,使用上述所示的韵律符号用文本形式进行记述的HV-Script数据,特别在歌声生成中使用。该HV歌声数据库能够按每一个音速、对于发音文字登录按每一个音高或音长的歌声用HV-Script。

在此,举一个例子说明用于控制发音文字的发音特性的歌声用HV-Script(即,发音数据)。

一般的语音合成中可利用的HV-Script和歌声用HV-Script之间的不同点在于,1个歌声用HV-Script中所包含的发音文字只限定于1个文字。

例如,说明音速120的发音文字“ら”按照四分音符的音长、分配了音高C2的歌声用HV-Script(参照图5)。而且,音高C2表示基准的八音度中的音符“ド”,此外,音高C1表示比基准低1个八音度的音符“ド”,音高C3表示比基准高1个八音度的音符“ド”。这里,接着韵律符号中包含的控制符号“L1W2S54”而记述“C2$ら^4>2——>———>&”。

另外,控制文字“S**”(“**”中设定规定的数值)是规定1个发音文字或长音的发音长度的文字,比如,“S54”表示80ms的时间长度。因此,在发音文字“ら”中合计使用6个“—”的情况下,全部的时间长度为80ms×6=480ms,将其设定为音速120的四分音符的音符长度。此外,音速120的四分音符的音符长度正确地是500ms,但在这里是480ms。

控制符号“L*”(其中,*是0或1)是考虑到在利用合成辞典对发音文字进行语音合成时,因为每一个发音文字的发音长度不同,在与歌曲的旋律符合的时候可能会出现不吻合的情况而设计的,由控制符号“L0”来指定在合成辞典中登录的发音长度,由控制符号“L1”来指定在合成辞典中登录的发音长度的再定义。亦即,在“L1W2S54”中不是合成辞典里所登录的发音长度,而是指定由“S54”所表示的发音长度。

控制符号“W*”(*是1~5)是对于使音调变化的韵律符号(’、^、_、$等)变更根据该韵律符号而变化的音调量的情况下使用的,“W3”表示默认的变化量,“W1”表示最小的变化量,“W5”表示最大的变化量。另外,末尾的“&”是将由韵律符号产生的变化量变回到初始状态的符号,直到该符号出现,变化量一直进行累积。

上述的符号C2指定了以音高C2来发音,对于发音文字“ら”的发音,相对于所指定的音高C2(亦即,基准八音度中的音符“ド”)只是下降由符号“$4”的数值“4”所表示的量的音调并进行发音,然后,只上升由符号“^4”的数值“4”表示的量的音调(即,一时下降的音高恢复到音高C2)。以接下来的符号“>2”的数值“2”所表示的量来降低音量(例如,进行2dB的能级降低)。只以后面的符号“—”所规定的时间长度的2倍的时间长度来延长发音时间,进而,只下降以符号“>”所规定的规定量的音量(例如,进行1dB能级降低)。只以接下来的符号“—”所规定的时间长度的3倍的时间来延长发音时间,进而,只下降以符号“>”所规定的规定量的音量。如上所述的那样,使音调或音量变化的同时对发音文字“ら”进行发音,这因为推测到了以音速120的四分音符的音高C2来对发音文字“ら”进行发音是最合适的发音方式。所以,即使是关于同一个音符的HV-Script,也根据用户或制作者的不同,会有各种不同的发音方式。

这样,在利用歌声用HV-Script通过HV音源4a和扬声器5a来对规定的发音文字进行发音时,最初,以低于规定的乐谱数据(即,表示音符或音高等的数据)所指定的音高(比如C2)的音高来开始发音,然后,恢复到指定的音高的方式进行发音。如上述那样记述歌声用HV-Script是因为,通常,人的歌声是在其开始唱时以稍微低的音调开始之后,使音高上升并达到所希望的音高的方式进行发音的,是为了使由歌声用HV-Script的声音再现接近于人的歌唱并在听觉上更加显得自然的。另外,为了使歌声的表现更加丰富,也可以融入各种方法。例如,最初以乐谱中所指定的音高开始发音,但之后立刻以稍微低的音高发音,然后,返回到所指定的音高,可以将上述这样的各种的“起伏(fluctuations)”模式在歌声用HV-Script中记述。

另外,上述的歌声用HV-Script,除了长音符号“—”之外,还使用规定发音文字的发音长度的控制符号“S**”,使歌声中发音的发音文字的发音长度与指定的音符的音长相一致地记述。

图5表示如上述那样记述的歌声用HV-Script的各种例子。这里,表示出了与音速(BMP)120时的发音文字“ら”有关的发音方式,按每各个音符和各音高规定有歌声用HV-Script(亦即,由标题、控制符号、以及脚本(主题记述部)构成)。“文件名”表示存储各歌声用HV-Script的文件的文件名,作为其扩展名使用“hvs”。另外,“注释No”表示与音高对应的音符编号(即,note number)。“标题(header)”是控制符号的一种,表示该文件是HV-Script文件(即,用HV-Script来记述的文件),“控制符号”和“脚本(主题)”如前面的叙述。这样规定的一连串的标题、控制符号、以及脚本(主题)在各文件中记述。

下面,说明HV歌声数据。

例如,将图6所示的由1小节曲调组成的乐谱所对应的歌声数据,只由发音文字“ら”来生成时,如下面的那样。

HV#J

L1W2S54

C2$4ら^4>2——>———>&

C2$ら^4>2—>—>&

D2$4ら^4>2—>—>&

S53E2$ら^4>2——>——>———>&

当再现上述的HV歌声数据时,以图6所示的旋律发出“ら、ら、ら、ら…”的音,如所谓的鼻音曲子那样来再现。

对于上述的旋律,当使用实际歌词而生成HV歌声数据时,如下面的那样。

HV#J

L1W2S54

C2$4お^4>2——>———>&

C2$し^4>2—>—>&

D2$4え^4>2—>—>&

S53E2$て^4>2——>——>———>&

该HV歌声数据中,以图6所示的旋律来再现“お、し、え、て…”这样的实际歌词的一部分的歌声。

另外,HV歌声数据虽然是并排记述多个歌声用HV-Script的数据,但对于多个歌声用HV-Script中共同使用的控制符号,可以如上述那样在句头中统一来记述。不用说,也可以按每一个各歌声用HV-Script来记述个别的控制符号。上述的例子中,在句头记述的最初的控制符号“L1W2S54”不仅作用于其后面记述的歌声用HV-Script,也对接下来的3个歌声用HV-Script起作用,在最后的歌声用HV-Script中附加有控制文字“S**”,由此,来表示最后的歌声用HV-Script与其前面记述的歌声用HV-Script的控制方式是不同的。

此外,表示休止符的HV-Script是用空格来表示的,并用该空格的前面记述的控制符号“S**”的数值(**)来规定休止时间长度。另外,通过在中间放置空格来表示在此时间内没有声音。

也可以将如上述的歌声用HV-Script对所有的音速、音高、音长、以及发音文字预先生成,也可以预先只生成成为基本的脚本,在生成实际的歌声用HV-Script时,变更基本脚本的记述内容。

例如,只准备有发音文字“ら”的歌声用HV-Script的情况下,可以利用它来生成别的发音文字“う”的歌声用HV-Script。亦即,使发音文字“う”按照音速120、四分音符、以及音高C2来发音的情况下,将发音文字“ら”的歌声用HV-Script的“C2$4ら^4>2——>———>&”一部分变更并成为“C2$4う^4>2——>———>&”。在后述的歌声再现装置的动作说明中,进行这样的变更处理。

另外,也可以对歌声用HV-Script附加颤音(vibrato)。即,对于原来的歌声用HV-Script“HV#J L1W2S53 C2$4ら4>2——>——>——>———>&”,适当地追加有关颤音的韵律符号,而成为“HV#J L1W2S53 C2$4ら^4>2——>——>3>—^>—$—>^—>$—>^—>^&”。此时,通过追加韵律符号“$”、“^”,将发音时的音调上下变动而实现颤音。

准备多种上述那样的附加颤音的歌声用HV-Script,或者使用其它发音方式变更表现(音量的变化、音质的变化等),由此使歌声用HV-Script中具有各种变化,可以增强歌声再现时的表现力。另外,对于上述的歌声用HV-Script的记述内容,其生成者(工程师、用户等)在实际听取其发音并选择最合适的。

下面,参照图7说明用于生成HV歌声数据的歌声数据生成装置。

图7是表示歌声数据生成装置的由功能模块构成的框图。

图7所示的歌声数据生成装置具有控制单元1b、显示单元2b、操作单元3b、以及HV歌声数据库(DB)4b,进而,控制单元1b由如下部分构成:选择输入单元1b-1、歌声用HV-Script抽出单元1b-2、HV歌声数据生成单元1b-3、歌词输入单元1b-4、以及发音文字替换单元1b-5。

显示单元2b在控制单元b的控制下,显示规定的信息。操作单元3b由键盘或各种的控制键等构成,在用日语记述歌声用HV-Script时,可以使用所谓的日语键盘(或者,在通常的键盘中组装日语变换软件的键盘)。用户操作操作单元3b向控制单元1b中输入规定的数据。HV歌声数据库4b如前述的那样。

选择输入单元1b-1在显示单元2b中显示用于选择音速、音符(包含休止符)、以及音高的规定的符号、文字或按钮等,由用户来进行选择。这样,由用户选择的表示音符(即,音符长度:note length)和其音高(tone pitch)的信息而组成的乐谱数据,输入到选择输入单元1b-1。比如,在显示单元2b中显示表示各种音符(四分音符、八分音符等)的图像文字(或按钮)和表示音高的符号C2、E3、…等,用户从中适当地选择所希望的音符和音高等,由此,进行所希望的乐谱数据的输入操作。

歌声用HV-Script抽出单元1b-2从HV歌声数据库4b中抽出相当于选择输入单元1b-1内输入的乐谱数据(音符、音高等)的歌声用HV-Script。

HV歌声数据生成单元1b-3,相应于用户输入的乐谱数据的音符的顺序,将歌声用HV-Script抽出单元1b-2从HV歌声数据库4b中抽出的歌声用HV-Script依次排列并生成HV歌声数据。

歌词输入单元1b-4,在歌词输入时,在显示单元2b中显示规定的歌词输入画面(图中未示出),并执行相应于由用户的操作单元3b的操作的歌词输入处理。由此,歌词输入单元1b-4接收HV歌声数据中分配的歌词数据(文本字符串)的输入。

发音文字替换单元1b-5,将HV歌声数据生成单元1b-3生成的HV歌声数据中含有的发音文字替换成构成输入到歌词输入单元1b-4的歌词的字符串。

HV歌声数据库4b,存储有包含韵律符号的HV-Script数据,该韵律符号是用于按每一个音速、音符的种类、以及音高,对发音文字以规定的音高和音长来进行发音的。

另外,控制单元1b由存储器及CPU(中央处理装置)等构成,将用于实现各部功能的程序装入存储器并执行来实现该功能。

由上述的歌声数据生成装置及上述的歌声再现装置构成本实施例的歌声生成装置,用户生成所希望的歌声数据,并可以对其进行再现。

接下来,对与本实施例相关的歌声生成装置的动作,参照图8及图9来进行说明。

首先,通过选择输入单元1b-1在显示单元2b中显示音速输入画面(步骤S101)。当用户操作操作单元3b并输入规定的音速时,步骤S102的判定结果成为是,流程转入到步骤S103。步骤S103中,在控制单元1b的内部存储器的HV歌声数据领域内设定标题(HV#J)。

然后,选择输入单元1b-1在显示单元2b中显示音符输入画面(步骤S104)。当用户操作操作单元3b选择并输入规定的音符和音高等时,步骤S105的判定结果成为是,流程转入到步骤S106。例如,用户参照谱面所记述的乐谱,看着在显示单元2b中显示的用于选择音符和音高的显示内容,操作操作单元3b并依次选择所希望的音符和音高,由此,进行乐谱数据的输入。

在步骤S106中,歌声用HV-Script抽出单元1b-2从HV歌声数据库4b中存储的与规定文字(例如“ら”)有关的多个歌声用HV-Script中,选择并抽出与由用户输入的乐谱数据相符合的歌声用HV-Script。由于HV歌声数据库4b按每一个音速、音符(包含休止符)的种类、音高存储有歌声用HV-Script文件,因此可以选择并抽出与指定的音速、音符、以及音高有关的歌声用HV-Script数据。

抽出的歌声用HV-Script数据在HV歌声数据区域中接着先前抽出的数据而存储,然后,流程返回到S105。在此以后,由用户输入的音符和音高所对应的歌声用HV-Script数据从HV歌声数据库内依次被选择并抽出,在HV歌声数据区域内依次排列并存储。根据这样生成的歌声数据,通过HV歌声播放器1a,以所希望的旋律对规定的发音文字(例如“ら”)进行发音。

此外,当用户不再输入音符和音高,进行音符输入结束操作时,步骤S105的判定结果成为否,进而,下一个的步骤S107的判定结果成为是,因此流程转入到步骤S108。步骤S108中,进行有无歌词输入开始的操作的判定。在此,不进行歌词输入开始的操作,而进行视听操作时,步骤S108的判定结果成为否,下面的步骤S109的判定结果成为是,因此流程转入到步骤S110。

步骤S110中,通过HV歌声播放器1a和HV驱动器2a,进行将HV歌声数据变换为共振峰帧列的处理,并传送到HV音源4a。HV音源4a按照该共振峰帧列将声音信号输出到扬声器5a。这样,从扬声器5a中再现所希望的歌声并进行发音。

上述步骤S108中,当进行歌词输入开始的操作时,流程转入到步骤S111(参照图9)。步骤S111中,通过歌词输入单元1b-4在显示单元2b中显示歌词输入画面。然后,由用户进行在乐谱数据指定音符中分配规定的发音文字的操作。当歌词输入结束时,步骤S112的判定结果成为是,流程转入到步骤S113。步骤S113中,将先前生成的HV歌声数据的发音文字依次替换成输入的歌词的文字。

亦即,发音文字替换单元1b-5,将先前生成的HV歌声数据中包含的发音文字(例如“ら”、“ら”、“ら”、“ら”、…)替换成歌词输入单元1b—4中输入的构成歌词的文字(例如“お”、“し”、“え”、“て”、…)。根据该阶段中生成的HV歌声数据,HV歌声播放器可以再现歌声,该歌声是将输入的歌词以所希望的旋律进行发音的歌声。

最后的步骤S114中,将替换的HV歌声数据存储在控制单元1b内的存储器中。这样,歌声生成处理就结束了。

如上述的那样,本实施例中,将与音速、音符·休止符的种类(或音长)、以及音高(do、re、mi、…)对应的发音组成部分的歌声用HV-Script以规定的发音文字(例如“あ”、“い”…)事先安排好。这样一来,用户操作歌声数据生成装置并依次选择所希望的音符和音高以便写出附带歌词的乐谱,由此,歌声用HV-Script以按规定的顺序排列,HV歌声数据自动生成。

另外,本实施例中,虽然按每一个音符的输入,逐次存储有歌声用HV-Script,但也可以在所有的音符的输入结束之后,统一地存储歌声用HV-Script。此外,对于进行视听的时刻,用户可以任意地设定。另外,虽然在歌词的所有文字的输入结束之后才替换成歌声用HV-Script,但也可以按歌词中的一个文字的输入将歌声用HV-Script替换成对应的发音文字。

此外,在歌声用HV-Script中附加颤音和其它发音方式的变化时,在前述的流程图中,会追加用于选择该发音方式的处理。例如,在歌声用HV-Script中附加颤音的情况下,在紧接着输入音符的后面追加“V”这样的文字,由此也可以自动地对该音符进行“有颤音”这样的设定。

如上述那样生成的HV歌声数据通过HV歌声播放器1a来再现。另外,对于步骤S110中的视听处理也同样通过HV歌声播放器1a来再现。

接下来,参照图10的流程图说明HV歌声播放器1a的动作。亦即,接收由用户的再现开始指示,并执行与HV歌声数据的解释相关的处理。

HV歌声播放器1a,开始由作为HV歌声数据记述的歌声用HV-Script组成的发音字符串的解释。这里,HV歌声播放器1a将HV歌声数据中含有的歌声用HV-Script(但除了标题)依次输出到HV驱动器2a(步骤S201)。

接收到发音字符串的HV驱动器2a,参照存储在合成辞典存储器3a中的合成辞典,将该字符串变换为共振峰帧列。另外,相应于该发音字符串中包含的韵律符号,将规定的变更附加到共振峰帧列并向HV音源4a输出(步骤S202)。

HV音源4a,根据由HV驱动器2a供给的共振峰帧列执行语音合成并生成声音信号,输出到扬声器5a(步骤S203)。这样,扬声器5a再现语音合成的歌声并进行发音。

之后,直到通过步骤S204的判定检测到HV歌声数据的最后,HV歌声播放器1a重复执行步骤S201~步骤S203,步骤S204在检测到HV歌声数据的最后的时刻,结束与HV歌声数据解释相关的处理。

另外,如图8至图10所示的流程图的内容是一个例子,本发明并不限定于本实施例的处理流程。

如上所说明,与本实施例相关的歌声生成装置中,用户一边观看乐谱和歌词,一边选择输入音符和音高,只需选择其和与发音文字的组合,由此就能够容易生成歌声再现用的数据(即,HV歌声数据),因此比原来的从一开始就生成由文本记述的HV-Script的劳动量相比,能够简单地不费时间和劳力就实现歌声再现。

接下来,参照图11说明在便携式电话机中适用与本实施例相关的歌声生成装置的情况的构成例子。

图11是表示装有与本实施例相关的歌声生成装置的功能的便携式电话机的构成的框图。

图11中,符号21表示控制便携式电话机内的电路部件等的CPU。符号22表示与外部进行数据发送接收用的天线。符号23表示通信单元,调制发送用数据并向天线22输出,同时解调通过天线22接收的接收用数据。符号24表示声音处理单元,将通话时从通信单元23输出的从通话对方(即,通话对方的便携式电话机等)发送的声音数据变换为声音信号并向耳机(ear speaker,图中未示出)输出,或者将由麦克风(microphone,图中未示出)拾取的声音信号变换为声音数据并向通信单元23输出。

符号25表示音源。该音源25具有读入乐曲数据并再现乐曲的功能,例如,来电时再现所希望的来电曲调。另外,音源25具有与图1所示的HV音源4a同样的功能。符号26表示扬声器,对歌声或乐音等进行发音。符号27表示接收由用户的操作的输入单元,由数值键或功能键等构成。符号28表示存储HV歌声数据或乐曲数据等的RAM。在通过无线通信从Web服务器上下载乐曲乐句数据时,该乐曲乐句数据存储在RAM28中。符号29表示存储由CPU21执行的各种程序、前述的合成辞典、以及HV歌声数据库等的ROM。符号30表示显示单元,显示与由用户的操作内容或便携式电话机的状态等相关的信息。此外,上述的各部件通过总线而相互连接。

CPU21执行ROM29中所存储的程序,由此,实现图1所示的HV歌声播放器1a、HV驱动器2a、以及图1所示的控制单元1b的功能动作。另外,CPU21将如前述那样生成的HV歌声数据存储到RAM28中,接到由用户的再现指示时,从RAM28读出该HV歌声数据,并对其记述内容进行解释。此时,CPU21参照ROM29中所存储的合成辞典,将HV歌声数据变换为共振峰帧列,向音源25输出。

音源25根据从CPU21供给的共振峰帧列而生成声音信号,输出到扬声器26。此外,在CPU21的控制下,也可以根据从RAM28读出的乐曲数据,生成乐音信号,输出到扬声器26。扬声器26根据声音信号或乐音信号对声音(歌声)或乐音进行发音。

用户能够对输入单元27进行操作,并启动实现前述的歌声数据生成装置内的控制单元1b的功能的软件,在视觉辨认显示单元30的显示内容的同时,选择输入乐谱数据(音符及音高等)并生成HV歌声数据。另外,也可以将生成的HV歌声数据保存到RAM28中。

此外,也可以将生成的HV歌声数据作为来电曲调来应用。该情况下的动作如下所述。

首先,将来电时使用HV歌声数据的这项情况作为设定信息而预先存储在RAM28中。通信单元23当通过天线22接收到从其它便携式电话机等发送的呼叫信息时,通知CPU21来电。接收到来电通知的CPU21,从RAM28读出设定信息,从RAM28中读出该设定信息指定的HV歌声数据,并开始该解释。以后的动作如前面所述,按照读出的HV歌声数据的记述内容,从扬声器26进行歌声的发音。

用户也可以在电子邮件中包含HV歌声数据而向其它终端发送。例如,也可以在规定的附加文件(即,例如可以根据规定的扩展名(hvs)识别包含HV歌声数据的附加文件)中记述HV歌声数据,并添加到发送的电子邮件中。当由图11所示的便携式电话机接收到这样的电子邮件时,CPU21将附加文件的内容作为HV歌声数据来解释,根据由用户的再现指示,将该HV歌声数据向音源25发送。

此外,不必一定要将HV歌声播放器1a及HV驱动器2a的功能装载在CPU21(或者CPU21执行的程序等)中。这种情况下,可以使CPU21与音源25共有上述的功能,或者也可以使音源25装载任意的上述功能。另外,与本发明相关的歌声生成装置的适用对象并不局限于便携式电话机,对前述的PHS或PDA等各种的便携终端中也可以装载歌声生成装置的功能。

另外,也可以将具体化图1所示的HV歌声播放器1a及HV驱动器2a、以及图7所示的控制单元1b的功能的程序读入到可语音合成的计算机系统中执行,从而实现利用HV-Script的歌声生成。

并且,上述的“计算机系统”不仅意味着装载有微处理器的计算机装置主体的硬件,也意味着包括OS(Operating System;操作系统)等的软件或周边仪器等的硬件的广义的概念。

此外,也可以将上述程序存储在计算机系统的存储装置等中,在读出之后,经由规定的传送媒体传送到其它计算机系统。这里,作为用于传送程序的传送媒体,指的是互联网等的网络(通信网)或电话线路等的通信线路那样的、具有传送信息的功能的媒体。甚至,不限于有线的,也可以通过无线通信来传送程序。

上述程序不需要是全部实现歌声生成装置的主要功能的程序,也可以是只实现其中一部分的功能的程序。此外,上述的程序也可以是,通过与计算机系统中已经装入的既存的程序之间的组合来实现歌声生成装置的功能的、所谓的差分程序(或差分文件)的形式的程序。

如上所述,参照附图对本发明的实施例进行了说明,但本发明的构成以及动作并不局限于本实施例,还包括不超出本发明要旨的范围内的变更。例如,如下的变更也是可能的。

(1)对于音符的输入,也可以输入所希望的乐曲数据(MIDI数据等),从中抽出与音符和音高相关的信息。例如,在由包含曲调的多个部分构成乐曲的情况下,也可以从该曲调·部分中选择性地抽出音符信息。

(2)再现歌声的情况下,也可以通过伴奏部分也同时再现,实现带有伴奏的歌声再现。如上述(1)中所述的那样输入乐曲数据时,也可以只对该曲调·部分进行消音,并将残留的部分与歌声同时再现。

(3)上述的实施例中,虽然按每一个歌声用HV-Script数据来准备,但也可以只针对特定的音速来准备歌声用HV-Script数据,并存储在HV歌声数据库中。此时,对于其它音速,可以根据与特定的音速相关的歌声用HV-Script数据来自动生成。另外,上述的实施例中说明了音速=120的歌声用HV-Script数据,此时,四分音符的音长为0.5秒,此外,音速=60的情况下,四分音符的音长变成1秒。即,音速变成一半时,发音时间变成两倍。

(4)另外,歌声用HV-Script数据根据其记述内容唯一地决定发音时间,因此在根据音速=120的歌声用HV-Script数据来生成音速=60的歌声用HV-Script数据时,发音时间变成2倍,因此要么变更控制符号“S**”的数值(**),要么添加长音“—”。由此,可以自动生成音速=60时的四分音符所对应的歌声用HV-Script数据。可以另外规定这样的相应于音速的比来变更发音的时间长度用的歌声用HV-Script记述变更规则。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号