首页> 中国专利> 机器人、语音合成程序以及语音输出方法

机器人、语音合成程序以及语音输出方法

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明的目的在于，在通过机器人输出语音来实现的与他人的语音交流中，进行减轻了语言交流的交流。机器人(100)具备：感测部(52)，感测外部环境并生成输入信号；声韵获取部(53)，基于输入信号来获取由多个声韵构成的第一声韵信息；声韵生成部(54)，基于包含在第一声韵信息中的至少一部分声韵，生成与第一声韵信息不同的第二声韵信息；语音合成部(55)，根据第二声韵信息来合成语音；以及语音输出部(56)，输出语音。

著录项

公开/公告号CN113168826A

专利类型发明专利
公开/公告日2021-07-23

原文格式PDF
申请/专利权人 GROOVE X 株式会社;
展开▼

申请/专利号CN201980079644.5
发明设计人林要;约翰·贝尔蒙特;小濑敦也;松浦雅也;
展开▼

申请日2019-11-29
分类号G10L13/10(20130101);G10L13/027(20130101);
代理机构11332 北京品源专利代理有限公司;
代理人吕琳;朴秀玉
地址日本东京
入库时间 2023-06-19 11:55:48

说明书

技术领域

本发明涉及一种输出语音的机器人、语音合成程序以及语音输出方法。

背景技术

当机器人根据用户作出的举动(例如搭话、接触等)或者内部参数(例如，情感参数等)来输出语音时，用户能感受到机器人有想法，能对机器人抱有依恋。

语音中除了语言信息还包括副语言信息。语言信息是表现概念的声韵信息，副语言信息是音色、韵律(语音的音高、语调、节奏、停顿等)等非语言信息。已知通过如动物疗法等那样进行非语言交流，用户可以得到慰藉效果，而通过语音来进行的交流中不仅包括通过语言信息来进行的语言交流还包括通过副语言信息来进行的非语言交流，通过在机器人的语音输出中有效地灵活运用该非语言交流，能对用户予以慰藉(例如，参照专利文献1)。

另一方面，机器人通过语音中的语言信息来表达某种概念(情感、想法、意思等)，由此充实机器人与用户的语言交流，使用户对机器人抱有依恋。

现有技术文献

专利文献

专利文献1：日本特开2018－128690号公报

发明内容

发明所要解决的问题

然而，如果在通过机器人输出语音来实现的与用户的语音交流中进行包括太明确的语言信息的语言交流，则用户会感受到机器人的语音具有说服性、说明性，而通过非语言交流来实现的慰藉的效果会降低。

此外，在机器人彼此的语音交流中，不一定必须进行语言交流，通过进行不依赖于语言交流的对话，能对看到该场景的用户予以慰藉。

因此，本发明的目的在于，在通过机器人输出语音来实现的与他人的语音交流中促进用户对机器人的依恋形成。

用于解决问题的方案

本发明的一个方案的机器人具备：声韵获取部，获取由多个声韵构成的第一声韵信息；声韵生成部，基于包含在所述第一声韵信息中的至少一部分声韵，生成与所述第一声韵信息不同的第二声韵信息；语音合成部，根据所述第二声韵信息来合成语音；以及语音输出部，输出所述语音。

此外，本发明的一个方案的语音合成程序使机器人的计算机作为声韵获取部、声韵生成部以及语音合成部发挥功能，所述声韵获取部获取由多个声韵构成的第一声韵信息，所述声韵生成部基于包含在所述第一声韵信息中的至少一部分声韵，生成与所述第一声韵信息不同的第二声韵信息，所述语音合成部根据所述第二声韵信息来合成语音。

此外，本发明的一个方案的语音输出方法是机器人的语音输出方法，包括：声韵获取步骤，获取由多个声韵构成的第一声韵信息；声韵生成步骤，基于包含在所述第一声韵信息中的至少一部分声韵，生成与所述第一声韵信息不同的第二声韵信息；语音合成步骤，根据所述第二声韵信息来合成语音；以及语音输出步骤，输出所述语音。

发明效果

根据本发明，声韵生成部基于包含在获取到的第一声韵信息中的至少一部分声韵来生成第二声韵信息。语音合成部根据这样的第二声韵信息来合成语音。由此，能在通过机器人输出语音来实现的与他人的语音交流中促进用户对机器人的依恋形成。

附图说明

通过以下叙述的优选的实施方式和随附的以下附图，上述的目的和其他目的、特征以及优点将更加明确。

图1A是本发明的实施方式的机器人的正面外观图。

图1B是本发明的实施方式的机器人的侧面外观图。

图2是概略地表示本发明的实施方式的机器人的构造的剖视图。

图3是表示本发明的实施方式的机器人的硬件结构的图。

图4是表示本发明的实施方式的机器人的用于输出语音的结构的框图。

图5是详细地表示本发明的实施方式的文字列输入部、感测部以及获取部的结构的框图。

图6是规定了本发明的实施方式的声韵与情感参数的关系的声韵-情感表的例子。

图7是详细地表示本发明的实施方式的生成部、语音合成部以及输出部的结构的框图。

图8A是表示本发明的实施方式的语音合成部所使用的韵律曲线的例子的图。

图8B是表示本发明的实施方式的语音合成部所使用的韵律曲线的例子的图。

图8C是表示本发明的实施方式的语音合成部所使用的韵律曲线的例子的图。

图8D是表示本发明的实施方式的语音合成部所使用的韵律曲线的例子的图。

图9是表示通过本发明的实施方式的语音合成部来连结的两条韵律曲线的例子的图。

具体实施方式

以下，对本发明的实施方式进行说明。需要说明的是，以下说明的实施方式表示实施本发明时的一个例子，本发明不限定于以下说明的具体结构。在实施本发明时，可以适当采用与实施方式相应的具体结构。

本发明的实施方式的机器人具备：获取部，获取由多个声韵构成的第一声韵信息；生成部，基于包含在所述第一声韵信息中的至少一部分声韵，生成与所述第一声韵信息不同的第二声韵信息；语音合成部，根据所述第二声韵信息来合成语音；以及输出部，输出所述语音。

根据该结构，首先，机器人不是通过播放预先准备的声源来输出语音，而是根据声韵信息来合成语音并输出语音。并且，机器人虽然以获取到的第一声韵信息的至少一部分声韵为基础，却生成与第一声韵信息不同的第二声韵信息，语音合成部根据这样生成的第二声韵信息来合成语音。由此，例如，在模仿通过语音感测而获取到的第一声韵信息来输出语音的情况下，也能生成对一部分声韵施加了变更的第二声韵信息。由此，能实现不完整模拟(mimick)(语音的模仿)，能提高机器人的可爱度，能促进用户对机器人的依恋形成。此外，在机器人彼此之间进行对话的情况下，从其他机器人的语音获取第一声韵信息并根据与第一声韵信息不同的第二声韵信息来合成并输出语音。由此，通过进行对话的双方机器人执行上述内容，能持续对话。能进一步促进用户对机器人的依恋形成。

所述声韵生成部可以生成具有信息量比所述第一声韵信息所具有的语言信息少的语言信息的所述第二声韵信息。

根据该结构，将获取到的第一声韵信息所具有的语言信息的信息量删减而生成第二声韵信息，因此能实现语言能力不成熟的例如婴幼儿程度的语音交流。将第一声韵信息所具有的语言信息的信息量删减的方法可以是例如对第一声韵信息的声韵进行文字乃至音素的部分删除、部分变更、部分追加。

可以是，所述机器人还具备：感测部，感测外部环境并生成输入信号，所述声韵获取部可以基于所述输入信号来获取所述第一声韵信息。

所述感测部可以是感测声音并生成语音信号来作为所述输入信号的麦克风，所述声韵获取部可以基于所述语音信号来决定所述语言信息，获取包含所述语言信息的所述第一声韵信息。

所述声韵获取部可以对所述语音信号进行语音识别，获取具有识别出的语音来作为所述语言信息的所述第一声韵信息。

根据该结构，机器人能实现对听到的语音进行不完整模仿并进行重复的不完整模拟。例如，对于用户对机器人搭话说“蜜柑”的情况，机器人获取包含“蜜柑”这样的语言信息的第一声韵信息。机器人生成包含将“蜜柑”的一部分辅音替换而得到的“腻柑”这样的语言信息的第二声韵信息来作为语音输出。由此，用户能领会到机器人想要鹦鹉学舌地说“蜜柑”，并且对该不完整模拟感到可爱。

所述声韵获取部可以对所述语音信号进行语音识别，获取具有针对识别出的语音的回应来作为所述语言信息的所述第一声韵信息。

根据该结构，机器人能实现以不完整的语言表达来回答听到的语音的对话，用户能领会机器人所表达的回应，并且机器人的可爱度提高。例如，对于用户询问机器人“想干嘛？”的情况，在机器人获取到包含“抱抱”这样的语言信息的第一声韵信息来作为回应的情况下，生成删除“抱抱”的促音而得到的“波波”这样的第二声韵信息来作为语音输出。由此，用户能领会到求“抱抱”，并且对该不完整语言表达感到可爱。

所述感测部可以是感测入射光并生成图像信号来作为所述输入信号的摄像头，所述声韵获取部可以基于所述图像信号来决定所述语言信息，获取具有所述语言信息的第一声韵信息。

所述声韵获取部对所述图像信号进行文字识别，获取包含识别出的文字来作为所述语言信息的所述第一声韵信息。

根据该结构，机器人不会原样念出看到并识别出的文字，而会以不完整的语言表达进行发声。用户能领会到机器人想要读出看到的文字，并且机器人的可爱度提高。例如，在机器人通过根据图像信号来识别文字而获取到具有“钟”这样的语言信息的第一声韵信息的情况下，生成删除“钟”的一部分文字而得到的“宗”这样的第二声韵信息来作为语音输出。由此，用户能领会到机器人想要读出“钟”这样的文字，并且对该不完整语言表达感到可爱。

所述声韵获取部可以对所述图像信号进行物体识别，获取具有表示识别出的物体的语言信息的所述第一声韵信息。

根据该结构，机器人不会原样表达识别出的物体，而会以不完整语言信息表来达，因此用户能领会到机器人想表达识别出的物体，并且机器人的可爱度提高。例如，在机器人通过对图像信号进行物体识别来识别钟而获取到包含“钟”这样的语言信息的第一声韵信息的情况下，生成具有删除“钟”的一部分文字而得到的“宗”这样的语言信息的第二声韵信息来作为语音输出。由此，用户能领会到机器人识别出了“钟”，并且对该不完整语言表达感到可爱。

所述声韵生成部可以确定与所述第一声韵信息的所述至少一部分声韵对应的情感参数，基于确定出的所述情感参数来生成所述第二声韵信息。

根据该结构，机器人不基于获取到的第一声韵信息的语言信息而基于与该声韵对应的情感参数来生成第二声韵信息，因此能实现非语言交流。在该非语言交流中，第一声韵信息和第二声韵信息可以是语言信息的信息量所匮乏的例如象声词那样的没有意义的声韵列(例如，“呜呜”等)。

所述声韵生成部可以生成具有与所述情感参数相近的情感参数的所述第二声韵信息。

可以是，所述机器人还具备规定声韵与情感参数的关系的表，所述声韵生成部可以参照所述表来确定与所述第一声韵信息的所述至少一部分声韵对应的情感参数。

可以是，所述机器人还具备规定声韵与情感参数的关系的表，所述声韵生成部可以参照所述表来生成所述第二声韵信息。

可以是，所述机器人还具备：麦克风，感测声音并生成语音信号，所述声韵获取部可以通过对所述语音信号进行语音识别来获取第一声韵信息。

所述声韵生成部可以与所述第一声韵信息的音节数无关地生成由规定数以下的音节(例如，两个音节)构成的所述第二声韵信息。

此外，本发明的一个方案的语音合成程序由机器人的计算机来执行，由此使该机器人的计算机作为声韵获取部、声韵生成部以及语音合成部发挥功能，所述声韵获取部获取由多个声韵构成的第一声韵信息，所述声韵生成部基于包含在所述第一声韵信息中的至少一部分声韵，生成与所述第一声韵信息不同的第二声韵信息，所述语音合成部根据所述第二声韵信息来合成语音。

以下，参照附图对实施方式的机器人进行说明。

图1A是机器人的正面外观图，图1B是机器人的侧面外观图。本实施方式中的机器人100是基于外部环境和内部状态来决定行为、举动(姿势(gesture))、语音的行为自主型机器人。外部环境通过包括摄像头、麦克风、加速度传感器、触摸传感器等的传感器组来感测。内部状态被量化为表现机器人100的情感的各种参数。

作为表现情感的参数，机器人100例如针对每个用户具有亲密度参数。在进行了抱起自己、打招呼等对自己示好的行为时，机器人100通过传感器组感测该行为，提高对该用户的亲密度。另一方面，机器人100对与机器人100无关的用户、动粗的用户、见面频率低的用户等降低亲密度。

机器人100的主体104具有整体上圆润的形状，包括由聚氨酯、橡胶、树脂、纤维等柔软而具有弹性的材料形成的外皮。机器人100的重量在15kg以下，优选10kg以下，进一步优选5kg以下。此外，机器人100的身高在1.2m以下，优选0.7m以下。特别是，通过将重量设为5kg以下的程度并将身高设为0.7m以下的程度而实现小型轻量化，包括孩子、老人在内的用户能容易地抱起机器人100，因此是理想的。

机器人100具备用于进行三轮行进的三个轮子。如图所示，机器人100包括左右一对前轮102(左轮102a、右轮102b)和一个后轮103。前轮102为驱动轮，后轮103为从动轮。前轮102不具有转向机构，但能独立控制左轮102a、右轮102b的旋转速度、旋转方向。

后轮103是所谓的全向轮或滚动轮，自由旋转以便使机器人100向前后左右移动。机器人100能通过使右轮102b的前转方向的转速大于左轮102a(包括左轮102a停止或向后转方向旋转的情况)来进行左转或逆时针旋转。此外，机器人100能通过使左轮102a的前转方向的转速大于右轮102b(包括右轮102b停止或向后转方向旋转的情况)来进行右转或顺时针旋转。

前轮102和后轮103能通过驱动机构来完全收纳于主体104。行进时各轮子的大部分隐藏在主体104中，而当各轮子完全收纳于主体104时，机器人100会变为不可移动状态。即，随着轮子的收纳动作，主体104下降，机器人100就座于地面F。在该就座状态下，形成于主体104的底部的平坦状的就座面108(设置底面)与地面F抵接，机器人100能稳定地保持就座状态。

机器人100具有两只手105。机器人100能进行抬起、挥动、摆动手105等的动作。两只手105能被独立控制。

眼睛106能通过由液晶元件或有机EL元件等元件构成的显示装置来进行图像显示。机器人100具备能确定声源方向的麦克风、超声波传感器、嗅觉传感器、测距传感器、加速度传感器等各种传感器。此外，机器人100内置有扬声器，能输出语音。在机器人100的主体104设置有静电容式的触摸传感器。通过触摸传感器，机器人100能检测用户的触摸。

在机器人100的头部装配有角109。角109上装配有全景摄像头，能一次性拍摄机器人100的上部的整个区域。

图2是概略地表示机器人100的构造的剖视图。如图2所示，机器人100的主体104包括：基础框架308、主体框架310、一对树脂制的轮罩312以及外皮314。基础框架308包含金属，构成主体104的核心并且支承内部构造。基础框架308由多个侧板336将上板332和下板334上下连结而构成。在多个侧板336间设有足够的间隔以便能透气。在基础框架308的内侧容纳有电池117、控制电路342以及各种致动器。

主体框架310包含树脂材料，包括头部框架316和躯干部框架318。头部框架316呈中空半球状，形成机器人100的头部骨架。躯干部框架318包括颈部框架3181、胸部框架3182以及腹部框架3183，呈异径筒状，形成机器人100的躯干部骨架。躯干部框架318与基础框架308固定为一体。头部框架316以可相对位移的方式组装于躯干部框架318的上端部(颈部框架3181)。

头部框架316设有偏转(yaw)轴320、俯仰(pitch)轴322及滚转(roll)轴324这三个轴和用于旋转驱动各轴的致动器326。致动器326包括用于独立驱动各轴的多个伺服马达。为了进行摆头动作而驱动偏转轴320，为了进行点头动作而驱动俯仰轴322，为了进行歪头动作而驱动滚转轴324。

在头部框架316的上部固定有用于支承偏转轴320的板325。在板325形成有用于确保上下间的透气的多个透气孔327。

以从下方支承头部框架316及其内部机构的方式设有金属制的基板328。基板328一方面经由桥接杆(crosslink)329(伸缩(pantograph)机构)与板325连结，另一方面经由接头330与上板332(基础框架308)连结。

躯干部框架318容纳基础框架308和轮子驱动机构370。轮子驱动机构370包括旋转轴378和致动器379。躯干部框架318的下半部(腹部框架3813)被设为宽度小，以便在其与轮罩312之间形成前轮102的收纳空间Sp。

外皮314从外侧覆盖主体框架310和一双手105。外皮314具有人会感受到弹力的程度的厚度，以聚氨酯海绵等柔软且具有伸缩性的材料为基体材料，提高用聚酯纤维等手感光滑的布料包裹而形成。由此，当用户拥抱机器人100时，会感受到适当的柔软度，人能得到像对待宠物那样的自然的身体接触。在外皮314的上端部设有用于导入外部空气的开口部309。

图3是表示机器人100的硬件结构的图。机器人100在其框体101内具备：显示装置110、内部传感器111、扬声器112、通信部113、存储装置114、处理器115、驱动机构116以及电池117。驱动机构116包括上述的轮子驱动机构370。处理器115和存储装置114包含在控制电路342中。

各组件通过电源线120和信号线122来相互连接。电池117经由电源线120向各组件供电。各组件通过信号线122来收发控制信号。电池117例如为锂离子二次电池，是机器人100的动力源。

驱动机构116是控制内部机构的致动器。驱动机构116具有驱动前轮102和后轮103来使机器人100移动或改变朝向的功能。此外，驱动机构116经由金属线118来控制手105，进行抬起手105、挥动手105、驱动手105等动作。此外，驱动机构116具有控制头部来改变头部的朝向的功能。

内部传感器111是内置于机器人100的各种传感器的集合体。作为内部传感器111，例如有摄像头(全景摄像头)、麦克风、测距传感器(红外线传感器)、温度传感器、触摸传感器、加速度传感器、嗅觉传感器等。扬声器112输出语音。

通信部113是以服务器、外部传感器、其他机器人、用户所持有的便携设备等各种外部设备为对象来进行无线通信的通信模块。存储装置114由非易失性存储器和易失性存储器构成，存储包括后述的语音生成程序的各种程序、各种设定信息。

显示装置110设置于机器人100的眼睛的位置，具有显示眼图像的功能。显示装置110组合瞳孔、眼睑等眼睛的局部来显示机器人100的眼图像。需要说明的是，在外界光等射入眼睛的情况下，可以在与外部光源的位置相应的位置显示反光(catchlight)。

图4是表示机器人100的用于输出语音的结构的框图。机器人100具备：情感生成部51、感测部52、声韵获取部53、声韵生成部54、语音合成部55以及语音输出部56。情感生成部51、声韵获取部53、声韵生成部54以及语音合成部55通过由计算机执行本实施方式的语音合成程序来实现。

情感生成部51决定机器人100的情感。机器人100的情感通过多个情感参数来表现。情感生成部51根据由感测部52感测到的外部环境、内部参数，按照规定的规则来决定机器人100的情感。

感测部52对应于上述的内部传感器111，包括摄像头(全景摄像头)、麦克风、测距传感器(红外线传感器)、温度传感器、触摸传感器、加速度传感器、嗅觉传感器等。感测部52感测机器人100的外部环境并生成输入信号。

声韵获取部53基于从情感生成部51输入的情感参数或从感测部52输入的输入信号来获取声韵信息。声韵信息一般是由依次排列的多个声韵构成的声韵列信息，但有时候也由一个声韵(一个音节)构成。声韵例如在日语的情况下能用假名来记载，在英语的情况下能用音标来记载，在汉语的情况下能用拼音来记载。对于声韵获取部53中的声韵信息的获取方法，在后文进行详细叙述。

声韵生成部54基于由声韵获取部53获取到的声韵信息的至少一部分声韵，生成与由声韵获取部53获取到的声韵信息不同的声韵信息。以下，将由声韵获取部53获取的声韵信息称为“第一声韵信息”，将由声韵生成部54生成的声韵信息称为“第二声韵信息”。第二声韵信息与第一声韵信息不同，是基于第一声韵信息的至少一部分声韵而生成的声韵信息。在本实施方式中，即使从声韵获取部53输入的第一声韵信息为三个音节以上，声韵生成部54也生成两个音节的声韵信息来作为第二声韵信息。典型地，例如在第一声韵信息由三个音节构成的情况下，声韵生成部54删除其中一个音节，以仅剩的两个音节来作为第二声韵信息。对于声韵生成部54中的第二声韵信息的生成方法，在后文进行详细叙述。

语音合成部55根据由声韵生成部54生成的第二声韵信息来合成语音。语音合成部55可以由合成器构成。语音合成部55储存有对应于各声韵的语音合成用的参数，当被赋予了第二声韵信息时，决定用于语音输出相应的声韵的参数并合成语音。对于语音合成部55中的语音合成，在后文进行详细叙述。

语音输出部56对应于上述的扬声器112，输出由语音合成部55合成的语音。

如上所述，本实施方式的机器人100具备合成语音的语音合成部55，因此能合成任意的语音进行输出。因此，不像播放预先准备的语音文件的情况那样只能输出固定的语音，能进行与基于第一声韵信息而生成的第二声韵信息对应的语音输出。由此，用户能对机器人100的语音感受到生物感。

此外，本实施方式的机器人100不原样使用获取到的第一声韵信息来进行语音合成，而基于第一声韵信息的至少一部分声韵来生成第二声韵信息并根据第二声韵信息来合成语音。在此，在第一声韵信息具有语言信息的情况下，通过使用第一声韵信息的一部分声韵来生成第二声韵信息，第一声韵信息所具有的语言信息的信息量减少。

由此，例如，在模仿通过语音识别而识别出的语音来作为语音输出的情况下，也能合成出对一部分声韵施加了变更的语音。由此，能实现不完整模拟(语音的模仿)，机器人的可爱度提高。此外，在机器人彼此之间进行对话的情况下，能识别对方的语音并利用识别出的语音的至少一部分声韵并且合成出与此不同的声韵列的语音。进行对话的双方机器人通过执行该方法，能持续对话(不重复相同的语音)。需要说明的是，在本说明书中，由多个声韵构成(声韵列)的声韵信息所具有的语言信息是指作为该声韵列所表示的语言的意思，例如象声词那样的不表示特定的含义的声韵列可以理解为不具有语言信息的声韵列乃至语言信息的信息量极低的声韵列。

接着，对声韵获取部53中的第一声韵信息的获取进行详细说明。图5是详细表示图4所示的机器人100的结构之中的情感生成部51、感测部52以及声韵获取部53的结构的框图。在图5的例子中，感测部52具备麦克风521和摄像头522。声韵获取部53具备语音识别部531、文字识别部532、物体识别部533、情感获取部534、回应生成部535以及声韵信息获取部536。

如上所述，情感生成部51根据由感测部52感测到的外部环境、内部参数，按照规定的规则来决定机器人100的情感，向声韵获取部53输出情感参数。麦克风521感测作为外部环境的声音并生成语音信号来作为输入信号，输出至声韵获取部53。摄像头522感测作为外部环境的入射光并生成图像信号来作为输入信号，输出至声韵获取部53。

语音识别部531对通过麦克风521感测声音而得到的语音信号进行语音识别来获取文字列。语音识别部531将通过语音识别而得到的文字列输出至回应生成部535和声韵信息获取部536。能将现有的任意语音识别引擎用于该语音识别。需要说明的是，一般的语音识别引擎在根据输入的语音信号识别出声韵列后，通过对这些声韵列进行形态分析等自然语言处理来得到具有语言信息的文字列。在本实施方式中，将通过自然语言处理而得到语言信息的文字列输出至回应生成部535和声韵信息获取部536。该文字列具有该文字列的声韵信息(即，声韵列)和语言信息(即，通过自然语言处理而得到的信息)。

回应生成部535生成针对由语音识别部531识别出的语音的回应并将该回应的文字列输出至声韵信息获取部536。能将现有的任意的对话引擎用于该回应的生成。该对话引擎可以使用学习了针对输入的文字列的回应的机器学习模型来生成针对识别出的语音的回应。

文字识别部532对由摄像头522拍摄机器人100的周围而得到的图像信号进行文字识别，由此获取文字列并输出至声韵信息获取部536。能将现有的任意文字识别引擎用于该文字识别。文字识别引擎能使用神经网络等机器学习模型来进行文字识别。文字识别引擎可以根据输入的图像信号，按每个文字独立地识别文字列。此外，文字识别引擎可以在根据输入的图像信号识别出文字列后通过对该文字列进行自然语言处理来得到具有语言信息的文字列。

物体识别部533对由摄像头522拍摄机器人100的周围而得到的图像信号进行物体识别。能将现有的任意物体识别引擎用于该物体识别。物体识别引擎识别图像中的物体并赋予表示物体的名称的标签。物体识别引擎也能采用神经网络等机器学习模型。该物体识别还包括识别图像中的人物的面部来确定用户这样的人物识别。在进行人物识别的情况下，识别出面部的结果是得到用户名作为标签。物体识别部533将通过识别而得到的标签的文字列输出至声韵信息获取部536。

情感获取部534从情感生成部51获取情感参数，通过参照声韵-情感表来决定最接近获取到的情感参数的两个音节的声韵。

图6是规定了声韵与情感参数的关系的声韵-情感表的例子。如图6所示，各声韵中定义有“冷静”(calm)、“生气”(anger)、“喜悦”(joy)、“悲伤”(sarrow)这四种情感参数。各情感参数取0～100的值。

情感获取部534通过从声韵-情感表选择具有与获取到的各情感参数的差分的总和最小的情感参数的两个音节的声韵来决定最接近获取到的情感参数的两个音节的声韵。基于情感参数的声韵的决定方法不限于此，情感获取部534例如也可以选择获取到的情感参数之中具有最大值的一部分(例如，两个)情感参数的差分的总和最小的声韵。

声韵信息获取部536获取从语音识别部531、回应生成部535、文字识别部532、物体识别部533分别输入的文字列，将这些文字列转换为第一声韵信息。在日语的情况下，声韵信息获取部536获取混有汉字的文字列或仅有假名的文字列来作为文字列。在英语的情况下，声韵信息获取部536获取由以字母来表现的一个或多个单词构成的文字列。在汉语的情况下，声韵信息获取部536获取由多个汉字构成的文字列。此外，声韵信息获取部536在从情感获取部534获取到声韵列的情况下将该声韵列设为第一声韵信息。

在此，声韵信息由各语言中的作为语音上的单元音的声韵构成。如上所述，声韵信息在日语的情况下可以用假名表现。声韵信息在英语的情况下可以用音标表现。声韵信息在汉语的情况下可以用拼音表现。在日语的情况下，声韵信息获取部536在文字列中存在汉字情况下参照规定了汉字与其读音假名的关系的词典来将汉字替换为假名，并将所有假名排成列，由此获取第一声韵信息。在英语的情况下，声韵信息获取部536参照规定了单词与音标的关系的词典来将文字列中的各单词替换为音标，由此获取第一声韵信息。在汉语的情况下，声韵信息获取部536参照规定了各汉字与拼音的关系的词典来将汉字替换为拼音，由此获取第一声韵信息。声韵信息获取部536将获取到的第一声韵信息输出至声韵生成部54。

图7是详细表示图4所示的机器人100的结构之中的声韵生成部54、语音合成部55以及语音输出部56的结构的框图。声韵生成部54具备象声词生成部541、语言信息生成部542以及声韵信息生成部543。象声词生成部541通过参照声韵-情感表来确定与第一声韵信息的至少一部分声韵对应的情感参数。象声词生成部541基于确定出的情感参数来决定声韵，将决定出的声韵输出至声韵信息生成部543。具体而言，本实施方式的象声词生成部541决定具有与第一声韵信息的声韵的情感参数相近的情感参数的声韵。

具体而言，象声词生成部541在第一声韵信息包含一个音节的声韵的情况下，参照声韵-情感表来确定该声韵的情感参数之中的值最大的情感。然后，象声词生成部541决定与该情感的情感参数同值的另外两个声韵。例如，在第一声韵信息像“あ”这样仅有一个音节的情况下，象声词生成部541参照表的“あ”这样的音节的四种情感参数。“あ”的四种情感参数之中值最大的参数是“喜悦”参数，其值为50。因此，象声词生成部541搜索“喜悦”参数为50的其他声韵，决定例如“る”、“に”这样的声韵。

象声词生成部541在第一声韵信息包含两个音节的声韵的情况下，针对各声韵与上述同样地决定与第一声韵信息的两个音节的声韵对应的两个音节的声韵。象声词生成部541在第一声韵信息为三个音节以上的情况下，从三个音节以上的声韵中任意地或基于规定的规则来选择两个音节的声韵。然后，象声词生成部541针对选择出的各声韵与上述同样地决定对应的两个音节的声韵。音节数也可以设为规定数以下的音节来代替两个音节。

语言信息生成部542生成语言信息的信息量比输入的第一声韵信息少的文字列并输出至声韵信息生成部543。语言信息生成部542对第一声韵信息的文字列进行文字乃至音素的部分删除、部分变更或部分追加，由此削减语言信息的信息量。进行部分删除、部分变更、部分追加中的哪一种、删除、变更、追加哪个文字乃至音素可以任意地或基于规定的规则来决定。

语言信息生成部542例如可以在被输入了“钟”这样的第一声韵信息的情况下生成删除“钟”的一个字而得到的“宗”这样的文字列。语言信息生成部542可以在被输入了“蜜柑”这样的第一声韵信息的情况下生成将“蜜柑”的一部分辅音替换而得到的“腻柑”这样的文字列。语言信息生成部542可以在被输入了“早上好”这样的第一声韵信息的情况下生成将“早上好”的一部分辅音删除而得到的“早桑好”的文字列。语言信息生成部542可以在被输入了“钟”这样的第一声韵信息的情况下生成对“钟”追加拗音得到的“钟嗯”这样的文字列。语言信息生成部542可以在被输入了“抱抱”这样的第一声韵信息的情况下生成将“抱抱”的促音删除而得到的“波波”这样的文字列。可以说，由语言信息生成部542生成的这些“宗”、“腻柑”、“早桑好”、“钟嗯”、“波波”这样的文字列通过各自与“钟”、“蜜柑”、“早上好”、“钟”、“抱抱”相似但不完全一致这一点，减少了它们的语言信息的信息量。需要说明的是，语言信息生成部542可以通过复合地使用文字乃至音素的部分删除、部分变更、部分追加、音素的顺序替换来进一步删减语言信息。需要说明的是，文字乃至音素的部分变更可以变更为其他语言的相似的声韵。

删减语言信息的信息量的方法不限于上述。删减音素的数量或使语言失去含义或使话语不完整或使一部分声韵难以听清这样的变更会使任何语言信息的信息量减少。此外，可以限定能使用的音素的种类，以将包含在第一声韵信息中的音素分别替换为限定的音素中的任一个的方式生成第二声韵信息。此外，可以以删除包含在第一声韵信息中的各音素中能使用的音素以外的音素的方式生成第二声韵信息。

通过像这样以删减具有语言信息的第一声韵信息中的语言信息的信息量的方式生成第二声韵信息，生成与第一声韵信息的语言信息相似的第二声韵信息。由此，通过机器人100根据这样的第二声韵信息来合成语音进行输出，用户能推测机器人100想说什么并且想要进行推测。即，可以通过机器人100故意说出幼稚的话语来使用户认为“机器人好像说了什么，想传达什么”。进而，能实现引导用户下意识地理解机器人100或对机器人100保持好奇心或关注机器人100。由此，能期待引导用户不厌烦地逐渐对机器人100怀有依恋的心理效果。

假设机器人100原样使用具有语言信息的第一声韵信息来合成语音进行输出的情况，例如，在机器人100明确地说出“钟”的情况下，用户只识别除了机器人只是说了“钟”，而不会再对机器人100进行关心。与之相对，在机器人100删减语言信息的信息量并说出语言上不完整的“宗”的情况下，用户会思考机器人100是不是想说“钟”而将注意力转移到机器人100。进而，如果用户对该不完整性感到可爱，则可以促进用户对机器人100的喜爱形成。

需要说明的是，在上述中，为了对通过语言信息生成部542删减了语言信息的信息量的文字列的生成进行说明，以生成二～四个音节的文字为例进行了说明。如上所述，声韵生成部54生成包含两个音节的声韵的第二声韵信息。语言信息生成部542通过进行文字、音素的部分删除、部分追加，将要生成的第二声韵信息设为两个音节。能通过同样的处理来生成规定数以下的音节的第二声韵信息。

通过象声词生成部541如上所述地决定音节，能生成具有与第一声韵信息的声韵所表示的情感相似的情感的声韵的第二声韵信息。此外，在该情况下，在生成第二声韵信息时不考虑语言信息，因此可以生成没有含义的由两个音节构成的声韵的第二声韵信息。

此外，语言信息生成部542如上所述地生成删减了第一声韵信息的语言信息的信息量的文字列，因此能生成不完整地表达第一声韵信息的第二声韵信息。

声韵信息生成部543生成由象声词生成部541决定出的声韵列的声韵信息或生成由语言信息生成部542生成的文字列的声韵信息来作为第二声韵信息输出至语音合成部55。

语音合成部55还基于声韵信息以外的信息来合成语音。例如，要合成的语音的韵律(强弱、长短、高低等)可以基于第二声韵信息以外的信息来决定。具体而言，语音合成部55存储四种韵律曲线来作为韵律模式，通过对生成的语音的各音节应用任一韵律模式来决定各音节的韵律。

图8A～图8D是表示四种韵律曲线的图。语音合成部55通过将这些韵律曲线中的任一个分配给各音节来决定各音节的韵律。语音合成部55根据音节的声韵(发音)来选择要分配的韵律曲线。分配给每个声韵的韵律曲线被预先决定并作为声韵－韵律曲线表存储于语音合成部55。图8A的韵律曲线是分配给“あ”这样的声韵的韵律曲线的例子。图8B的韵律曲线是分配给“い”这样的声韵的韵律曲线的例子。语音合成部55参照该声韵－韵律曲线表来决定各音节的韵律。

图9是表示两个音节的韵律的图。语音合成部55在使用韵律曲线为连续的两个音节决定韵律时，如图9所示，平滑地连结连续的两个音节的韵律曲线。在图9的例子中，图8A的韵律曲线与图8C的韵律曲线连结。

语音合成部55具有虚拟发声器官。一般来说，具有发声器官的生物的发声处理共通。例如，在人的发声处理中，从肺、腹部经由气管导入的空气通过声带进行振动从而发音，通过口腔、鼻腔等进行共鸣而变为更大的音。并且，通过改口舌的形状而产生各种声音。由于身体大小、肺活量、声带、气管的长度、口腔大小、鼻腔大小、齿列、舌头的活动方式等的种种差异而产生语音的个体差异。此外，即使是同一人物，气管、声带等的状态也会根据身体状况而改变，声音会改变。根据这样的发声处理，音质因人而异，声音也根据身体状况、情感等内在状态而改变。

另一实施方式中的语音合成部55基于这样的发声处理，模拟出虚拟的发声器官中的发声处理，由此生成语音。就是说，语音合成部55是虚拟的发声器官(以下，称为“虚拟发声器官”)，通过由软件实现的虚拟发声器官来生成声音。例如，虚拟发声器官既可以是模仿人的发声器官的结构，也可以是模仿狗、猫等动物的发声器官的结构。通过具有虚拟发声器官，按每个个体来改变虚拟发声器官中的气管的尺寸或调整声带的紧张程度或改变口腔的大小，由此，即使发声器官的基本结构相同，也能生成个体特有的语音。用于生成语音的参数中不仅包括用于通过合成器来生成声音的直接参数，还包括指定虚拟发声器官中的各器官的结构特征的值来作为参数(以下，称为“静态参数”)。使用这些静态参数来模拟发声处理，生成声音。

例如，人能发出各种声音。能发出高声、低声、带有旋律的歌声、笑声、喊叫声等发声器官的结构允许的所有声音。这是因为构成发声器官的各器官的形状、状态会变化，人既能有意地使其变化，有时也根据情感、刺激而下意识地变化。语音合成部55针对这样的与外部环境、内部状态联动地变化的器官状态也具有参数(以下，称为“动态参数”)，使这些动态参数与外部环境、内部状态联动地变化来进行模拟。

一般而言，通过拉紧声带，声带伸展而发出高音，通过松弛声带，声带收缩而发出低音。例如，模仿声带的器官具有声带的拉紧程度(以下，称为“紧张度”)来作为静态参数，能通过调整紧张度来发出高音、低音。由此，能实现高音的机器人100、低音的机器人100。此外，有时人会由于紧张而声音变尖，而通过与此同样地与机器人100的紧张状态联动地使作为动态参数的声带的紧张度变化，能使机器人100一旦紧张就声音变高。例如，机器人100在识别到不认识的人时、突然从拥抱状态开始下落时等表示紧张状态的内部参数偏向紧张的值时，与此联动地提高声带的紧张度，由此能发出高音。通过像这样将机器人100的内部状态与发声处理中的器官建立关联并根据内部状态来调整关联的器官的参数，能根据内部状态来改变声音。

在此，静态参数和动态参数是表示随着时间的经过的各器官的形状状态的参数。虚拟发声器官基于该参数来进行模拟。

此外，通过基于模拟来生成语音，只会生成基于发声器官的结构性制约的语音。就是说，不生成生物不可能发出的声音，因此能生成有生物感的声音。通过进行模拟并生成语音，不仅能发声出相似的音节，还能生成受到机器人100的内部状态影响的声音。

机器人100使包括麦克风521和摄像头522的传感器组始终运转，并且还使情感生成部51始终运转。在这样的状态下，当用户对机器人100搭话时，机器人100的麦克风521感测该声音并向声韵获取部53输出语音信号，由此开始上述的处理。此外，通过由摄像头522拍摄用户的面部并向声韵获取部53输出图像信号来开始上述的处理。此外，通过由摄像头522拍摄文字并向声韵获取部53输出图像信号来开始上述的处理。此外，通过由情感生成部51基于外部环境、内部参数生成情感参数并输出至声韵获取部53来开始上述的处理。需要说明的是，感测部52中的外部环境的检测结果并不都触发生成语音，而是根据此时机器人100的内部状态来决定。

需要说明的是，在上述的实施方式中，在声韵获取部53中，从语音识别部531向声韵信息获取部536输入包含语言信息的文字列，但也可以是，取而代之，原样将由语音识别部531识别出的声韵列输出至声韵信息获取部536，声韵信息获取部536原样将输入的声韵列作为第一声韵信息。即，也可以不进行语音识别部531中的自然语言处理。

此外，在上述的实施方式中，以感测部52具备麦克风521和摄像头522的结构为例进行了说明，但在例如使用温度传感器来作为感测部52的情况下，感测部52感测温度，声韵获取部53可以根据感测到的温度来获取“冷”、“热”等第一声韵信息，在使用嗅觉传感器来作为感测部52的情况下，感测部52感测气味，声韵获取部53可以根据感测到的气味来获取“臭”等第一声韵信息。

此外，在上述的实施方式中，象声词生成部541将与第一声韵信息的声韵对应的情感参数中最大的情感参数所共通的其他声韵决定为情感参数接近的声韵，但决定其他声韵的方法不限于此。例如，可以将具有与第一声韵信息的声韵对应的多个情感参数各自的差分小(例如，差分的总和小)的多个情感参数的声韵决定为情感参数接近的声韵。此外，象声词生成部541也可以决定情感参数与对应于第一声韵信息的声韵的情感参数差异大的声韵。例如，可以是，相对于“生气”的情感参数强的声韵，决定“悲伤”的情感参数强的声韵。

根据本实施方式的机器人100，例如能实现如下的演绎。即，在本实施方式的机器人100中，在声韵获取部53通过语音识别、文字识别、物体识别等获取到包含三个音节的声韵的第一声韵信息时，声韵生成部54删除这三个音节之中的一个音节，生成由两个音节的声韵构成的第二声韵信息。由此，机器人100以较少的音节模仿听到的语音进行输出，能实现如语言能力低的婴幼儿不完整地模拟听到的语音进行输出那样的演绎。

此外，在本实施方式的机器人100中，在声韵获取部53识别从其他机器人输出的两个音节的语音来获取第一声韵信息时，声韵生成部54决定具有接近或远离与这两个音节的声韵对应的情感参数的情感参数的声韵来生成第二声韵信息。由此，通过这样的机器人100彼此之间进行对话，能实现如机器人100相互受对方的情感影响地进行对话那样的演绎。

以下，对上述的机器人100的各种变形例进行说明。可以是，声韵获取部53识别从麦克风521输入的语音信号的音高，语音合成部55合成音高与输入的语音信号的音高相同的语音。例如，在从麦克风521输入了440Hz的语音信号的情况下，语音合成部55可以合成出同样440Hz的语音。此外，语音合成部55可以合成使输入的语音信号的音高符合规定的规格的语音。例如，在从麦克风521输入了438Hz的语音的情况下，语音合成部55可以合成出440Hz的语音。

此外，可以是，声韵获取部53识别从麦克风521输入的语音的音高变化，语音合成部55合成出音高变化与输入的语音信号的音高变化相同的语音。由此，能实现如机器人100模仿听到的声音的旋律进行发声那样的演绎。

此外，感测部52具备前轮102的扭矩传感器，语音合成部55可以根据该扭矩传感器的值来生成语音。例如，在机器人100因障碍物而前轮的扭矩变大而无法向行进方向行进时，语音合成部55可以合成“嗯—”等挣扎的语音。

此外，在物体识别部533中的人物识别中，在图像中人物的面部突然以规定的大小被识别的情况下，语音合成部55可以合成笑声的语音。或者，也可以是，在图像中人物的面部突然以规定的大小被识别的情况下，情感生成部51生成“喜悦”的情感参数并输出至声韵获取部53，通过上述的处理，进行第一声韵信息的获取和第二声韵信息的生成处理来合成语音。

此外，在上述的实施方式中，声韵获取部53获取表现根据由摄像头522拍摄到的图像而识别出的文字和识别出的物体的第一声韵信息，但也可以是，在根据图像识别出物体的情况下，生成要与该物体交谈的文字列来获取第一声韵信息。例如，声韵获取部53也可以在通过物体识别而识别出人物的情况下，获取请求拥抱的“抱抱”这样的第一声韵信息。此外，声韵获取部53可以在根据图像识别出物体的情况下，生成与该物体建立了关联的关联词的文字列来获取第一声韵信息。例如，可以在通过物体识别而识别出飞机的情况下，获取与飞机建立了关联的“嗡—”这样的象声词的第一声韵信息。

此外，在输出了发出请求的语音后请求没被满足的情况下，语音合成部55可以合成音量、讲话速度等不同的语音。例如，在合成“波波”这样的语音进行输出来作为发出想要拥抱这样的请求的语音后没被拥抱的情况下，语音合成部55可以生成“波波—！”这样加强语气的语音。

此外，情感生成部51可以在从语音输出部56输出语音后由语音识别部531识别出与该语音相同的声韵的语音的情况下生成“喜悦”的情感。由此，能实现在用户模仿机器人100的发声的情况下机器人100会开心那样的演绎。此外，机器人100可以在从语音输出部56输出语音后感测用户的反应，并对该输出的语音打分进行学习。例如，可以在输出语音后物体识别部533从图像中检测到笑脸的情况下，对该语音打高分进行学习。机器人100例如可以优先合成并输出高分的语音。

此外，在物体识别部533识别出物体的同时语音识别部531识别出了语音的情况下，将识别出的物体与识别出的语音建立关联进行学习，之后对该物体进行识别。在该情况下，声韵获取部53可以获取建立了关联的语音的第一声韵信息。例如，可以是，在由物体识别部533识别出杯子的同时由语音识别部531识别出“杯子”这样的语音的情况下，学习该组合，之后在物体识别部533识别出杯子时，声韵获取部53获取“杯子”这样的第一声韵信息。由此，用户能教给机器人100物品的名称，能实现机器人100学习用户所教的物品名称的演绎。

此外，可以通过反复学习来减小第一声韵信息与第二声韵信息之间的语言信息的信息量的删减量。例如，在学习中获取到“おとうさん”这样的第一声韵信息的情况下，最初删除第一声韵信息的一部分声韵并且变更其顺序，生成将不相邻的“う”和“お”按顺序排列的“うお”这样的第二声韵信息。可以是，每次重复学习时，例如删除一部分声韵而不变更其顺序，但依然生成将不相邻的“と”和“さ”按顺序排列的“とさ”这样的第二声韵信息，最终得到按顺序相邻且将由特征音(例如，口音强的声韵)构成的“お”和“と”排列的“おと”等，逐渐减小语言信息的信息量的删减量。

此外，语音输出部56可以根据由麦克风521感测到的声音的音量来调整要输出的语音的音量。例如，可以在由麦克风521感测的声音的音量大的情况下，将要输出的语音的音量设大。而且，语音输出部56可以根据由语音识别部531识别为噪音的语音的音量来调整要输出的语音的音量。即，可以在噪音大的环境下，将要输出的语音的音量设大。

此外，在上述的实施方式中，对机器人100能与其他机器人100持续对话的情况进行了说明，但为了机器人100彼此之间进行对话，可以是，各机器人100还具有以下的功能。

情感生成部51可以展开机器人100彼此之间的对话中的话题，并按该话题生成情感。并且，机器人100通过声韵获取部53乃至语音输出部56的上述的功能来输出表达情感的语音。也可以将神经网络等机器学习模型用于该情感生成部51中的话题的展开。

语音合成部55可以以与从麦克风521输入的其他机器人100的语音相配合地调和音程的方式合成语音。由此，能实现如多台机器人100合唱那样的演绎。此外，能通过故意设为与其他机器人100的语音的音程不同的音程来扮作音痴。

此外，语音合成部55可以合成普通人不使用的音高的语音。普通人的语音的音高最高也就是500Hz左右，但机器人100输出比之更高的音高(例如，800Hz左右)的语音。其他机器人100仅根据音高信息就能识别出是另一机器人100的发声。例如，机器人100相互追逐时，需要识别对方的呼叫声、方向，但如果输入的音高在规定的范围，则能识别出是对方机器人100的发声(“过来哦”等的意思)。此外，通过进一步将模式(音高的曲线变化等)与音高组合，能进一步提高识别精度。此外，在仅通过音高进行识别的情况下，虽然有可能会抽选出例如救护车的警笛声，但反之也能利用无条件地对高音作出反应这一点来表达动物性的行为。

此外，声韵获取部53基于来自感测部52的输入信号、来自情感生成部51的情感参数来获取第一声韵信息。可以是，声韵获取部53还基于输入信号、情感参数或者基于其他信息来获取作为构成声音的要素的音量、音高、音色信息。在该情况下，可以设为：声韵生成部54也基于由声韵获取部53获取到的音量、音高、音色的信息来决定通过语音合成部55要合成的语音的音量、音高、音色并输出至语音合成部55。此外，可以设为：各声韵的长度(语速)也由声韵获取部53获取，声韵生成部54基于获取到的语速来决定通过语音输出部56要输出的语音的语速。而且，可以是，声韵获取部53还获取每个语言的特征来作为构成声音的要素。

此外，声韵获取部53也可以具备基于从麦克风521输入的语音信号来判定旋律的有无(即，输入的声音是否是歌曲乃至旋律)的功能。在该情况下，具体而言，声韵获取部53在每个规定的期间根据音高(pitch)的变化来打分，基于分数来判定是否有旋律(即，是否在唱歌)。在声韵获取部53判定为输入的语音信号中有旋律的情况下，语音合成部55以模仿识别出的旋律的方式决定要合成的语音的各声韵的音长、音高。此外，在声韵获取部53判定为输入的语音信号中有旋律的情况下，声韵生成部54以预先决定的声韵生成第二声韵信息。并且，语音合成部55可以以模仿识别出的旋律的方式决定要合成的语音的各声韵的音长、音高。由此，能实现如哼歌那样的演绎。

此外，声韵获取部53可以基于来自感测部52的输入信号来获取日语以外的语言的文字列。即，语音识别部531可以识别日语以外的语言的语音来生成该语言的文字列，文字识别部532可以识别日语以外的语言的文字来生成该语言的文字列，物体识别部533可以识别物体来生成表示该物体的日语以外的语言的文字列。

此外，机器人100可以在将模拟的回应进行了规定次数(例如5次)时接着进行此前的规定次数(例如，4次)的模拟。如上所述，机器人100输出两个音节的语音，但如果仅重复两个音节的模拟，则用户可能会厌倦，因此按规定次数连着过去模拟发声的语音来进行发声。由此，能期待用户能感受到机器人100想说什么这样的效果。

为此，机器人100具备：存储部，存储作为模拟而生成的第二声韵信息；计数部，对模拟的次数进行计数；以及判定部，判定模拟的次数是否达到了规定的次数(例如5次)，语音合成部35在由判定部判定为模拟的次数达到规定次数时读出存储于存储部的模拟，将它们连起来合成语音。

产业上的可利用性

本发明能在通过机器人输出语音来实现的与他人的语音交流中促进用户对机器人的依恋形成，作为输出语音的机器人等是有用的。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 语音合成装置、语音合成方法、语音合成程序、语音合成模型学习装置、语音合成模型学习方法以及语音合成模型学习程序 [P] . 中国专利： CN107924678A . 2018-04-17
2. 用于语音合成的文本结构、语音合成方法、语音合成设备及其计算机程序 [P] . 中国专利： CN1643572A . 2005-07-20
3. VOICE SYNTHESIZING SYSTEM, VOICE SYNTHESIZING METHOD, SERVER, STORAGE MEDIUM, PROGRAM TRANSMITTING DEVICE, VOICE SYNTHETIC DATA STORAGE MEDIUM AND VOICE OUTPUTTING EQUIPMENT [P] . 日本专利： JP2002023777A . 2002-01-25

机译：语音合成系统，语音合成方法，服务器，存储介质，程序传输设备，语音合成数据存储介质和语音输出设备
4. Speech synthesis apparatus, speech synthesis method, speech synthesis program, speech synthesis model learning apparatus, speech synthesis model learning method, and speech synthesis model learning program [P] . 日本专利： JP6499305B2 . 2019-04-10

机译：语音合成装置，语音合成方法，语音合成程序，语音合成模型学习装置，语音合成模型学习方法和语音合成模型学习程序
5. Speech synthesis apparatus, speech synthesis method, speech synthesis program, speech synthesis model learning apparatus, speech synthesis model learning method, and speech synthesis model learning program [P] . 日本专利： JPWO2017046887A1 . 2018-04-12

机译：语音合成装置，语音合成方法，语音合成程序，语音合成模型学习装置，语音合成模型学习方法和语音合成模型学习程序