首页> 中国专利> 回复音频的确定方法及装置、存储介质及电子装置

回复音频的确定方法及装置、存储介质及电子装置

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本申请公开了一种回复音频的确定方法及装置、存储介质及电子装置，涉及智慧家庭技术领域，该回复音频的确定方法包括：获取目标对象的语音指令；根据所述语音指令获取预先确定的目标对象的目标语言表达方式以及目标偏好信息，其中，目标语言表达方式是根据预先采集到的目标对象的多个样本音频确定得到的语言表达方式，目标偏好信息是根据目标对象对多个设备的一组历史操作确定的偏好信息；根据目标语言表达方式以及目标偏好信息确定语音指令的第一回复音频，并将第一回复音频发送至音频播放设备。

著录项

公开/公告号CN114817514A

专利类型发明专利
公开/公告日2022-07-29

原文格式PDF
申请/专利权人青岛海尔科技有限公司;海尔智家股份有限公司;
展开▼

申请/专利号CN202210284536.5
发明设计人邓楚慧;
展开▼

申请日2022-03-22
分类号G06F16/335(2019.01);G06F16/33(2019.01);G06F16/332(2019.01);G10L15/22(2006.01);
代理机构北京康信知识产权代理有限责任公司 11240;
代理人刘旺贵
地址 266101 山东省青岛市崂山区海尔路1号海尔工业园
入库时间 2023-06-19 16:12:48

法律信息

法律状态公告日

法律状态信息

法律状态
2022-08-16

实质审查的生效 IPC(主分类):G06F16/335 专利申请号:2022102845365 申请日:20220322

实质审查的生效

说明书

技术领域

本申请涉及智慧家庭技术领域，具体而言，涉及一种回复音频的确定方法及装置、存储介质及电子装置。

背景技术

随着智能化社会的到来，诞生了越来越多的智能设备，而智能设备一个关键点就在于可以针对不同的用户，提供不同的服务。例如，现有的设备可以识别用户的声纹，确定用户的身份，进而根据身份的不同提供预先确定的服务。

但人是具有差异性的，不同的人具有不同的说话口音(普通话或方言)、不同的说话习惯、不同的表达情绪(如平静或生气地说话)等不同的语言表达方式，且对应的偏好也是不相同。

针对相关技术，设备在获取到用户语音指令的情况下，无法根据用户语言表达习惯以及偏好确定对应的回复音频的问题，目前尚未提出有效的解决方案。

因此，有必要对相关技术予以改良以克服相关技术中的所述缺陷。

发明内容

本发明实施例提供了一种回复音频的确定方法及装置、存储介质及电子装置，以至少解决设备在获取到用户语音指令的情况下，无法根据用户语言表达习惯以及偏好确定对应的回复音频的问题。

根据本发明实施例的一方面，提供一种回复音频的确定方法，包括：获取所述目标对象的语音指令；根据所述语音指令获取预先确定的所述目标对象的目标语言表达方式以及目标偏好信息，其中，所述目标语言表达方式是根据预先采集到的所述目标对象的多个样本音频确定得到的语言表达方式，所述目标偏好信息是根据所述目标对象对多个设备的一组历史操作确定的偏好信息；根据所述目标语言表达方式以及所述目标偏好信息确定所述语音指令的第一回复音频，并将所述第一回复音频发送至音频播放设备。

根据本发明实施例的另一方面，还提供了一种回复音频的确定装置，包括：第一获取模块，用于获取所述目标对象的语音指令；第二获取模块，用于根据所述语音指令获取预先确定的所述目标对象的目标语言表达方式以及目标偏好信息，其中，所述目标语言表达方式是根据预先采集到的所述目标对象的多个样本音频确定得到的语言表达方式，所述目标偏好信息是根据所述目标对象对多个设备的一组历史操作确定的偏好信息；确定模块，用于根据所述目标语言表达方式以及所述目标偏好信息确定所述语音指令的第一回复音频，并将所述第一回复音频发送至音频播放设备。

根据本发明实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述回复音频的确定方法。

根据本发明实施例的又一方面，还提供了一种电子装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，上述处理器通过计算机程序执行上述回复音频的确定方法。

通过本发明，在获取到的目标对象的语音指令的情况下，获取预先确定的目标对象的目标语言表达方式以及目标偏好信息，进而根据目标语言表达方式以及目标偏好信息，确定语音指令的第一回复音频，并将第一回复音频发送至音频播放设备。采用上述技术方案，可以根据用户的语言表达方式以及偏好信息智能的回复用户，更好的服务用户，解决了设备在获取到用户语音指令的情况下，无法根据用户语言表达习惯以及偏好确定对应的回复音频的问题。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是根据本申请实施例的一种回复音频的确定方法的硬件环境示意图；

图2是根据本发明实施例的回复音频的确定方法的流程图(一)；

图3是根据本发明实施例的回复音频的确定方法的流程图(二)；

图4是根据本发明实施例的回复音频的确定装置的结构框图(一)；

图5是根据本发明实施例的回复音频的确定装置的结构框图(二)。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本申请实施例的一个方面，提供了一种回复音频的确定方法。该回复音频的确定方法广泛应用于智慧家庭(Smart Home)、智能家居、智能家用设备生态、智慧住宅(Intelligence House)生态等全屋智能数字化控制应用场景。可选地，在本实施例中，上述回复音频的确定方法可以应用于如图1所示的由终端设备102和服务器104所构成的硬件环境中。如图1所示，服务器104通过网络与终端设备102进行连接，可用于为终端或终端上安装的客户端提供服务(如应用服务等)，可在服务器上或独立于服务器设置数据库，用于为服务器104提供数据存储服务，可在服务器上或独立于服务器配置云计算和/或边缘计算服务，用于为服务器104提供数据运算服务。

上述网络可以包括但不限于以下至少之一：有线网络，无线网络。上述有线网络可以包括但不限于以下至少之一：广域网，城域网，局域网，上述无线网络可以包括但不限于以下至少之一：WIFI(Wireless Fidelity，无线保真)，蓝牙。终端设备102可以并不限定于为PC、手机、平板电脑、智能空调、智能烟机、智能冰箱、智能烤箱、智能炉灶、智能洗衣机、智能热水器、智能洗涤设备、智能洗碗机、智能投影设备、智能电视、智能晾衣架、智能窗帘、智能影音、智能插座、智能音响、智能音箱、智能新风设备、智能厨卫设备、智能卫浴设备、智能扫地机器人、智能擦窗机器人、智能拖地机器人、智能空气净化设备、智能蒸箱、智能微波炉、智能厨宝、智能净化器、智能饮水机、智能门锁等。

为了解决申请的技术问题，在本实施例中提供了一种回复音频的确定方法，图2是根据本发明实施例的回复音频的确定方法的流程图(一)，该流程包括如下步骤：

步骤S202，获取目标对象的语音指令；

需要说明的是，目标对象包括但不限于使用终端设备的用户。终端设备包括但不限于音频播放设备。

在一个示例性的实施例中，语音指令包括但不限于交互语音指令，查询语音指令，操作语义指令等，例如：请帮我随便播放几个故事。

步骤S204，根据语音指令获取预先确定的目标对象的目标语言表达方式以及目标偏好信息，其中，所述目标语言表达方式是根据预先采集到的所述目标对象的多个样本音频确定得到的语言表达方式，所述目标偏好信息是根据所述目标对象对多个设备的一组历史操作确定的偏好信息；

在一个示例性的实施例中，可以对语音指令进行声纹识别，进而可以确定目标对象的身份，进而获取预先确定的目标对象的目标语言表达方式和目标偏好。目标语音表达方式包括但不限于：语速，情绪，语序，方言等等。目标偏好信息包括但不限于经常使用什么设备，经常使用设备的何种功能，经常听什么音乐，经常关注的内容等待。

在一个示例性的实施例中，目标对象对多个设备的历史操作记录包括但不限于：在单个设备上进行的各种操作(如播放的何种音乐，查询的何种内容，浏览何种软件，使用何种功能等)，将设备绑定至云端服务器等(如将胎心仪、血压计等设备绑定到云端服务器)，设置设备与设备之间的进行联动操作(如设置在智能门锁打开的情况下，将空调开启等)等等。

步骤S206，根据所述目标语言表达方式以及所述目标偏好信息确定所述语音指令的第一回复音频，并将所述第一回复音频发送至音频播放设备。

需要说明的是，本申请实施例的技术方案可以应用在云端服务器上，本实施例在此不做具体限定。

通过上述步骤，在获取到的目标对象的语音指令的情况下，获取预先确定的目标对象的目标语言表达方式以及目标偏好信息，进而根据目标语言表达方式以及目标偏好信息，确定语音指令的第一回复音频，并将第一回复音频发送至音频播放设备。采用上述技术方案，可以根据用户的语言表达方式以及偏好信息智能的回复用户，更好的服务用户，解决了设备在获取到用户语音指令的情况下，无法根据用户语言表达习惯以及偏好确定对应的回复音频的问题。

在一个示例性的实施例中，根据所述目标语言表达方式以及所述目标偏好信息确定所述语音指令的第一回复音频，包括以下步骤：

步骤S1：根据所述语言指令携带的目标语义信息和所述目标偏好信息确定回复信息；

例如，假设语言指令携带的目标语义信息为：请帮忙随便介绍一个朝代的历史人物。而根据用户的目标偏好信息确定用户喜欢宋朝，则可以在互联网上随意搜索一个宋朝的人物的相关信息，将搜索到的相关信息确定为回复信息；假设目标语义信息为：随便播放一点小知识，而根据目标偏好信息确定目标对象家中绑定有血压计，则可以搜索血压相关的知识，将其确定为回复信息。

步骤S2：按照所述目标语言表达方式，将所述回复信息语音合成为所述第一回复音频。

在一个示例性的实施例中，上述步骤S2可以通过以下方式实现：

方式一：在所述目标语言表达方式表示将第一语序的语句调整成第二语序的语句的情况下，判断所述回复信息是否包括所述第一语序的语句；在所述回复信息包括所述第一语序的第一语句的情况下，将所述第一语句的语序从所述第一语序调整成第二语序；将调整后得到的第二语句语音合成为所述第一回复音频。

需要说明的是，第一语序包括但不限于：倒装句，把字句，被字句。例如，如果用户的目标语言表达方式表示用户喜欢使用倒装句等语序，则将回复信息中可以进行倒装表示的句子进行倒装，进而将倒装后得到的回复信息转化成第一回复音频。例如，将“今晚打游戏吗”转化为“打游戏吗，今晚”。

方式二：在所述目标语言表达方式表示目标语速特征的情况下，其中，所述目标语速特征用于表示所述目标对象对应的目标语速；按照所述目标语速特征表示的所述目标语速，将所述回复信息语音合成为所述第一回复音频，其中，所述第一回复音频的播放速度为所述目标语速；

例如，如果用户的目标语言表达方式表示用户的语速为一分钟500字，则将回复信息语音合成为语速为一分钟500字的第一回复音频。

方式三：在所述目标语言表达方式表示目标情绪特征的情况下，其中，所述目标语速特征用于表示所述目标对象对应的目标情绪；按照所述目标情绪特征，将所述回复信息语音合成为所述第一回复音频，其中，所述第一回复音频的播放音量、播放音调和/或播放音色与所述目标情绪匹配。

在一个示例性的实施例中，在确定了用户的目标情绪特征的情况下，可以从多个录制好的人中选择一个人的声音，该声音与目标情绪匹配，使用此声音将回复信息语音合成为所述第一回复音频。例如，在目标语言表达方式表示用户容易暴躁的情况下，则可以选取一个具有安抚效果的声音，使用此声音对回复信息进行语音合成。

方式四：在所述目标语言表达方式表示目标方言的情况下，将回复信息转换成所述目标方言的方言回复信息；将所述方言回复信息语音合成为所述第一回复音频。或者，获取目标方言信息，其中，所述目标方言信息用于表示所述语音指令所采用的方言；根据所述目标方言信息和所述目标语言表达方式，将回复信息语音合成为所述第一回复音频。

例如，如果目标语言表达方式表示用户经常使用粤语，则将回复信息转换成粤语的方言回复信息进行播放。或者，识别出用户当前是使用粤语询问的，则通过粤语，以及用户目标语言表达方式(如情绪，语速、语序等)将回复信息语音合成为第一回复音频。

需要说明的是，按照目标语言表达方式，将回复信息语音合成为第一回复音频的时候，可以通过方式一，和/或方式二，和/或方式三，和/或方式四实现。即可以采用以下方式至少之一实现：方式一，方式二、方式三，方式四。

在一个示例性的实施例中，根据所述目标语言表达方式以及所述目标偏好信息确定所述语音指令的第一回复音频，还包括以下步骤：

步骤一：根据所述语音指令携带的目标语义信息和所述目标偏好信息，确定回复音频；

在一个示例性的实施例中，假设目标语义信息为：随便播放一点戏曲，而根据目标偏好信息确定目标对象喜欢京剧，则可以随便确定一个京剧，将此京剧确定为回复音频。

步骤二：按照所述目标语言表达方式，将所述回复音频调整为所述第一回复音频。

在一个实例性的实施例中，上述步骤二可以通过以下方式实现：在所述目标语言表达方式表示目标语速特征的情况下，按照目标语速特征表示的目标语速调整回复音频的语速，并将调整后的回复音频确定为所述第一回复音频。需要说明的是，目标语速特征用于表示目标对象对应的目标语速，例如一分钟200字。

需要说明的是，在所述目标语言表达方式表示目标音量特征的情况下，按照目标音量特征表示的目标音量调整回复音频的音量，并将调整后的回复音频确定为所述第一回复音频。

在一个示例性的实施例中，在获取目标对象的语音指令之后，在所述语音指令表示待执行的目标操作信息的情况下，获取预先确定的所述目标对象的所述目标语言表达方式；在预先设置的一组操作回复音频中选择与所述目标语言表达方式匹配的目标操作回复音频，其中，所述一组操作回复音频中的每个操作回复信息对应于一种语言表达方式；将所述目标操作回复音频确定为第二回复音频，并将所述第二回复音频发送至所述音频播放设备；或者在所述语音指令表示待执行的目标操作信息的情况下，获取预先确定的所述目标对象的所述目标语言表达方式；按照所述目标语言表达方式，将预先设置的目标操作回复信息语音合成为第二回复音频，并将所述第二回复音频发送至所述音频播放设备。

为了更好的理解，以下进行具体说明，假设语音指令为打开空调，而在打开空调以后，需要向用户播报操作回复音频，例如“空调打开了”，如果云端服务器保存有一组操作回复音频，而不同的操作回复音频是对应不同的语言表达方式，进而只需要从在预先设置的一组操作回复音频中选择与用户的目标语言表达方式匹配的目标操作回复音频进而回复即可。而如果设备或云端没有保存一组操作回复音频，进而就需要将预先设置的操作回复信息“空调打开了”语音合成为与用户的目标语言表达方式相对应的第二回复音频。

需要说明的是，根据预先采集到的所述目标对象的多个样本音频确定得到目标语言表达方式，可以通过以下方式实现：确定所述多个样本音频的每个样本音频中所述目标对象的样本语言表达方式，得到多个样本语言表达方式；通过所述多个样本语言表达方式确定所述目标对象的目标语言表达方式。

具体的，确定所述多个样本音频的每个样本音频中所述目标对象的样本语言表达方式，可以通过以下方式实现：确定所述每个样本音频的样本语言类型，并通过所述样本语言类型对应的语音识别模型对所述每个样本音频进行语音识别，得到样本识别结果，其中，所述样本语音识别结果包括：样本音量，样本文字信息，样本语速，样本情绪；对所述样本文字信息进行解析，得到样本文字信息对应的样本语序，其中，所述样本语言表达方式包括以下至少之一：样本语言类型，所述样本音量，所述样本语速，所述样本语序，所述样本情绪。

在一个示例性的实施例中，确定所述每个样本音频的样本语言类型，可以通过以下方式实现：对所述每个样本音频进行特征提取，得到样本语音特征，其中，所述样本语音特征包括：梅尔频率倒谱系数特征，移位差分倒谱特征；将所述样本语音特征发送至语言识别神经网络模型，得到所述样本语言类型。

显然，上述所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。为了更好的理解上述回复音频的确定方法，以下结合实施例对上述过程进行说明，但不用于限定本发明实施例的技术方案，具体地：

在一个可选的实施例中，图3是根据本发明实施例的回复音频的确定方法的流程图(二)，具体的：

步骤S302：用户基础信息分析，例如：

(1)确定用户的地理位置；

基于用户地理位置，在用户未手动设置方言类型时，动态启动方言类型进行识别。对于外来人口较多的地区，优先启动普通话识别模型，积累用户发话后动态切换至方言识别类型；对于本地居民较多的地区，优先启动当地方言类型的识别偏好，以提高识别类。

(2)确定绑定的特征设备

对于家庭账号下，绑定了以下特征设备，推荐内容优先特征人群内容进行推荐，如表1所示：

表1

(3)通过用户的语音确定用户的声纹，并根据声纹获取用户的多组语音数据。

步骤S304：通过语音学习系统确定用户的语音信息(相当于上述实施例中的目标语言表达方式)，语音学习系统通过语音数据的积累，从语音的多重维度分析用户的身份、喜好。具体的，记录用户语音数据，进而云端对用户的语音数据进行聚类分析，可基于但不限于以下语音信息维度形成聚类分析：性别、年龄、语言类型(如中文、英文)、口音(方言类型)、说话习惯(如爱好网络用语、说话倒装等)、音量、语速、情绪等其他声学维度。

通过以上对用户语音信息音素的抽取、环境信息的读取，形成数据分析，按照多重、交叉的分析维度记录用户语音信息。

步骤S306：通过内容学习系统确定用户的偏好(相当于上述实施例中的目标偏好信息)，具体的：内容学习系统学习家庭或家庭成员的偏好内容，基于用户录入的声纹信息，或通过步骤S304聚类学习出的用户身份，形成独立的家庭人员语音身份信息记录。基于不同的用户身份，记录每个用户的偏好使用内容，可基于但不限于以下用户使用习惯信息维度形成聚类分析：语音操作偏好功能大类；设备控制偏好模式/功能；资源点播偏好资源；聊天内容偏好；其他语音技能的偏好记录；偏好操作时间段。

步骤S308：根据识别出的不同成员，动态切换发音人及发音人相关参数，及为每个用户提供偏好内容；具体的，信息记录后，对每个成员的信息记录语音性格偏好，针对不同偏好，动态匹配切换发音人，实现发音人的音色类型、口音、回复语内容、回复语调、回复音量、回复内容等维度的实时动态切换。发音人参数动态变化如表2所示：

表2

动态切换发音人及内容实现方案举例：家庭包含以下成员：

(1)用户1：老人、使用方言、背景音嘈杂、偏好内容为豫剧、下午3点时段使用；查询内容：“播放电台”；回复：使用方言回复、音量适量调大、语速减慢、播放电台内容为豫剧类内容；

(2)用户2：成年女声、使用普通话、背景音安静，偏好内容为新闻、晚饭时间使用；查询内容：“播放电台”；回复：使用普通话回复，音量正常，语速正常，播放电台内容为央广新闻。

此外，本发明实施例的上述技术方案，通过用户的基本信息，及日常通过语音方式和语音设备交互，积累用户的数据及系统自动学习聚类用户的语音习惯，经过用户提前录入声纹基本信息，或者通过用户使用语音积累的语音信息，以家庭、账号、环境、绑定设备等不同维度形成语音信息数据统计。

在本发明实施例中，用户不用自己手动选择方言类型，可根据用户发话的信息确认用户的身份，动态切换方言类型；同时，进一步提出了一种根据用户性格、语言习惯，动态调整发音人参数的方案，可以恰当进行不同音量、语速、内容等多维度的动态切换发音人、切换回复内容。进而在用户少操作、免操作的前提下，语音交流可更加流畅、符合用户的习惯、喜好，形成每个家庭成员的专属语音助手，从语音体验效果、内容多维度提供千人千面动态服务。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例的方法。

在本实施例中还提供了一种回复音频的确定装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的设备较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图4是根据本发明实施例的回复音频的确定装置的结构框图(一)，该装置包括：

第一获取模块42，用于获取目标对象的语音指令；

第二获取模块44，用于根据所述语音指令获取预先确定的所述目标对象的目标语言表达方式以及目标偏好信息，其中，所述目标语言表达方式是根据预先采集到的所述目标对象的多个样本音频确定得到的语言表达方式，所述目标偏好信息是根据所述目标对象对多个设备的一组历史操作确定的偏好信息；

确定模块46，用于根据所述目标语言表达方式以及所述目标偏好信息确定所述语音指令的第一回复音频，并将所述第一回复音频发送至音频播放设备。

通过上述装置，在获取到的目标对象的语音指令的情况下，获取预先确定的目标对象的目标语言表达方式以及目标偏好信息，进而根据目标语言表达方式以及目标偏好信息，确定语音指令的第一回复音频，并将第一回复音频发送至音频播放设备。采用上述技术方案，可以根据用户的语言表达方式以及偏好信息智能的回复用户，更好的服务用户，解决了设备在获取到用户语音指令的情况下，无法根据用户语言表达习惯以及偏好确定对应的回复音频的问题。

在一个示例性的实施例中，确定模块46，还用于根据所述语音指令携带的目标语义信息和所述目标偏好信息，确定回复信息；按照所述目标语言表达方式，将所述回复信息语音合成为所述第一回复音频。

在一个示例性的实施例中，确定模块46，还用于根据所述语音指令携带的目标语义信息和所述目标偏好信息，确定回复音频；按照所述目标语言表达方式，将所述回复音频调整为所述第一回复音频。

在一个示例性的实施例中，确定模块46，还用于在所述目标语言表达方式表示将第一语序的语句调整成第二语序的语句，且所述回复信息包括所述第一语序的第一语句的情况下，将所述第一语句的语序从所述第一语序调整成第二语序，并将调整后得到第二语句语音合成为所述第一回复音频；和/或在所述目标语言表达方式表示目标语速特征的情况下，其中，所述目标语速特征用于表示所述目标对象对应的目标语速；按照所述目标语速特征表示的所述目标语速，将所述回复信息语音合成为所述第一回复音频；和/或在所述目标语言表达方式表示目标情绪特征的情况下，其中，所述目标语速特征用于表示所述目标对象对应的目标情绪；按照所述目标情绪特征，将所述回复信息语音合成为所述第一回复音频；和/或在所述目标语言表达方式表示目标方言的情况下，将所述回复信息转换成所述目标方言的方言回复信息，并将所述方言回复信息语音合成为所述第一回复音频。

在一个示例性的实施例中，确定模块46，还用于获取目标方言信息，其中，所述目标方言信息用于表示所述语音指令所采用的方言；根据所述目标方言信息和所述目标语言表达方式，将所述回复信息语音合成为所述第一回复音频。

在一个示例性的实施例中，确定模块46，还用于在所述目标语言表达方式表示目标语速特征的情况下，其中，所述目标语速特征用于表示所述目标对象对应的目标语速；按照所述目标语速特征表示的所述目标语速调整所述回复音频的语速，并将调整后的回复音频确定为所述第一回复音频。

图5是根据本发明实施例的回复音频的确定装置的结构框图(二)，该装置还包括：处理模块48。

在一个示例性的实施例中，处理模块48，用于在所述语音指令表示待执行的目标操作信息的情况下，获取预先确定的所述目标对象的所述目标语言表达方式；在预先设置的一组操作回复音频中选择与所述目标语言表达方式匹配的目标操作回复音频，其中，所述一组操作回复音频中的每个操作回复信息对应于一种语言表达方式；将所述目标操作回复音频确定为第二回复音频，并将所述第二回复音频发送至所述音频播放设备；或者在所述语音指令表示待执行的目标操作信息的情况下，获取预先确定的所述目标对象的所述目标语言表达方式；按照所述目标语言表达方式，将预先设置的目标操作回复信息语音合成为第二回复音频，并将所述第二回复音频发送至所述音频播放设备。

本发明的实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1，获取目标对象的语音指令；

S2，根据所述语音指令获取预先确定的所述目标对象的目标语言表达方式以及目标偏好信息，其中，所述目标语言表达方式是根据预先采集到的所述目标对象的多个样本音频确定得到的语言表达方式，所述目标偏好信息是根据所述目标对象对多个设备的一组历史操作确定的偏好信息；

S3，根据所述目标语言表达方式以及所述目标偏好信息确定所述语音指令的第一回复音频，并将所述第一回复音频发送至音频播放设备。

在一个示例性实施例中，上述计算机可读存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，简称为ROM)、随机存取存储器(Random Access Memory，简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

本实施例中的具体示例可以参考上述实施例及示例性实施方式中所描述的示例，本实施例在此不再赘述。

本发明的实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，获取目标对象的语音指令；

S3，根据所述目标语言表达方式以及所述目标偏好信息确定所述语音指令的第一回复音频，并将所述第一回复音频发送至音频播放设备。

在一个示例性实施例中，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

本实施例中的具体示例可以参考上述实施例及示例性实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 回复音频的确定方法及装置、存储介质及电子装置 [P] . 中国专利： CN114817514A . 2022-07-29
2. 回复语句确定方法、装置、电子设备和存储介质 [P] . 中国专利： CN114528851A . 2022-05-24
3. AUDIO CUTTING POSITION DETERMINATION METHOD AND APPARATUS, ELECTRONIC DEVICE, AND STORAGE MEDIUM [P] . WO2021036868A1 . 2021-03-04

机译：音频切割位置确定方法和装置，电子设备和存储介质
4. DETERMINISTIC COMPONENT MODEL DETERMINATION DEVICE, DETERMINATION METHOD, PROGRAM, STORAGE MEDIUM, TEST SYSTEM AND ELECTRONIC DEVICE [P] . 日本专利： JP2010101893A . 2010-05-06

机译：确定性组件模型确定装置，确定方法，程序，存储介质，测试系统和电子装置
5. METHOD FOR DETERMINING COMPOSITION OF SEPARATION MEDIUM FOR ELECTROPHORESIS, PROGRAM FOR DETERMINING COMPOSITION OF SEPARATION MEDIUM FOR ELECTROPHORESIS, RECORDING MEDIUM HAVING THE PROGRAM STORED THEREIN, SEPARATION MEDIUM PREPARATION DEVICE FOR PREPARING SEPARATION MEDIUM, AND ELECTROPHORETIC METHOD USING PREPARED SEPARATION MEDIUM [P] . 日本专利： JP2014055829A . 2014-03-27

机译：确定电泳分离介质的组成的方法，测定电泳分离介质的组成的程序，具有存储在其中的程序的记录介质，准备分离介质的分离介质制备装置以及使用该方法的电子