首页> 中国专利> 语音聊天装置、语音聊天方法和程序

语音聊天装置、语音聊天方法和程序

摘要

提供的是一种语音聊天装置、语音聊天方法和程序,其能够适当地控制是否提供作为语音聊天的语音的语音识别结果的文本。根据本发明,语音接收单元(44)接收语音聊天中的语音。文本获取单元(46)获取作为由语音接收单元(44)接收到的语音的语音识别结果的文本。发送控制单元(52)根据是否在作为通信配对方的语音聊天系统中执行语音识别结果的显示,控制是否将包括由文本获取单元(46)获取的文本的文本数据发送到该通信配对方。

著录项

  • 公开/公告号CN113302682A

    专利类型发明专利

  • 公开/公告日2021-08-24

    原文格式PDF

  • 申请/专利权人 索尼互动娱乐股份有限公司;

    申请/专利号CN202080009489.2

  • 申请日2020-01-17

  • 分类号G10L13/00(20060101);H04M1/00(20060101);G10L15/30(20130101);G06F13/00(20060101);H04M11/00(20060101);G10L15/22(20060101);G10L15/00(20130101);A63F13/87(20140101);

  • 代理机构11105 北京市柳沈律师事务所;

  • 代理人张晓明

  • 地址 日本东京都

  • 入库时间 2023-06-19 12:19:35

说明书

技术领域

本发明涉及语音聊天装置、语音聊天方法和程序。

背景技术

近年来,例如,用户在玩视频游戏的同时与在远处与用户一起玩视频游戏、或者与观看描述视频游戏中的情况的运动图像的其他用户进行语音聊天。

发明内容

[技术问题]

在语音聊天中,有些用户希望将语音聊天的内容理解为作为对语音聊天中的语音进行语音识别的结果而得到的文本。人们希望这样的用户能够获得作为对语音聊天中的语音进行语音识别的结果而得到的文本。

然而,在语音聊天中,有些用户不需要作为对语音聊天中的语音进行语音识别的结果而得到的文本,例如不想理解文本的用户。向这样的用户提供文本只会不必要地增加数据流量。

本发明是鉴于上述情况做出的,并且本发明的目的是提供一种语音聊天装置、语音聊天方法和程序,该语音聊天装置、语音聊天方法和程序实现对是否在语音聊天中提供作为对语音聊天中的语音进行语音识别的结果而得到的文本的适当控制。

[问题解决方案]

为了解决上述问题,根据本发明,提供了一种语音聊天装置,其包括在多个语音聊天系统中的一个语音聊天系统中,所述语音聊天系统被配置为启用语音聊天,所述语音聊天装置包括:语音接收单元,其被配置为接收语音聊天中的语音;文本获取单元,其被配置为获取作为对所述语音进行语音识别的结果而获得的文本;以及发送控制单元,其被配置为基于是否在作为通信目的地的所述语音聊天系统中执行语音识别结果的显示,来控制是否将包括所述文本的文本数据发送到所述通信目的地。

在本发明的一方面,当在所述多个语音聊天系统中的任何一个语音聊天系统中执行所述语音识别结果的显示时,所述文本获取单元开始获取所述文本。

在该方面,当在所述多个语音聊天系统中都不执行所述语音识别结果的显示时,所述文本获取单元停止获取所述文本。

此外,在本发明的一方面,所述发送控制单元基于作为所述通信目的地的所述语音聊天系统中是否包括被配置为显示语音识别结果的辅助装置,来控制是否将所述文本数据发送到所述通信目的地。

在该方面,当所述多个语音聊天系统中的任何一个语音聊天系统中包括所述辅助装置时,所述文本获取单元开始获取所述文本。

此外,当所述多个语音聊天系统中都不包括所述辅助装置时,所述文本获取单元可停止获取所述文本。

此外,在本发明的一方面,所述的语音聊天装置还包括:文本接收单元,其被配置为接收文本;以及语音获取单元,其被配置为获取作为对所述文本进行语音合成的结果而获得的语音。所述发送控制单元基于是否在作为所述通信目的地的语音聊天系统中执行所述语音识别结果的显示,来控制是否将包括由所述文本接收单元接收到的所述文本的文本数据发送到所述通信目的地。

在该方面,所述文本接收单元接收输入到连接至所述语音聊天装置的辅助装置的所述文本。

此外,在本发明的一方面,所述文本获取单元向能够与上述语音聊天装置通信的服务器发送指示所述语音的语音数据,并且所述文本获取单元从所述服务器接收作为对所述语音数据指示的所述语音进行语音识别的结果而获得的文本。

此外,根据本发明,提供了一种语音聊天方法,该方法包括以下步骤:接收语音聊天中的语音;获取作为对所述语音进行语音识别的结果而获得的文本;以及基于是否在作为通信目的地的语音聊天系统中执行语音识别结果的显示,来控制是否将包括所述文本的文本数据发送到所述通信目的地。

此外,根据本发明,提供了一种程序,用于使计算机执行以下过程:接收语音聊天中的语音;获取作为对所述语音进行语音识别的结果而获得的文本;以及基于是否在作为通信目的地的语音聊天系统中执行语音识别结果的显示,来控制是否将包括所述文本的文本数据发送到所述通信目的地。

附图说明

图1是示出根据本发明实施例的计算机网络的示例性总体配置的图。

图2A是示出根据本发明实施例的语音聊天系统的示例性配置的图。

图2B是示出根据本发明实施例的语音聊天系统的示例性配置的图。

图3是示出示例性参与方管理数据的图。

图4是示出当输入用于语音聊天的语音时执行的示例性处理的图。

图5是示出示例性参与方管理数据的图。

图6是示出当输入要转换为用于语音聊天的语音的文本时执行的示例性处理的图。

图7是示出当输入用于语音聊天的语音时执行的示例性处理的图。

图8是示出示例性辅助屏幕的图。

图9是示出在根据本发明实施例的语音聊天系统中实现的示例性功能的功能框图。

图10是示出在根据本发明实施例的语音聊天装置中执行的示例性处理流程的流程图。

图11是示出在根据本发明实施例的语音聊天装置中执行的示例性处理流程的流程图。

图12是示出在根据本发明实施例的语音聊天装置中执行的示例性处理流程的流程图。

具体实施方式

图1是示出根据本发明实施例的计算机网络的示例性总体配置的图。如图1所示,语音聊天系统10(10-1、10-2、…、和10-n)、语音代理服务器12和管理服务器14(其每个主要包括计算机)连接到诸如因特网的计算机网络16。语音聊天系统10、语音代理服务器12和管理服务器14可以彼此通信。

管理服务器14例如是被配置为管理关于使用语音聊天系统10的用户的账户信息的服务器等计算机。管理服务器14例如存储与各个用户相关联的多个账户数据。账户数据包括例如作为关于用户的标识信息的用户标识(ID)、指示用户的真实姓名的实名数据和指示用户的电子邮件地址的电子邮件地址数据。

本实施例的语音代理服务器12是服务器计算机,例如,被配置为生成指示对接收到的语音进行语音识别处理的结果的文本、以及生成指示对接收到的文本进行语音合成处理的结果的语音。语音代理服务器12可以实现语音识别引擎和语音合成引擎,语音识别引擎被配置为生成指示对接收到的语音进行语音识别处理的结果的文本,语音合成引擎被配置为生成指示对接收到的文本进行语音合成处理的结果的语音。

如图2A所示,语音聊天系统10包括语音聊天装置20和路由器22。

语音聊天装置20是能够在语音聊天中输入或输出语音的计算机,例如视频游戏控制台、便携式视频游戏设备、智能手机或个人计算机。

如图2A所示,语音聊天装置20包括例如处理器20a、存储单元20b、通信单元20c、显示单元20d、操作单元20e、麦克风20f、扬声器20g和编码/解码单元20h。注意,语音聊天装置20可以包括相机。

处理器20a例如是诸如中央处理单元(CPU)的程序控制设备,并且基于存储在存储单元20b中的程序执行各种类型的信息处理。

存储单元20b例如是诸如只读存储器(ROM)或随机存取存储器(RAM)或硬盘驱动器的存储元件。

通信单元20c例如是用于经由路由器22和计算机网络16向诸如其他语音聊天系统10、语音代理服务器12或管理服务器14的计算机发送数据或从其接收数据的通信接口。

显示单元20d例如是液晶显示器,并且显示由处理器20a生成的屏幕或由经由通信单元20c接收的运动图像数据指示的运动图像。

操作单元20e例如是用于向处理器20a输入操作的操作部件。注意,操作单元20e可以是视频游戏控制器。

麦克风20f例如是用于语音聊天中的语音输入的语音输入设备。

扬声器20g例如是用于语音聊天中的语音输出的语音输出设备。

编码/解码单元20h例如包括编码器和解码器。编码/解码单元20h对输入语音进行编码以生成指示该语音的语音数据。此外,编码/解码单元20h对输入语音数据进行解码以输出由语音数据指示的语音。

此外,通过执行预定的配对处理,如图2B所示,除了语音聊天装置20之外,还可以将配置为辅助语音聊天的辅助装置24添加到根据本实施例的语音聊天系统10中。

辅助装置24例如是诸如智能手机或平板设备的便携式计算机。注意,辅助装置24可以是固定的计算机。

根据本实施例的辅助装置24包括例如处理器24a、存储单元24b、通信单元24c和触摸面板24d。

处理器24a例如是诸如CPU的程序控制设备,并且基于存储单元24b中存储的程序执行各种类型的信息处理。

存储单元24b例如是诸如ROM或RAM或硬盘驱动器的存储元件。

通信单元24c例如是用于经由路由器22向诸如语音聊天装置20的计算机发送数据或从其接收数据的通信接口。注意,通信单元24c可以例如经由路由器22和计算机网络16向诸如其他语音聊天系统10、语音代理服务器12、或者管理服务器14的计算机发送数据或从其接收数据。

触摸面板24d包括例如彼此集成的触摸传感器和诸如液晶显示器的显示器。触摸面板24d显示由处理器24a生成的屏幕。此外,用户在触摸面板24d上执行各种类型的操作,例如轻敲触摸面板24d,从而能够执行对处理器24a的操作输入。

语音聊天装置20和辅助装置24通过电缆或无线方式连接到路由器22,路由器22连接到计算机网络16。语音聊天装置20和辅助装置24经由路由器22与其他语音聊天系统10、语音代理服务器12或管理服务器14通信。

在本实施例中,多个语音聊天系统10(10-1到10-n)支持语音聊天。因此,本实施例允许使用各自的语音聊天系统10的多个用户享受语音聊天。这里,例如,用户可以在共享描述参与语音聊天的部分或全部用户正在玩的视频游戏中的情况的运动图像的同时进行语音聊天。

在本实施例中,参与语音聊天的多个用户属于称为“参与方”(party)的组。此外,根据本实施例的语音聊天系统10的用户执行预定操作,从而能够创建新的参与方或参与到已经创建的参与方中。

此外,在本实施例中,辅助装置24和语音聊天装置20已经配对的语音聊天系统10的用户执行预定操作,从而能够在语音聊天系统10中使用语音聊天辅助服务。

在语音聊天辅助服务可用的语音聊天系统10中,可以在辅助装置24的触摸面板24d上显示对语音聊天中语音进行语音识别结果,或者可以为语音聊天输入文本而不是语音。此外,使用语音聊天辅助服务的用户执行预定操作,从而能够停止使用语音聊天辅助服务。

在本实施例中,利用图3所示的参与方管理数据来管理与参与方相关联的信息。例如,将参与方管理数据存储在管理服务器14中。如图3所示,参与方管理数据包括作为关于参与方的标识信息的参与方ID和与参与到该参与方的用户相关联的用户数据。用户数据包括用户ID、连接目的地地址数据、类型数据、辅助服务使用标志等。

用户ID例如是关于用户的标识信息。连接目的地地址数据例如是指示用户使用的语音聊天装置20的地址的数据。类型数据例如是指示用户使用的语音聊天装置20的类型的数据。辅助服务使用标志例如是指示在用户使用的语音聊天系统10中语音聊天辅助服务是否可用的标志。这里,例如,在语音聊天系统10中提供语音聊天辅助服务的情况下,设置值为1的辅助服务使用标志。此外,例如,在语音聊天系统10中语音聊天辅助服务不可用的情况下,设置值为0的辅助服务使用标志。

图3例示了参与方ID为001的其中五个用户参与的一方的参与方管理数据。图3所示的参与方管理数据包括与参与该参与方的各个用户相关联的五条用户数据。在下文中,用户ID为aaa的用户、用户ID为bbb的用户、用户ID为ccc的用户、用户ID为ddd的用户和用户ID为eee的用户分别被称为“用户A”、“用户B”、“用户C”、“用户D”和“用户E”。此外,用户A、用户B、用户C、用户D和用户E使用各自的语音聊天系统10-1、10-2、10-3、10-4和10-5。此外,语音聊天系统10-1、10-2、10-3、10-4和10-5包括各自的语音聊天装置20-1、20-2、20-3、204和20-5。

图3所示的参与方管理数据指示语音聊天辅助服务在语音聊天系统10中都不可用。

此外,在本实施例中,存储在管理服务器14中的参与方管理数据的副本被发送到参与到与参与方管理数据相关联的一方的用户所使用的语音聊天装置20。语音聊天装置20的存储单元20b存储在管理服务器14中存储的参与方管理数据的副本。因此,参与到该参与方的用户使用的语音聊天装置20可以识别参与到该参与方的用户使用的语音聊天装置20的地址。

此外,在本实施例中,例如,当用户执行参与到一方中的操作、开始使用语音聊天辅助服务的操作或停止使用语音聊天辅助服务的操作时,更新存储在管理服务器14中的参与方管理数据。每次更新存储在管理服务器14中的参与方管理数据时,更新后的参与方管理数据的副本被发送到参与到与参与方管理数据相关联的一方的用户使用的语音聊天装置20。然后,更新存储在语音聊天装置20的存储单元20b中的参与方管理数据的副本。这样,在本实施例中,在参与到与参与方管理数据相关联的一方的用户使用的语音聊天装置20之间共享在参与方管理数据中描述的最新信息。

下面的描述假设在图3的参与方管理数据中描述的五个用户具有语音聊天。

图4是示出在如图3所示的参与方管理数据的情况下,当用户A输入用于语音聊天的语音时执行的示例性处理的图。在这种情况下,在每个语音聊天系统10-1到10-5中,包括在相应的语音聊天系统10中的语音聊天装置20执行参与方处理30。

当用户A通过语音聊天装置20-1的麦克风20f输入语音时,指示该语音的语音数据被输入到语音聊天装置20-1的参与方处理30(参见图4中的(1))。然后,参与方处理30将输入的语音数据发送到与用户A参与到同一方的其他用户所使用的语音聊天装置20的参与方处理30(参见图4中的(2))。这里,例如,可以发送与用户A的用户ID相关联的语音数据。在图4中,语音聊天装置20-2被图示为语音数据的示例性发送目的地,但是类似的语音数据被发送到语音聊天装置20-3到20-5。然后,接收到语音数据的参与方处理30从扬声器20g输出由语音数据指示的语音(参见图4中的(3))。

以类似的方式,从与该用户参与到同一方的其他用户使用的语音聊天装置20输出由用户B至用户E中的每一个用户输入的语音。

图5是示出其他示例性参与方管理数据的图。图5所示的参与方管理数据指示语音聊天辅助服务在语音聊天系统10-1和10-2中可用,但是在语音聊天系统10-3到10-5中不可用。

注意,下面的描述假设语音聊天系统10-1包括语音聊天装置20-1和辅助装置24-1,并且语音聊天系统10-2包括语音聊天装置20-2和辅助装置24-2。

在本实施例中,例如,当用户A执行预定操作以启用语音聊天系统10-1中的语音聊天辅助服务时,存储在管理服务器14中的参与方管理数据被更新。这里,例如,将用户ID为aaa的用户数据的辅助服务使用标志的值从0更新为1。然后,作为响应,存储在语音聊天装置20-1至20-5中的参与方管理数据也被更新。

此外,以类似方式,当用户B执行预定操作以启用语音聊天系统10-2中的语音聊天辅助服务时,存储在管理服务器14和语音聊天装置20-1到20-5中的参与方管理数据被更新。这里,例如,将用户ID为bbb的用户数据的辅助服务使用标志的值从0更新为1。

图6是示出在如图5所示的参与方管理数据的情况下,当用户A输入要转换为用于语音聊天的语音的文本时执行的示例性处理的图。同样在该示例中,在语音聊天系统10-1到10-5中的每一个中,包括在相应的语音聊天系统10中的语音聊天装置20执行参与方处理30。

此外,在本示例中,语音聊天辅助服务可用的语音聊天系统10的辅助装置24执行伴随应用处理32。然后,语音聊天系统10的语音聊天装置20执行用于与伴随应用处理32通信的代理处理34。这里,例如,辅助装置24-1和24-2执行伴随应用处理32。然后,语音聊天装置20-1执行代理处理34,以与辅助装置24-1的伴随应用处理32进行通信。此外,语音聊天装置20-2执行用于与辅助装置24-2的伴随应用处理32通信的代理处理34。

此外,在本实施例中,如图5所示,语音聊天辅助服务在参与到该参与方的用户使用的语音聊天系统10中的至少一个中可用。在这种情况下,参与到该参与方的用户使用的所有语音聊天装置20都执行语音代理处理36。

例如,当存储在语音聊天装置20中的参与方管理数据中包括的任何用户数据的辅助服务使用标志的值被更新为1时,语音聊天装置20启用语音代理处理36。

这里,例如,语音聊天装置20-1至20-5执行语音代理处理36。注意,在本实施例中,虽然语音聊天系统10-3至10-5中没有语音聊天辅助服务,但是语音聊天装置20-3至20-5执行语音代理处理36。

这里,例如,用户A向辅助装置24-1的触摸面板24d输入文本(参见图6中的(1))。然后,辅助装置24-1的伴随应用处理32向语音聊天装置20-1的代理处理34发送包括文本的文本数据(参见图6中的(2))。然后,在语音聊天装置20-1中,代理处理34将文本数据输出到语音代理处理36和参与方处理30(参见图6中的(3)和(4))。

然后,语音聊天装置20-1的语音代理处理36向语音代理服务器12发送文本数据(参见图6中的(5))。然后,语音代理服务器12对文本数据执行语音合成处理,并将作为处理结果而获得的语音数据发送到语音聊天装置20-1的语音代理处理36(参见图6中的(6))。然后,语音代理处理36将语音数据输出到参与方处理30(参见图6中的(7))。

然后,语音聊天装置20-1的参与方处理30识别语音聊天辅助服务可用的其他语音聊天系统10。这里,例如,语音聊天系统10-2被识别。然后,语音聊天装置20-1的参与方处理30将上述语音数据和文本数据发送到所识别的语音聊天系统10中包括的语音聊天装置20的参与方处理30(参见图6中的(8))。这里,例如,可以发送与用户A的用户ID相关联的语音数据和文本数据。

然后,语音聊天装置20-2的参与方处理30将接收到的文本数据输出到代理处理34(参见图6中的(9))。然后,语音聊天装置20-2的代理处理34将文本数据发送到辅助装置24-2的伴随应用处理32(参见图6中的(10))。然后,辅助装置24-2的伴随应用处理32在触摸面板24d上显示包括在文本数据中的文本(参见图6中的(11))。此外,语音聊天装置20-2的参与方处理30可以输出从扬声器20g接收到的语音数据所指示的语音(参见图6中的(12))。

此外,语音聊天装置20-1的参与方处理30识别语音聊天辅助服务不可用的其他语音聊天系统10。这里,例如,语音聊天系统10-3到10-5被识别。然后,语音聊天装置20-1的参与方处理30仅将上述语音数据发送到所识别的语音聊天系统10中包括的语音聊天装置20的参与方处理30(参见图6中的(13))。这里,例如,可以发送与用户A的用户ID相关联的语音数据。上述文本数据不被发送到语音聊天辅助服务不可用的语音聊天系统10的参与方处理30。在图6中,语音数据被发送到作为代表的语音聊天装置20-3的参与方处理30。然后,语音聊天装置20-3的参与方处理30从扬声器20g输出由接收到的语音数据指示的语音(参见图6中的(14))。注意,在本实施例中,以类似的参与方式从语音聊天装置20-4和20-5的扬声器20g输出由上述语音数据指示的语音。

图7是示出在如图5所示的参与方管理数据的情况下,当用户C输入语音聊天的语音时执行的示例性处理的图。

当用户C通过语音聊天装置20-3的麦克风20f输入语音时,指示该语音的语音数据被输入到语音聊天装置20-3的参与方处理30和语音代理处理36(参见图7中的(1))。

然后,语音聊天装置20-3的语音代理处理36向语音代理服务器12发送语音数据(参见图7中的(2))。然后,语音代理服务器12对语音数据执行语音识别处理,并将作为处理结果获得的文本数据发送到语音代理处理36(参见图7中的(3))。然后,语音代理处理36将文本数据输出到参与方处理30(参见图7中的(4))。

然后,语音聊天装置20-3的参与方处理30识别语音聊天辅助服务可用的其他语音聊天系统10。这里,例如,语音聊天系统10-1和10-2被识别。然后,语音聊天装置20-3的参与方处理30将上述语音数据和文本数据发送到在所识别的语音聊天系统10中包括的语音聊天装置20的参与方处理30(参见图7中的(5))。这里,例如,可以发送与用户C的用户ID相关联的语音数据和文本数据。在图7中,语音数据和文本数据被发送到作为代表的语音聊天装置20-1的参与方处理30。

然后,语音聊天装置20-1的参与方处理30将接收到的文本数据输出到代理处理34(参见图7中的(6))。然后,语音聊天装置20-1的代理处理34向辅助装置24-1的伴随应用处理32发送文本数据(参见图7中的(7))。然后,辅助装置24-1的伴随应用处理32在触摸面板24d上显示包括在文本数据中的文本(参见图7中的(8))。此外,语音聊天装置20-1的参与方处理30可以输出从扬声器20g接收到的语音数据所指示的语音(参见图7中的(9))。注意,在本实施例中,辅助装置24-2以类似的参与方式在触摸面板24d上显示包括在文本数据中的文本。这里,可以从语音聊天装置20-2的扬声器20g输出由上述语音数据指示的语音。

此外,语音聊天装置20-3的参与方处理30识别语音聊天辅助服务不可用的其他语音聊天系统10。这里,例如,识别语音聊天系统10-4和10-5。然后,语音聊天装置20-3的参与方处理30仅将上述语音数据发送到在所识别的语音聊天系统10中包括的语音聊天装置20的参与方处理30(参见图7中的(10))。这里,例如,可以发送与用户C的用户ID相关联的语音数据。上述文本数据不被发送到语音聊天辅助服务不可用的语音聊天系统10的参与方处理30。在图7中,语音数据被发送到作为代表的语音聊天装置20-4的参与方处理30。然后,语音聊天装置20-4的参与方处理30从扬声器20g输出由接收到的语音数据指示的语音(参见图7中的(11))。注意,在本实施例中,以类似的参与方式从语音聊天装置20-5的扬声器20g输出由上述语音数据指示的语音。

图8是示出在根据本实施例的辅助装置24的触摸面板24d上显示的示例性辅助屏幕的图。图8示出了显示在辅助装置24-1的触摸面板24d上的辅助屏幕,其中语音聊天辅助服务可用,用户A使用该辅助屏幕。

在图8所示的辅助屏幕上,显示作为对用户A以外的用户输入的语音的语音识别的结果而获得的文本。例如,在图8所示的辅助屏幕上,与表示用户B的用户ID的字符串S2相关联地显示作为对用户B输入的语音进行识别的结果而获得的文本S1。例如,可以基于从与用户B的用户ID相关联的语音聊天装置20-2发送的语音数据和文本数据来识别用户B的用户ID。

此外,在图8所示的辅助屏幕上,与表示用户C的用户ID的字符串S4相关联地显示作为对用户C输入的语音识别的结果而获得的文本S3。例如,可以基于从与用户C的用户ID相关联的语音聊天装置20-3发送的语音数据和文本数据来识别用户C的用户ID。

此外,在辅助屏幕上,显示用于文本输入的表格F和用于公布表格F中的文本输入的发送按钮SB。例如,用户A在表格F中输入文本并点击发送按钮SB以将包括该文本的文本数据发送到语音聊天装置20-1。此外,在辅助屏幕上,与表示用户A的用户ID的字符串S6相关联地显示由用户A以这种方式输入的文本S5。

在本实施例中,在参与到该参与方的用户所使用的语音聊天系统10中语音聊天辅助服务都不可用的情况下,在参与到该参与方的用户所使用的所有语音聊天装置20中结束语音代理处理36。

例如,当存储在语音聊天装置20中的参与方管理数据中包括的所有用户数据的辅助服务使用标志的值都被设置为0时,语音聊天装置20结束语音代理处理36。

如上所述,在本实施例中,不向语音聊天辅助服务不可用的语音聊天系统10提供作为对语音聊天中的语音进行识别的结果而获得的文本。因此,根据本实施例,与将作为对语音聊天中的语音进行语音识别的结果而获得的文本提供给所有语音聊天系统10的情况相比,减少了用于语音聊天的数据通信量。这样,根据本实施例,可以适当地控制是否提供作为对语音聊天中的语音上进行语音识别的结果而获得的文本。

现在,更详细地描述在根据本实施例的语音聊天系统10中实现的功能。

图9是示出在根据本实施例的语音聊天系统10中实现的示例性功能的功能框图。注意,在根据本实施例的语音聊天系统10中,不一定实现图9所示的所有功能,并且可以实现除图9所示的功能以外的功能。

如图9所示,根据本实施例的语音聊天装置20在功能上包括例如参与方管理数据存储单元40、参与方管理单元42、语音接收单元44、文本获取单元46、文本接收单元48、语音获取单元50、发送控制单元52、数据接收单元54、语音输出单元56和辅助发送单元58。

参与方管理数据存储单元40主要由存储单元20b实现。参与方管理单元42和发送控制单元52主要由处理器20a和通信单元20c实现。语音接收单元44主要由麦克风20f和编码/解码单元20h实现。文本获取单元46、文本接收单元48、语音获取单元50、数据接收单元54和辅助发送单元58主要由通信单元20c实现。语音输出单元56主要由扬声器20g和编码/解码单元20h实现。

上述功能由处理器20a执行包括与上述功能相对应的指令的程序来实现,该程序已安装在作为计算机的语音聊天装置20上。例如,通过诸如光盘、磁盘、磁带、磁光盘或闪存之类的计算机可读信息存储介质或经由因特网将程序提供给语音聊天装置20。

此外,如图9所示,根据本实施例的辅助装置24在功能上包括例如文本接收单元60、文本发送单元62、辅助接收单元64以及显示控制单元66。文本接收单元60和显示控制单元66主要由处理器24a和触摸面板24d实现。文本发送单元62和辅助接收单元64主要通过通信单元24c实现。

上述功能由处理器24a执行包括与上述功能相对应的指令的程序来实现,该程序已安装在作为计算机的辅助装置24上。例如,通过诸如光盘、磁盘、磁带、磁光盘或闪存之类的计算机可读信息存储介质或经由因特网将程序提供给辅助装置24。

本实施例的参与方管理数据存储单元40存储例如图3和图5所示的参与方管理数据。

例如,当接收到从管理服务器14发送的参与方管理数据时,本实施例的参与方管理单元42将存储在参与方管理数据存储单元40中的参与方管理数据更新为接收的参与方管理数据。

在本实施例中,例如,当用户执行开始使用语音聊天辅助服务的操作或停止使用语音聊天辅助服务的操作时,更新存储在管理服务器14中的参与方管理数据中的辅助服务使用标志的值。然后,管理服务器14基于更新,将更新后的参与方管理数据发送到参与到由参与方管理数据管理的一方的用户所使用的语音聊天系统10。然后,如上所述,当接收到从管理服务器14发送的参与方管理数据时,参与方管理单元42将存储在参与方管理数据存储单元40中的参与方管理数据更新为接收到的参与方管理数据。

此外,参与方管理单元42可以基于更新后的参与方管理数据,检测在任何语音聊天系统10中启用语音识别结果的显示。该检测包括例如检测到曾经全部为0的辅助服务使用标志的值中的至少一个被改变为1。

此外,参与方管理单元42可以基于更新后的参与方管理数据,检测在所有语音聊天系统10中禁用语音识别结果的显示。该检测包括例如检测到曾经为1的辅助服务使用标志的值中的至少一个被改变,以便所有辅助服务使用标志的值都为0。

本实施例的语音接收单元44例如接收语音聊天中的语音。语音接收单元44可以对语音进行编码以生成指示该语音的语音数据。

本实施例的文本获取单元46获取例如作为对由语音接收单元44接收到的语音进行语音识别的结果而获得的文本。这里,例如,文本获取单元46可以向能够与语音聊天装置20通信的语音代理服务器12发送指示该语音的语音数据。然后,文本获取单元46可以从语音代理服务器12接收文本数据,该文本数据包括作为对由语音数据指示的语音进行语音识别处理的结果而获得的文本。该功能对应于图6和图7所示的语音代理处理36的功能。

此外,当在至少一个语音聊天系统10中的任何一个中启用语音识别结果的显示时,文本获取单元46可以开始获取文本。此外,当在至少一个语音聊天系统10中的任何一个中包括辅助装置24时,文本获取单元46可以开始获取文本。例如,当参与方管理单元42检测到在任何语音聊天系统10中启用了文本的显示时,文本获取单元46可以启动语音代理处理36。

此外,当在所有的所述至少一个语音聊天系统10中禁止显示语音识别结果时,文本获取单元46可以停止获取文本。此外,当在至少一个语音聊天系统10中都不包括辅助装置24时,文本获取单元46可以停止获取文本。例如,当参与方管理单元42检测到在所有语音聊天系统10中都禁止显示文本时,文本获取单元46可以结束语音代理处理36。

本实施例的语音聊天装置20的文本接收单元48例如接收要进行语音合成处理的文本。这里,文本接收单元48可以接收例如输入到连接到语音聊天装置20的辅助装置24的文本。该功能对应于图6和图7所示的代理处理34的功能。

本实施例的语音获取单元50例如获取作为对文本接收单元48接收到的文本进行语音合成的结果而获得的语音。这里,例如,语音获取单元50可以向能够与语音聊天装置20进行通信的语音代理服务器12发送指示文本的文本数据。然后,语音获取单元50可以从语音代理服务器12接收作为对文本数据中包括的文本进行语音合成的结果而获得的语音。该功能对应于图6和图7所示的语音代理处理36的功能。

本实施例的发送控制单元52例如基于作为通信目的地的语音聊天系统10中是否启用了语音识别结果的显示,来控制是否向通信目的地发送文本数据。这里,发送控制单元52可以基于作为通信目的地的语音聊天系统10中是否启用了语音识别结果的显示,来控制是否向通信目的地发送语音数据或语音数据和文本数据。例如,发送控制单元52可以控制是否发送指示由语音接收单元44接收到的语音的语音数据,或者是否与语音数据一起发送由文本获取单元46获取的文本数据。此外,例如,发送控制单元52可以控制是否发送指示由语音获取单元50获取的语音的语音数据,或者是否与语音数据一起发送包括由文本接收单元48接收到的文本的文本数据。该功能对应于图5到图7所示的参与方处理30的功能。

这里,发送控制单元52可以例如基于作为通信目的地的语音聊天系统10是否包括被配置为显示语音识别结果的辅助装置24,来控制是否向通信目的地发送文本数据。此外,发送控制单元52可以例如基于作为通信目的地的语音聊天系统10是否包括被配置为显示语音识别结果的辅助装置24,来控制是否发送语音数据或语音数据和文本数据。

此外,例如,基于存储在参与方管理数据存储单元40中的参与方管理数据中的辅助服务使用标志的值,可以控制是否向通信目的地发送文本数据。例如,可以将语音数据和文本数据发送到辅助服务使用标志的值为1的语音聊天系统10。同时,可以仅将语音数据发送到辅助服务使用标志的值为0的语音聊天系统10。

本实施例的数据接收单元54接收例如从作为通信目的地的语音聊天装置20发送的语音数据。此外,本实施例的数据接收单元54接收例如从作为通信目的地的语音聊天装置20发送的文本数据。该功能对应于图5至图7所示的参与方处理30的功能。

本实施例的语音输出单元56例如输出语音聊天中的语音。例如,语音输出单元56输出由数据接收单元54接收到的语音数据指示的语音。语音输出单元56可以解码由数据接收单元54接收到的语音数据以输出由语音数据指示的语音。

本实施方式的辅助发送单元58例如向辅助装置24发送由数据接收单元54接收到的文本数据。该功能与图6和图7所示的代理处理34的功能相对应。

本实施例的辅助装置24的文本接收单元60接收例如输入到触摸面板24d的文本。

本实施例的文本发送单元62例如向语音聊天装置20发送包括由文本接收单元60接收到的文本的文本数据。

本实施例的辅助接收单元64例如接收从语音聊天装置20发送的文本数据。

本实施例的显示控制单元66例如在触摸面板24d上显示辅助接收单元64接收的文本数据中包括的文本或文本接收单元60接收到的文本。显示控制单元66可以在触摸面板24d上显示图8所示的辅助屏幕。

辅助装置24的文本接收单元60、文本发送单元62、辅助接收单元64和显示控制单元66的功能对应于图6和图7所示的伴随应用处理32的功能。

这里,参照图10的流程图描述在根据本实施例的语音代理处理36已经停止的语音聊天装置20中执行的处理的示例流程。以预定的采样率重复执行图10所示的S101到S102中的处理。

首先,语音接收单元44对在该循环的期间中接收到的语音进行编码以生成语音数据(S101)。

然后,发送控制单元52将在S101中的处理中生成的语音数据发送到参与到同一方的用户使用的语音聊天装置20(S102),并且处理返回到S101中的处理。注意,语音数据不是被发送到执行S102中的处理的语音聊天装置20。

在S102的处理中已经接收到发送的语音数据的语音聊天装置20输出由语音数据指示的语音。

接下来,参考图11的流程图描述在根据本实施例的语音代理处理36已经被操作的语音聊天装置20中执行的处理的示例流程。以预定的采样率重复执行图11所示的S201到S207中的处理。

首先,语音接收单元44对在该循环的期间中接收到的语音进行编码以生成语音数据(S201)。

然后,文本获取单元46将在S201中的处理中生成的语音数据发送到语音代理服务器12(S202)。

然后,文本获取单元46接收从语音代理服务器12发送的文本数据(S203)。

然后,发送控制单元52基于存储在参与方管理数据存储单元40中的参与方管理数据,识别与辅助服务使用标志的值为1的用户数据相关联的语音聊天装置20(S204)。

然后,发送控制单元52向在S204的处理中识别的语音聊天装置20发送在S201的处理中生成的语音数据和在S203的处理中接收到的文本数据(S205)。注意,语音数据和文本数据不是被发送到执行S205中的处理的语音聊天装置20。

然后,发送控制单元52基于存储在参与方管理数据存储单元40中的参与方管理数据,识别与辅助服务使用标志的值为0的用户数据相关联的语音聊天装置20(S206)。

然后,发送控制单元52将在S201中的处理中生成的语音数据发送到在S206中的处理中识别的语音聊天装置20(S207),并且处理返回到S201中的处理。注意,语音数据不是被发送到执行S207中的处理的语音聊天装置20。

在S205或S207的处理中接收到发送的语音数据的语音聊天装置20输出由语音数据指示的语音。

在S205的处理中已经接收到发送的文本数据的语音聊天装置20将文本数据发送到连接到语音聊天装置20的辅助装置24。然后,接收到文本数据的辅助装置24在辅助装置24的触摸面板24d上显示包含在文本数据中的文本。

注意,在S205的处理中,可以仅发送在S203的处理中接收到的文本数据。在这种情况下,接收到文本数据的语音聊天装置20可以不输出由在S201的处理中生成的语音数据所指示的语音。

接下来,参考图12的流程图描述在根据本实施例的语音代理处理36已经操作的语音聊天装置20中执行的基于输入文本的处理的示例流程。以预定的采样率重复执行图12所示的S301到S307中的处理。

首先,文本接收单元48接收在该循环期间从辅助装置24发送的文本数据(S301)。

然后,语音获取单元50将在S301中的处理中生成的文本数据发送到语音代理服务器12(S302)。

然后,语音获取单元50接收从语音代理服务器12发送的语音数据(S303)。

然后,发送控制单元52基于存储在参与方管理数据存储单元40中的参与方管理数据,识别与辅助服务使用标志的值为1的用户数据相关联的语音聊天装置20(S304)。

然后,发送控制单元52向在S304中的处理中识别的语音聊天装置20发送在S303中的处理中接收到的语音数据和在S301中的处理中接收到的文本数据(S305)。注意,语音数据和文本数据不是被发送到执行S305中的处理的语音聊天装置20。

然后,发送控制单元52基于存储在参与方管理数据存储单元40中的参与方管理数据,识别与辅助服务使用标志的值为0的用户数据相关联的语音聊天装置20(S306)。

然后,发送控制单元52将在S303的处理中接收到的语音数据发送到在S306的处理中识别的语音聊天装置20(S307),并且处理返回到S301的处理。注意,在S307中,语音数据不是被发送到执行S307中的处理的语音聊天装置20。

在S305或S307的处理中已经接收到发送的语音数据的语音聊天装置20输出由语音数据指示的语音。

在S305的处理中已经接收到发送的文本数据的语音聊天装置20将文本数据发送到连接到语音聊天装置20的辅助装置24。然后,接收到文本数据的辅助装置24在辅助装置24的触摸面板24d上显示包含在文本数据中的文本。

注意,在S305的处理中,可以仅发送在S301的处理中接收到的文本数据。在这种情况下,接收到文本数据的语音聊天装置20可以不输出由在S303的处理中生成的语音数据所指示的语音。

注意,本发明不限于上述实施例。

例如,语音聊天装置20和辅助装置24的角色划分不限于上述。例如,辅助装置24可以实现图9所示的语音聊天装置20的部分或全部功能。此外,例如,语音聊天装置20可以实现图9所示的辅助装置24的部分或全部功能。

此外,上述具体字符串和数值以及附图中的具体字符串和数值是说明性的,并且本发明不限于这些字符串和数值。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号