首页> 中国专利> 一种通话语音翻译方法、装置和耳机设备

一种通话语音翻译方法、装置和耳机设备

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明实施例提供了一种通话语音翻译方法、装置和耳机设备，其中，所述方法应用于耳机设备中，所述的方法包括：在所述耳机设备用于通话的过程中，所述耳机设备获取第一用户的第一通话语音数据，其中，所述第一用户是其他通话参与用户；播放所述第一通话语音数据；以及获取所述第一通话语音数据对应的第一翻译文本并展示所述第一翻译文本；获取所述第一翻译文本对应的第一翻译语音数据，并播放所述第一翻译语音数据。进而在通话过程中，无需使用专用的翻译设备；从而简化跨语言跨空间的电话交流场景中的翻译操作，提高通话语音翻译效率。且也无需外放通话语音，还能够避免信息泄漏，提高用户体验。

著录项

公开/公告号CN113286217A

专利类型发明专利
公开/公告日2021-08-20

原文格式PDF
申请/专利权人北京搜狗智能科技有限公司;
展开▼

申请/专利号CN202110443370.2
发明设计人牛红霞;张爽;
展开▼

申请日2021-04-23
分类号H04R1/10(20060101);H04R3/00(20060101);G06F40/58(20200101);G10L13/02(20130101);G10L15/00(20130101);G10L15/22(20060101);G10L15/30(20130101);
代理机构11319 北京润泽恒知识产权代理有限公司;
代理人苏培华
地址 100084 北京市海淀区中关村东路1号院9号楼8层802
入库时间 2023-06-19 12:16:29

说明书

技术领域

本发明涉及数据处理技术领域，特别是涉及一种通话语音翻译方法、装置和耳机设备。

背景技术

随着全球化的推进，各国在商业、生活上的交流变得日益频繁；例如，跨国贸易、国际交流会议、跨国旅游等等。

由于各国/各地区使用的语言不同，使得语言成为了各国在商业和生活交流过程中的主要障碍之一；为了解决语言障碍，翻译设备应运而生；如翻译机、翻译笔等等。

在跨语言跨空间的电话交流场景中，用户需要开启免提模式；然后采用专用翻译设备对通话语音进行拾音并翻译，操作十分繁琐。

发明内容

本发明实施例提供一种通话语音翻译方法，以简化跨语言跨空间的电话交流场景中的翻译操作，提高通话语音翻译效率。

相应的，本发明实施例还提供了一种通话语音翻译装置和一种耳机设备，用以保证上述方法的实现及应用。

为了解决上述问题，本发明实施例公开了一种通话语音翻译方法，应用于耳机设备中，具体包括：在所述耳机设备用于通话的过程中，所述耳机设备获取第一用户的第一通话语音数据，其中，所述第一用户是其他通话参与用户；播放所述第一通话语音数据；以及获取所述第一通话语音数据对应的第一翻译文本并展示所述第一翻译文本；获取所述第一翻译文本对应的第一翻译语音数据，并播放所述第一翻译语音数据。

可选地，所述播放所述第一翻译语音数据，包括：在播放所述第一通话语音数据的同时，播放所述第一翻译语音数据；或，交替播放所述第一通话语音数据和第一翻译语音数据。

可选地，所述在播放所述第一通话语音数据的同时，播放所述第一翻译语音数据，包括：以大于第一通话语音数据的音量播放所述第一翻译语音数据。

可选地，所述耳机设备包括一幅耳机，所述播放所述第一通话语音数据，包括：在所述一幅耳机中的两只耳机中同时播放所述第一通话语音数据；所述在播放所述第一通话语音数据的同时，播放所述第一翻译语音数据，包括：在所述一幅耳机中的一只耳机中播放所述第一通话语音数据，在所述一幅耳机中的另一只耳机中播放所述第一翻译语音数据。

可选地，所述的方法还包括：在所述耳机设备用于通话的过程中，在显示界面中对通话过程中的发言者进行标识。

可选地，所述的方法还包括：在显示界面展示所述第一用户所使用的第一语种，和/或，在显示界面展示第二用户所使用的第二语种；其中，所述第二用户是使用所述耳机设备的用户。

可选地，所述的方法还包括：获取所述第一通话语音数据对应的第一语音识别文本并在显示界面展示。

可选地，所述的方法还包括：获取第二用户的第二通话语音数据；将所述第二通话语音数据发送至第一用户使用的电子设备；或，获取第二用户的第二通话语音数据，以及获取所述第二通话语音数据对应的第二翻译文本；并将所述第二通话语音数据和第二翻译文本发送至第一用户使用的电子设备；或，获取第二用户的第二通话语音数据，以及获取所述第二通话语音数据对应的第二翻译文本，并基于所述第二翻译文本合成第二翻译语音数据；将所述第二通话语音数据、第二翻译文本和第二翻译语音数据发送至第一用户使用的电子设备；或，获取第二用户的第二通话语音数据，并获取所述第二通话语音数据对应的第二翻译语音数据；将所述第二通话语音数据和第二翻译语音数据发送至第一用户使用的电子设备；其中，所述第二用户是使用所述耳机设备的用户。

可选地，所述的方法还包括：若获取到第二翻译文本，则在显示界面展示所述第二翻译文本。

可选地，所述的方法还包括：获取第二通话语音数据对应的第二语音识别文本；在显示界面展示所述第二语音识别文本。

可选地，所述获取所述第一通话语音数据对应的第一翻译文本，包括：基于所述第一通话语音数据向服务器发送翻译请求；接收所述服务器返回的第一翻译文本，所述第一翻译文本是服务器响应于所述翻译请求对所述第一通话语音数据进行翻译得到的；和/或，所述耳机设备在本地对所述第一通话语音数据进行翻译，得到第一翻译文本。

可选地，所述的方法还包括：当所述耳机设备用于通话时，在显示界面展示通话语音处理功能入口，所述通话语音处理功能入口包括通话语音翻译功能入口；接收第二用户针对所述通话语音翻译功能入口的触控操作，执行所述获取所述第一通话语音数据对应的第一翻译文本的步骤；其中，所述第二用户是使用所述耳机设备的用户。

可选地，所述获取所述第一通话语音数据对应的第一翻译文本，包括：获取第二用户所使用的第二语种，其中，所述第二用户是使用所述耳机设备的用户；基于所述第二用户所使用的第二语种，获取所述第一通话语音数据对应的第一翻译文本。

可选地，所述获取所述第二用户所使用的第二语种，包括以下至少一种：根据所述耳机设备的系统语种，确定所述第二用户所使用的第二语种；根据所述第二用户的第二通话语音数据对应的语种，确定所述第二用户所使用的第二语种；根据所述第二用户在所述显示界面所选择的语种，确定所述第二用户所使用的第二语种。

可选地，所述耳机设备包括耳机和与所述耳机连接的耳机收纳装置；所述播放所述第一通话语音数据，包括：所述耳机播放所述第一通话语音数据；所述获取所述第一通话语音数据对应的第一翻译文本并展示所述第一翻译文本，包括：所述耳机收纳装置获取所述第一通话语音数据对应的第一翻译文本并在显示界面展示所述第一翻译文本；所述获取所述第一翻译文本对应的第一翻译语音数据，包括：所述耳机收纳装置获取所述第一翻译文本对应的第一翻译语音数据；所述播放所述第一翻译语音数据，包括：所述耳机播放所述第一翻译语音数据。

可选地，所述耳机设备包括耳机收纳装置；所述播放所述第一通话语音数据，包括：所述耳机收纳装置播放所述第一通话语音数据；所述获取所述第一通话语音数据对应的第一翻译文本并展示所述第一翻译文本，包括：所述耳机收纳装置获取所述第一通话语音数据对应的第一翻译文本并在显示界面展示所述第一翻译文本；所述获取所述第一翻译文本对应的第一翻译语音数据，包括：所述耳机收纳装置获取所述第一翻译文本对应的第一翻译语音数据；所述播放所述第一翻译语音数据，包括：所述耳机收纳装置播放所述第一翻译语音数据。

本发明实施例还公开了一种通话语音翻译装置，应用于耳机设备中，具体包括：第一语音获取模块，用于在所述耳机设备用于通话的过程中，所述耳机设备获取第一用户的第一通话语音数据，其中，所述第一用户是其他通话参与用户；第一播放模块，用于播放所述第一通话语音数据；文本获取模块，用于获取所述第一通话语音数据对应的第一翻译文本并展示所述第一翻译文本；第二语音获取模块，用于获取所述第一翻译文本对应的第一翻译语音数据；第二播放模块，用于播放所述第一翻译语音数据。

可选地，所述第二播放模块，包括：同步播放子模块，用于在播放所述第一通话语音数据的同时，播放所述第一翻译语音数据；交替播放子模块，用于交替播放所述第一通话语音数据和第一翻译语音数据。

可选地，所述同步播放子模块，用于以大于第一通话语音数据的音量播放所述第一翻译语音数据。

可选地，所述第一播放模块，用于在所述一幅耳机中的两只耳机中同时播放所述第一通话语音数据；所述同步播放子模块，用于在所述一幅耳机中的一只耳机中播放所述第一通话语音数据，在所述一幅耳机中的另一只耳机中播放所述第一翻译语音数据。

可选地，所述的通话语音翻译装置还包括：标识显示模块，用于在所述耳机设备用于通话的过程中，在显示界面中对通话过程中的发言者进行标识。

可选地，所述的通话语音翻译装置还包括：语种显示模块，用于在显示界面展示所述第一用户所使用的第一语种，和/或，在显示界面展示第二用户所使用的第二语种；其中，所述第二用户是使用所述耳机设备的用户。

可选地，所述的通话语音翻译装置还包括：第一识别文本展示模块，用于获取所述第一通话语音数据对应的第一语音识别文本并在显示界面展示。

可选地，所述的通话语音翻译装置还包括：数据发送模块，用于获取第二用户的第二通话语音数据；将所述第二通话语音数据发送至第一用户使用的电子设备；或，获取第二用户的第二通话语音数据，以及获取所述第二通话语音数据对应的第二翻译文本；并将所述第二通话语音数据和第二翻译文本发送至第一用户使用的电子设备；或，获取第二用户的第二通话语音数据，以及获取所述第二通话语音数据对应的第二翻译文本，并基于所述第二翻译文本合成第二翻译语音数据；将所述第二通话语音数据、第二翻译文本和第二翻译语音数据发送至第一用户使用的电子设备；或，获取第二用户的第二通话语音数据，并获取所述第二通话语音数据对应的第二翻译语音数据；将所述第二通话语音数据和第二翻译语音数据发送至第一用户使用的电子设备；其中，所述第二用户是使用所述耳机设备的用户。

可选地，所述的通话语音翻译装置还包括：翻译文本显示模块，用于若获取到第二翻译文本，则在显示界面展示所述第二翻译文本。

可选地，所述的通话语音翻译装置还包括：第二识别文本显示模块，用于获取第二通话语音数据对应的第二语音识别文本；在显示界面展示所述第二语音识别文本。

可选地，所述文本获取模块，用于基于所述第一通话语音数据向服务器发送翻译请求；接收所述服务器返回的第一翻译文本，所述第一翻译文本是服务器响应于所述翻译请求对所述第一通话语音数据进行翻译得到的；和/或，所述耳机设备在本地对所述第一通话语音数据进行翻译，得到第一翻译文本。

可选地，所述的通话语音翻译装置还包括：入口展示模块，用于当所述耳机设备用于通话时，在显示界面展示通话语音处理功能入口，所述通话语音处理功能入口包括通话语音翻译功能入口；所述文本获取模块，用于接收第二用户针对所述通话语音翻译功能入口的触控操作，执行所述获取所述第一通话语音数据对应的第一翻译文本的步骤；其中，所述第二用户是使用所述耳机设备的用户。

可选地，所述文本获取模块，用于获取第二用户所使用的第二语种，其中，所述第二用户是使用所述耳机设备的用户；基于所述第二用户所使用的第二语种，获取所述第一通话语音数据对应的第一翻译文本。

可选地，所述所述文本获取模块，用于根据所述耳机设备的系统语种，确定所述第二用户所使用的第二语种；和/或，根据所述第二用户的第二通话语音数据对应的语种，确定所述第二用户所使用的第二语种；和/或，根据所述第二用户在所述显示界面所选择的语种，确定所述第二用户所使用的第二语种。

可选地，所述耳机设备包括耳机和与所述耳机连接的耳机收纳装置；所述耳机包括所述第一播放模块和所述第二播放模块，所述耳机收纳装置包括所述文本获取模块和第二语音获取模块。

可选地，所述耳机设备包括耳机收纳装置；所述耳机收纳装置包括所述第一播放模块、所述文本获取模块、第二语音获取模块和所述第二播放模块。

本发明实施例还公开了一种可读存储介质，当所述存储介质中的指令由耳机设备的处理器执行时，使得耳机设备能够执行如本发明实施例任一所述的通话语音翻译方法。

本发明实施例还公开了一种耳机设备，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：在所述耳机设备用于通话的过程中，所述耳机设备获取第一用户的第一通话语音数据，其中，所述第一用户是其他通话参与用户；播放所述第一通话语音数据；以及获取所述第一通话语音数据对应的第一翻译文本并展示所述第一翻译文本；获取所述第一翻译文本对应的第一翻译语音数据，并播放所述第一翻译语音数据。

可选地，所述在播放所述第一通话语音数据的同时，播放所述第一翻译语音数据，包括：以大于第一通话语音数据的音量播放所述第一翻译语音数据。

可选地，所述的耳机设备还包含用于进行以下操作的指令：在所述耳机设备用于通话的过程中，在显示界面中对通话过程中的发言者进行标识。

可选地，所述的耳机设备还包含用于进行以下操作的指令：在显示界面展示所述第一用户所使用的第一语种，和/或，在显示界面展示第二用户所使用的第二语种；其中，所述第二用户是使用所述耳机设备的用户。

可选地，所述的耳机设备还包含用于进行以下操作的指令：获取所述第一通话语音数据对应的第一语音识别文本并在显示界面展示。

可选地，所述的耳机设备还包含用于进行以下操作的指令：获取第二用户的第二通话语音数据；将所述第二通话语音数据发送至第一用户使用的电子设备；或，获取第二用户的第二通话语音数据，以及获取所述第二通话语音数据对应的第二翻译文本；并将所述第二通话语音数据和第二翻译文本发送至第一用户使用的电子设备；或，获取第二用户的第二通话语音数据，以及获取所述第二通话语音数据对应的第二翻译文本，并基于所述第二翻译文本合成第二翻译语音数据；将所述第二通话语音数据、第二翻译文本和第二翻译语音数据发送至第一用户使用的电子设备；或，获取第二用户的第二通话语音数据，并获取所述第二通话语音数据对应的第二翻译语音数据；将所述第二通话语音数据和第二翻译语音数据发送至第一用户使用的电子设备；其中，所述第二用户是使用所述耳机设备的用户。

可选地，所述的耳机设备还包含用于进行以下操作的指令：若获取到第二翻译文本，则在显示界面展示所述第二翻译文本。

可选地，所述的耳机设备还包含用于进行以下操作的指令：获取第二通话语音数据对应的第二语音识别文本；在显示界面展示所述第二语音识别文本。

可选地，所述的耳机设备还包含用于进行以下操作的指令：所述获取所述第一通话语音数据对应的第一翻译文本，包括：基于所述第一通话语音数据向服务器发送翻译请求；接收所述服务器返回的第一翻译文本，所述第一翻译文本是服务器响应于所述翻译请求对所述第一通话语音数据进行翻译得到的；和/或，所述耳机设备在本地对所述第一通话语音数据进行翻译，得到第一翻译文本。

可选地，所述的耳机设备还包含用于进行以下操作的指令：当所述耳机设备用于通话时，在显示界面展示通话语音处理功能入口，所述通话语音处理功能入口包括通话语音翻译功能入口；接收第二用户针对所述通话语音翻译功能入口的触控操作，执行所述获取所述第一通话语音数据对应的第一翻译文本的步骤；其中，所述第二用户是使用所述耳机设备的用户。

本发明实施例包括以下优点：

本发明实施例中，在所述耳机设备用于通话的过程中，所述耳机设备可以获取第一用户的第一通话语音数据，其中，所述第一用户是其他通话参与用户；然后一方面可以播放所述第一通话语音数据，另一方面可以获取所述第一通话语音数据对应的第一翻译文本并展示所述第一翻译文本，以及获取所述第一翻译文本对应的第一翻译语音数据并播放所述第一翻译语音数据。进而在通话过程中，无需使用专用的翻译设备；从而简化跨语言跨空间的电话交流场景中的翻译操作，提高通话语音翻译效率。且也无需外放通话语音，还能够避免信息泄漏，提高用户体验。

其次，由于确定第一通话语音数据对应的翻译语音数据所需的时长，大于确定第一通话语音数据对应的翻译文本的时长；进而先展示翻译文本再播放翻译语音，能够使得用户快速获知对方发言内容，避免重要信息的遗漏。

附图说明

图1是本发明的一种通话语音翻译方法实施例的步骤流程图；

图2是本发明的一种通话语音翻译方法可选实施例的步骤流程图；

图3A是本发明实施例的一种显示界面显示第一翻译文本的示意图；

图3B是本发明实施例的一种显示界面显示第一用户使用的语种的示意图；

图3C是本发明实施例的一种显示界面显示第一翻译文本和第一语音识别文本的示意图；

图3D是本发明实施例的一种显示界面显示语音处理功能入口的示意图；

图3E是本发明实施例的一种显示界面显示第二翻译文本示意图；

图3F是本发明实施例的一种显示界面显示第二语音识别文本示意图；

图3G是本发明实施例的一种显示界面显示对端发言标识示意图；

图3H是本发明实施例的一种显示界面显示本端发言标识示意图；

图4是本发明的另一种通话语音翻译方法可选实施例的步骤流程图；

图5是本发明的一种通话语音翻译装置实施例的结构框图；

图6是本发明的一种通话语音翻译装置可选实施例的结构框图；

图7根据一示例性实施例示出的一种用于通话语音翻译的耳机设备的结构框图；

图8是本发明根据另一示例性实施例示出的一种用于通话语音翻译的电子设备。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明实施例提供的一种通话语音翻译方法，可以应用于跨语言跨空间的电话交流场景中，由通话用户使用的耳机设备执行该通话语音翻译方法，来对通话过程中的语音数据进行翻译；进而无需使用专用的翻译设备，也无需外放通话语音；从而简化跨语言跨空间的电话交流场景中的翻译操作，提高通话语音翻译效率。

本发明的一个可选实施例中，所述耳机设备可以具有通话功能。对应的，一种通话场景可以是，耳机设备之间直接进行通话；另一种通话场景可以是耳机设备与除耳机设备之外的具有通话功能电子设备进行通话；又一种通话场景可以是：耳机设备分别与除耳机设备之外的具有通话功能电子设备连接，然后耳机设备可以分别通过与其连接的电子设备进行通信。

本发明的一个可选实施例中，所述耳机设备也可以不具备通话功能。对应的，一种通话场景可以是：耳机设备分别与除耳机设备之外的具有通话功能电子设备连接，然后耳机设备可以分别通过与其连接的电子设备进行通信。

其中，所述通话可以是指拨号进行的语音通话/视频通话，也可以是通过即时通讯软件进行的语音通话/视频通话，本发明实施例对此不作限制。

以下以其中一个用户使用的耳机设备为例，对本发明实施例提供的通话语音翻译方法进行说明。其中，为了便于区分，可以将使用上述作为说明示例的耳机设备的用户，称为第二用户，将其他通话参与用户称为第一用户。其中，所述第一用户进行通话所使用的电子设备可以是耳机设备，也可以是除耳机设备之外的具有通话功能电子设备；本发明实施例对此不作限制；且第一用户可以包括至少一个。

参照图1，示出了本发明的一种通话语音翻译方法实施例的步骤流程图，具体可以包括如下步骤：

步骤102、在所述耳机设备用于通话的过程中，所述耳机设备获取第一用户的第一通话语音数据，其中，所述第一用户是其他通话参与用户。

本发明实施例中，所述耳机设备用于通话的过程中，在第一用户发言时，第一用户使用的电子设备可以采集第一用户的第一通话语音数据；然后将该第一通话语音数据发送给耳机设备；进而耳机设备可以获取第一用户的第一通话语音数据。

其中，耳机设备用于通话的过程可以包括：通话呼出过程、通话呼入过程和通话接通后的通话过程。

步骤104、播放所述第一通话语音数据；以及获取所述第一通话语音数据对应的第一翻译文本并展示所述第一翻译文本。

步骤106、获取所述第一翻译文本对应的第一翻译语音数据，并播放所述第一翻译语音数据。

本发明实施例中，耳机设备在获取到第一通话语音数据后，一方面可以播放该第一通话语音数据；另一方面可以获取该第一通话语音数据对应的翻译结果。

其中，所述翻译结果可以包括第一翻译文本和第一翻译语音数据。由于确定第一通话语音数据对应的翻译语音数据所需的时长，大于确定第一通话语音数据对应的翻译文本的时长；因此为使得用户可以快速获知对方发言内容，避免重要信息的遗漏，本发明实施例中，耳机设备在获取到第一通话语音数据后，可以先获取所述第一通话语音数据对应的第一翻译文本。其中，可以由耳机设备在本地对所述第一通话语音数据进行翻译，得到第一翻译文本；也可以由耳机设备与服务器通信，由服务器对所述第一通话语音数据进行翻译，得到第一翻译文本并返回给耳机设备。进而耳机设备可以展示所述第一翻译文本。其中，所述耳机设备中布设有显示模块，可以由显示模块在对应显示界面显示所述第一翻译文本。

然后再获取所述第一翻译文本对应的第一翻译语音数据。其中，可以是由耳机设备在本地基于所述第一翻译文本，合成所述第一翻译语音数据；也可以是耳机设备与服务器通信，由服务器基于所述第一翻译文本，合成所述第一翻译语音数据并返回给耳机设备。耳机设备获取到第一翻译语音数据后，可以对该第一翻译语音数据进行播放。

综上，本发明实施例中，在所述耳机设备用于通话的过程中，所述耳机设备可以获取第一用户的第一通话语音数据，其中，所述第一用户是其他通话参与用户；然后一方面可以播放所述第一通话语音数据，另一方面可以获取所述第一通话语音数据对应的第一翻译文本并展示所述第一翻译文本，以及获取所述第一翻译文本对应的第一翻译语音数据并播放所述第一翻译语音数据。进而在通话过程中，无需使用专用的翻译设备；从而简化跨语言跨空间的电话交流场景中的翻译操作，提高通话语音翻译效率。且也无需外放通话语音，还能够避免信息泄漏，提高用户体验。

其次，由于确定第一通话语音数据对应的翻译语音数据所需的时长，大于确定第一通话语音数据对应的翻译文本的时长；进而先展示翻译文本再播放翻译语音，能够使得快速获知对方发言内容，避免重要信息的遗漏。

本发明的一个可选实施例中，耳机设备在翻译通话语音数据的过程中，可以是同声传译。对应的，所述播放第一翻译语音数据可以包括：在播放所述第一通话语音数据的同时，播放所述第一翻译语音数据。也就是说，播放第一翻译语音数据和第一通话语音数据可以看做是同步的。进而通过同时播放第一用户的原声和翻译语音，使得用户在获知与其通话的用户语义的同时也能够获知与其通话用户的情绪等信息，提高了用户通话体验。

本发明的一个可选实施例中，耳机设备在翻译通话语音数据的过程中，可以是交替传译。对应的，所述播放所述第一翻译语音数据，包括：交替播放所述第一通话语音数据和第一翻译语音数据。其中，可以是每播放一段第一通话语音数据后，播放对应的一段第一翻译语音数据。进而能够使用户清晰知道与其通话的用户每句话的内容。

本发明的一个可选实施例中，所述获取所述第一通话语音数据对应的第一翻译文本，包括：基于所述第一通话语音数据向服务器发送翻译请求；接收所述服务器返回的第一翻译文本，所述第一翻译文本是服务器响应于所述翻译请求对所述第一通话语音数据进行翻译得到的；和/或，所述耳机设备在本地对所述第一通话语音数据进行翻译，得到第一翻译文本。

一个示例中，可以是先判断耳机设备在本地进行处理，是否能够确定第一翻译文本。若耳机设备在本地无法确定第一翻译文本，则再判断耳机设备是否连接到网络。在确定耳机设备连接到网络时，从服务器获取第一翻译文本。

一个示例中，也可以是先判断耳机设备是否连接到网络；在确定耳机设备连接到网络时，从服务器获取第一翻译文本；在确定耳机收纳装置未连接到网络时，耳机设备在本地进行翻译，确定第一翻译文本。可以以下述示例为例进行说明。

参照图2，示出了本发明的一种通话语音翻译方法可选实施例的步骤流程图。

步骤202、在所述耳机设备用于通话的过程中，所述耳机设备获取第一用户的第一通话语音数据，其中，所述第一用户是其他通话参与用户。

步骤204、播放所述第一通话语音数据。

步骤206、判断所述耳机设备是否连接到网络。

本发明实施例中，所述耳机设备具有联网功能，其可以通过网络连接到服务器。

进而耳机设备获取到第一通话语音数据后，可以判断所述耳机设备是否连接到网络；若确定所述耳机设备连接到网络，则可以执行步骤208；若确定所述耳机设备未连接到网络，则可以执行步骤212。

本发明的一个示例中，所述耳机设备可以包括耳机和与耳机连接的耳机收纳装置，所述耳机具有联网功能和/或耳机收纳装置具有联网功能。所述判断所述耳机设备是否连接到网络，可以包括：判断所述耳机是否连接到网络或判断所述耳机收纳装置是否连接到网络。当确定所述耳机连接到网络或所述耳机收纳装置连接到网络时，可以确定所述耳机设备连接到网络；否则确定所述耳机设备未连接到网络。

本发明的一个示例中，所述耳机设备可以包括耳机收纳装置，所述耳机收纳装置具有联网功能，所述判断所述耳机设备是否连接到网络，可以包括：判断所述耳机收纳装置是否连接到网络。当确定所述耳机收纳装置连接到网络时，可以确定所述耳机设备连接到网络；否则确定所述耳机设备未连接到网络。

本发明的一个示例中，所述耳机与耳机收纳装置可以无线连接，例如蓝牙连接等，本发明实施例对此不作限制。

步骤208、若确定所述耳机设备连接到网络，则基于所述第一通话语音数据向服务器发送翻译请求。

步骤210、接收所述服务器返回的第一翻译文本，所述第一翻译文本是服务器响应于所述翻译请求对所述第一通话语音数据进行翻译得到的。

本发明实施例中，若确定所述耳机设备连接到网络，则耳机设备可以与服务器连接。进而耳机设备可以基于第一通话语音数据生成翻译请求，并将翻译请求发送至服务器；其中，所述翻译请求包括将第一通话语音数据翻译为第一翻译文本的请求。

服务器接收到所述翻译请求后，可以对所述翻译请求进行解析；然后根据解析结果对所述第一通话语音数据进行语音识别，得到第一语音识别文本；再基于第一语音识别文本进行翻译，得到第一翻译文本并将该第一翻译文本返回给耳机设备。进而耳机设备可以获取到第一通话语音数据对应的第一翻译文本，并在显示界面展示该第一翻译文本如图3A；图3A中耳机收纳装置的显示界面显示的第一翻译文本为“你好，很高兴有机会亲自面试你，让我们开始吧！”。

步骤212、若确定所述耳机设备未连接到网络，则所述耳机设备在本地对所述第一通话语音数据进行翻译，得到第一翻译文本。

本发明实施例中，所述耳机设备具有数据处理能力，若确定所述耳机设备未连接到网络，则耳机设备可以在本地对所述第一通话语音数据进行翻译，得到第一翻译文本。

当然，本发明实施例中，耳机设备可以同时从服务器获取第一翻译文本和在本地进行翻译得到第一翻译文本；然后可以将从服务器获取的第一翻译文本和本地确定的第一翻译文本进行融合，将融合结果作为最终的第一翻译文本。

步骤214、展示所述第一翻译文本。

其中，所述耳机收纳装置中设有显示模块，可以由显示模块在对应的显示界面中展示所述第一翻译文本。

步骤216、获取所述第一翻译文本对应的第一翻译语音数据。

本发明的一个示例中，若确定所述耳机设备连接到网络，则可以由服务器确定所述第一翻译文本对应的第一翻译语音数据。此时，所述翻译请求还可以包括：将第一通话语音数据翻译为第一翻译语音数据的请求。进而因此服务器还可以依据对翻译请求的解析结果，基于所述第一翻译文本合成第一翻译语音数据；然后将第一翻译语音数据返回给耳机设备。进而耳机设备可以获取到第一翻译语音数据。当然，若确定耳机设备连接到网络，也可以由耳机设备在本地基于所述第一翻译文本合成第一翻译语音数据；本发明实施例对此不作限制。

若确定所述耳机设备未连接到网络，则可以由耳机设备在本地基于所述第一翻译文本合成第一翻译语音数据。

步骤218、在播放所述第一通话语音数据的同时，播放所述第一翻译语音数据。

本发明实施例中，所述耳机设备在得到第一翻译语音数据后，可以继续播放第一通话语音数据，同时再播放该第一翻译语音数据。

本发明的一个可选实施例中，一种在播放所述第一通话语音数据的同时，播放所述第一翻译语音数据的方式可以包括：以大于第一通话语音数据的音量播放所述第一翻译语音数据。进而将第一通话语音数据作为背景音进行播放，从而既能够让第二用户体会第一用户的语气，也能够让第二用户了解第一用户发言的内容。其中，可以先调小正在播放的第一通话语音数据的音量，然后再以大于第一通话语音数据的音量播放所述第一翻译语音数据，本发明实施例对此不作限制。

本发明的一个可选实施例中，所述耳机设备可以包括一幅耳机；对应的，所述播放所述第一通话语音数据，包括：在所述一幅耳机中的两只耳机中同时播放所述第一通话语音数据。进而一种在播放所述第一通话语音数据的同时，播放所述第一翻译语音数据的方式可以包括：在所述一幅耳机中的一只耳机中播放所述第一通话语音数据，在所述一幅耳机中的另一只耳机中播放所述第一翻译语音数据。例如在左耳机播放第一通话语音数据，在右耳机播放第一翻译语音数据；或者在左耳机播放第一翻译语音数据，在右耳机播放第一通话语音数据。这样也能够达到让第二用户体会第一用户的语气，以及让第二用户了解第一用户发言的内容的效果。

当然，本发明实施例中，若确定所述耳机设备未连接到网络，则进行联网提示。例如可以在显示界面展示未联网的文本或图标；以提示第二用户将耳机设备联网。待用户将耳机设备联网后，可以执行上述步骤208～步骤210、步骤214～步骤218。

综上，本发明实施例中，可以判断所述耳机设备是否连接到网络；若确定所述耳机设备连接到网络，则基于所述第一通话语音数据向服务器发送翻译请求；接收所述服务器返回的第一翻译文本，所述第一翻译文本是服务器响应于所述翻译请求对所述第一通话语音数据进行翻译得到的；进而能够提高耳机设备的翻译准确度，提高用户体验。

其次，本发明实施例中，若确定所述耳机设备未连接到网络，则所述耳机设备在本地对所述第一通话语音数据进行翻译，得到第一翻译文本；进而在耳机设备未联网的情况下，耳机设备也可以实现通话语音的翻译。

本发明的一个可选实施例中，所述的方法还包括：在显示界面展示所述第一用户所使用的第一语种。其中，在获取所述第一通话语音数据对应的第一翻译文本时，还可以获取耳机设备/服务器对所述第一通话语音数据进行翻译时，确定的第一通话语音数据对应的语种，也就是第一用户所使用的第一语种。当然，也可以根据第二用户在耳机设备中对通话语音翻译中语种的设置，确定第一用户所使用的第一语种。然后可以在耳机收纳装置的显示界面展示第一用户所使用的第一语种；进而保证第二用户在通话过程中始终能够清楚第一用户所使用的第一语种。可以参照图3B，图3B中耳机收纳装置的显示界面显示第一用户使用的第一语种为英语。

本发明的一个可选实施例中，所述的方法还包括：获取所述第一通话语音数据对应的第一语音识别文本并在显示界面展示。其中，可以在获取第一通话语音数据对应的第一翻译文本时，获取耳机设备/服务器对所述第一通话语音数据进行语音识别，确定的第一通话语音数据对应的第一语音识别文本；然后可以在耳机收纳装置的显示界面展示该第一语音识别文本。进而能够使得第二用户结合第一语音识别文本和第一翻译文本，更好的理解第一用户发言的内容。可以参照图3C；其中，图3C中耳机收纳装置的显示界面展示了第一语音识别文本“Hello,I am gladto have the opportunityto interviewyou in person,let's get started！”和第一翻译文本“你好，很高兴有机会亲自面试你，让我们开始吧！”。

本发明的一个可选实施例中，所述的方法还包括：在显示界面展示通话语音处理功能入口，所述通话语音处理功能入口包括通话语音翻译功能入口；接收第二用户针对所述通话语音翻译功能入口的触控操作，执行所述获取所述第一通话语音数据对应的第一翻译文本的步骤。

其中，当所述耳机设备用于通话时，可以在耳机收纳装置的显示界面中，展示通话语音处理功能入口；所述通话语音处理功能入口可以包括多种，如通话语音翻译功能入口、变声功能入口、降噪功能入口等等，可以如图3D所示。当用户触发任一通话语音处理功能入口时，耳机设备可以对通话语音数据进行对应的语音处理。其中，当用户在耳机收纳装置的显示界面中触发通话语音翻译功能入口时，耳机收纳装置可以接收到第二用户针对所述通话语音翻译功能入口的触控操作，然后可以执行上述步骤104～步骤108。

本发明实施例的一个示例中，也可以在耳机收纳装置的显示界面中显示耳机收纳装置的多种功能入口，如翻译入口、录音入口、速记入口、变声入口等等。当用户需要使用耳机设备进行电话翻译时，可以触发翻译入口，进而耳机设备可以在显示界面显示翻译功能入口；所述翻译功能入口可以包括多个，如对话翻译功能入口、电话翻译功能入口等等。用户可以针对所述电话翻译功能入口执行的触控操作，进而耳机收纳装置接收用户针对所述电话翻译功能入口的触控操作，然后在耳机收纳装置的显示界面中展示通话语音处理功能入口；接收第二用户针对所述通话语音翻译功能入口的触控操作，执行所述获取所述第一通话语音数据对应的第一翻译文本的步骤。

当然，接收第二用户针对所述通话语音翻译功能入口的触控操作，还可以执行所述判断所述耳机设备是否连接到网络的步骤。也就是说，在确定用户需要对通话语音进行翻译时，再判断耳机设备是否连接到网络。

本发明的一个可选实施例中，所述获取所述第一通话语音数据对应的第一翻译文本，包括：获取所述第二用户所使用的第二语种；基于所述第二用户所使用的第二语种，获取所述第一通话语音数据对应的第一翻译文本。其中，可以对第一通话语音数据进行语音识别，得到对应的第一语音识别文本；然后基于第二用户所使用的第二语种，对所述第一语音识别文本进行翻译，得到第一翻译文本。

本发明的一个可选实施例中，所述获取第二用户所使用的第二语种，包括以下至少一种：

(1)根据所述耳机设备的系统语种，确定所述第二用户所使用的第二语种。其中，用户在第一次使用耳机设备时，可以将耳机设备的系统语种设置为其常用的语种；因此可以获取耳机设备的系统语种，将耳机设备的系统语种作为第二用户使用的语种。

(2)根据所述第二用户的第二通话语音数据对应的语种，确定所述第二用户所使用的第二语种。当耳机设备用于通话时，在第二用户发言过程中，耳机设备还可以获取第二用户的第二通话语音数据；然后可以识别第二通话语音数据对应的语种；进而可以将第二通话语音数据对应的语种，作为第二用户使用的语种。

(3)根据所述第二用户在所述显示界面所选择的语种，确定所述第二用户所使用的第二语种。一个示例中，当第二用户针对通话语音翻译功能入口执行触控操作后，耳机收纳装置的显示界面中可以展示多个语种选项；第二用户可以为本端选取自身常用的语种所对应的语种选项。进而耳机设备可以根据第二用户为本端选取的语种选项对应语种，作为第二用户所使用的第二语种。

本发明的一个可选实施例中，所述的方法还可以包括：在显示界面展示第二用户所使用的第二语种。也就是在耳机收纳装置的显示界面中展示使用耳机设备的第二用户自身使用的第二语种，进而便于第二用户确认耳机设备语种识别是否准确。

本发明一个可选实施例中，当第一用户也使用耳机设备时，则所述的方法还包括：获取所述第二用户的第二通话语音数据；将所述第二通话语音数据发送至第一用户使用的电子设备。然后可以由第一用户使用的耳机设备执行本发明实施例的通话语音翻译方法。

当第一用户未使用耳机设备时，其使用的电子设备在接收到第二用户的第二语音通话数据后，可能无法对其进行翻译；因此本发明一个可选实施例中，所述的方法还包括：获取所述第二用户的第二通话语音数据，以及获取所述第二通话语音数据对应的第二翻译文本；并将所述第二通话语音数据和第二翻译文本发送至第一用户使用的电子设备。第一用户使用的电子设备接收到第二通话语音数据和第二翻译文本后，一方面可以对第二通话语音数据进行播放；另一方面可以展示第二翻译文本。当然，第一用户使用的电子设备还可以基于第二翻译文本合成第二翻译语音数据，然后在播放第二通话语音数据的同时，播放第二翻译语音数据。

当第一用户未使用耳机设备时，第一用户使用的电子设备在接收到第二用户的第二语音通话数据后，可能不仅无法对其进行翻译，而且还无法进行语音合成；因此本发明的一个可选实施例中，所述的方法还可以包括：获取所述第二用户的第二通话语音数据，以及获取所述第二通话语音数据对应的第二翻译文本，并基于所述第二翻译文本合成第二翻译语音数据；将所述第二通话语音数据、第二翻译文本和第二翻译语音数据发送至第一用户使用的电子设备。对应的，第一用户使用的电子设备接收到所述第二通话语音数据、第二翻译文本和第二翻译语音数据后，一方面可以同时播放第二通话语音数据和第二翻译语音数据；另一方面可以展示第二翻译文本。

当第一用户未使用耳机设备时，第一用户使用的电子设备在接收到第二用户的第二语音通话数据后，可能不仅无法对其进行翻译，而且还无法进行语音合成；因此本发明的一个可选实施例中，所述的方法还可以包括：获取所述第二用户的第二通话语音数据，并获取所述第二通话语音数据对应的第二翻译语音数据；将所述第二通话语音数据和第二翻译语音数据发送至第一用户使用的电子设备。对应的，第一用户使用的电子设备接收到所述第二通话语音数据和第二翻译语音数据后，一方面可以同时播放第二通话语音数据和第二翻译语音数据。

本发明的一个可选实施例中，所述的方法还包括：若获取到第二翻译文本，则在显示界面展示所述第二翻译文本。若第二语音数据为“我叫***，本科毕业于**大学。”的语音数据时，对应的第二翻译文本为“My name is***,I graduated from**University.”可以如图3E中耳机收纳装置的显示界面显示的内容所示。

当然，本发明实施例中，所述的方法还包括包括：获取第二通话语音数据对应的第二语音识别文本；在显示界面展示所述第二语音识文本；以便于第二用户辨认耳机设备语音识别是否准确。若第二语音数据为“我叫***，本科毕业于**大学”的语音数据时，对应的第二语音识别文本可以如图3F中耳机收纳装置的显示界面显示的内容所示。当然，第二翻译文本和第二语音识别文本，可以同时展示；本发明实施例对此不作限制。

当然，本发明实施例中，耳机设备还可以将所述第二语音识别文本发送至第一用户使用的电子设备。对应的第一用户使用的电子设备还可以展示该第二语音识别文本；本发明实施例对此不作限制。

本发明的一个可选实施例中，所述的方法还可以包括：在所述耳机设备用于通话的过程中，在所述显示界面中对通话过程中的发言者进行标识。其中，所述进行标识的方式可以是采用文本进行标识，也可以采用图像进行标识，还可以采用动画进行标识；本发明实施例对此不作限制。例如在第一用户发言过程中，可以展示文本信息如“对端正在发言”；可以参照图3G中耳机收纳装置的显示界面显示的内容；又例如，在第二用户发言过程中，可以展示文本信息如“你正在发言...”和对应的图标；可以参照图3H中耳机收纳装置的显示界面显示的内容。进而当第一翻译文本和第一翻译语音播放出现延迟时，第二用户根据展示的标识，可以获知当前正在发言的通话参与方，而不会打断第一用户发言。

以下以所述耳机设备包括耳机和耳机收纳装置为例进行说明。

其中，所述耳机收纳装置可以用于收纳耳机，为耳机充电，以及还可以提供数据处理、传输和存储等服务，以及信息显示服务。进而本发明实施例可以由耳机收纳装置获取所述第一通话语音数据对应的第一翻译文本并展示所述第一翻译文本；以及获取所述第一翻译文本对应的第一翻译语音数据；由耳机播放第一通话语音数据以及第一翻译语音数据。。

参照图4，示出了本发明的另一种通话语音翻译方法可选实施例的步骤流程图。

步骤402、在所述耳机设备用于通话的过程中，所述耳机设备获取第一用户的第一通话语音数据，其中，所述第一用户是其他通话参与用户，所述耳机设备包括耳机和与所述耳机连接的耳机收纳装置。

步骤404、所述耳机播放所述第一通话语音数据。

当通话场景是耳机设备之间直接进行通话时，可以由耳机收纳装置之间直接进行通话，此时第二用户的耳机收纳装置，可以直接接收第一用户的耳机收纳装置发送的第一通话语音数据。

当通话场景是耳机设备与除耳机设备之外的具有通话功能的电子设备进行通话时，可以是耳机收纳装置与除耳机设备之外的电子设备进行通话，此时第二用户的耳机收纳装置，可以直接接收第一用户的除耳机设备之外的电子设备发送的第一通话语音数据。

当通话场景是耳机设备分别与除耳机设备之外的具有通话功能电子设备连接，然后耳机设备可以分别通过与其连接的电子设备进行通信时，耳机设备与电子设备的连接方式可以是：耳机与电子设备连接。一个示例中，所述耳机与除耳机设备之外的电子设备可以通过蓝牙无线连接；以及所述耳机与耳机设备可以通过蓝牙连接。

此时，第二用户的除耳机设备之外的电子设备，可以接收第一用户的除耳机设备之外的电子设备发送的第一通话语音数据，然后第二用户的除耳机设备之外的电子设备可以将该第一通话语音数据发送至第二用户的耳机，然后第二用户的耳机一方面可以播放该第一通话语音数据，另一方面可以将该第一通话语音数据发送至第二用户的耳机收纳装置。

步骤406、所述耳机收纳装置获取所述第一通话语音数据对应的第一翻译文本并展示所述第一翻译文本。

本发明实施例中，所述耳机收纳装置中布设有显示模块，耳机收纳装置在获取到第一翻译文本后，可以在对应显示模块的显示界面中，显示该第一翻译文本。

一个示例中，当第一翻译文本中字数较多时，可以在耳机收纳装置的显示界面中分屏展示所述第一翻译文本。

一个示例中，当第一翻译文本中字数较多时，可以在耳机收纳装置的显示界面中滚动展示所述第一翻译文本。

其中，当在显示界面中分屏展示所述第一翻译文本时，可以是耳机收纳装置自动翻屏；也可以是根据用户的翻屏操作或滑动操作，展示下一屏的第一翻译文本。

步骤408、所述耳机收纳装置获取所述第一翻译文本对应的第一翻译语音数据。

步骤410、所述耳机收纳装置将所述第一翻译语音数据发送至所述耳机。

步骤412、所述耳机播放所述第一翻译语音数据。

综上，本发明实施例中，所述耳机设备可以包括耳机和与所述耳机连接的耳机收纳装置；然后由所述耳机播放所述第一通话语音数据，同时由所述耳机收纳装置获取所述第一通话语音数据对应的第一翻译文本并展示所述第一翻译文本；以及获取所述第一翻译文本对应的第一翻译语音数据；再由所述耳机播放所述第一翻译语音数据；进而通过耳机与耳机收纳装置配合，实现对通话语音进行翻译。

当然，所述耳机设备也可以仅包括耳机收纳装置，进而本发明实施例的方法可以由耳机收纳装置执行。即在所述耳机设备用于通话的过程中，所述耳机收纳装置获取第一用户的第一通话语音数据，其中，所述第一用户是其他通话参与用户；所述耳机收纳装置播放所述第一通话语音数据；以及耳机收纳装置获取所述第一通话语音数据对应的第一翻译文本并展示所述第一翻译文本；所述获取所述第一翻译文本对应的第一翻译语音数据，并播放所述第一翻译语音数据。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

本发明实施例还提供了一种通话语音翻译装置，应用于耳机设备中。

参照图5，示出了本发明的一种通话语音翻译装置实施例的结构框图，具体可以包括如下模块：

第一语音获取模块502，用于在所述耳机设备用于通话的过程中，所述耳机设备获取第一用户的第一通话语音数据，其中，所述第一用户是其他通话参与用户；

第一播放模块504，用于播放所述第一通话语音数据；

文本获取模块506，用于获取所述第一通话语音数据对应的第一翻译文本并展示所述第一翻译文本；

第二语音获取模块508，用于获取所述第一翻译文本对应的第一翻译语音数据；

第二播放模块510，用于播放所述第一翻译语音数据。

参照图6，示出了本发明的一种通话语音翻译装置可选实施例的结构框图。

本发明一个可选的实施例中，所述第二播放模块510，包括：

同步播放子模块5102，用于在播放所述第一通话语音数据的同时，播放所述第一翻译语音数据；

交替播放子模块5104，用于交替播放所述第一通话语音数据和第一翻译语音数据。

本发明一个可选的实施例中，所述同步播放子模块5102，用于以大于第一通话语音数据的音量播放所述第一翻译语音数据。

本发明一个可选的实施例中，所述第一播放模块504，用于在所述一幅耳机中的两只耳机中同时播放所述第一通话语音数据；

所述同步播放子模块5102，用于在所述一幅耳机中的一只耳机中播放所述第一通话语音数据，在所述一幅耳机中的另一只耳机中播放所述第一翻译语音数据。

本发明一个可选的实施例中，所述的通话语音翻译装置还包括：

标识显示模块512，用于在所述耳机设备用于通话的过程中，在显示界面中对通话过程中的发言者进行标识。

本发明一个可选的实施例中，所述的通话语音翻译装置还包括：

语种显示模块514，用于在显示界面展示所述第一用户所使用的第一语种，和/或，在显示界面展示第二用户所使用的第二语种；其中，所述第二用户是使用所述耳机设备的用户。

本发明一个可选的实施例中，所述的通话语音翻译装置还包括：

第一识别文本展示模块516，用于获取所述第一通话语音数据对应的第一语音识别文本并在显示界面展示。

本发明一个可选的实施例中，所述的通话语音翻译装置还包括：

数据发送模块518，用于获取第二用户的第二通话语音数据；将所述第二通话语音数据发送至第一用户使用的电子设备；或，获取第二用户的第二通话语音数据，以及获取所述第二通话语音数据对应的第二翻译文本；并将所述第二通话语音数据和第二翻译文本发送至第一用户使用的电子设备；或，获取第二用户的第二通话语音数据，以及获取所述第二通话语音数据对应的第二翻译文本，并基于所述第二翻译文本合成第二翻译语音数据；将所述第二通话语音数据、第二翻译文本和第二翻译语音数据发送至第一用户使用的电子设备；或，获取第二用户的第二通话语音数据，并获取所述第二通话语音数据对应的第二翻译语音数据；将所述第二通话语音数据和第二翻译语音数据发送至第一用户使用的电子设备；其中，所述第二用户是使用所述耳机设备的用户。

本发明一个可选的实施例中，所述的通话语音翻译装置还包括：

翻译文本显示模块520，用于若获取到第二翻译文本，则在显示界面展示所述第二翻译文本。

本发明一个可选的实施例中，所述的通话语音翻译装置还包括：

第二识别文本显示模块522，用于获取第二通话语音数据对应的第二语音识别文本；在显示界面展示所述第二语音识别文本。

本发明一个可选的实施例中，所述文本获取模块506，用于基于所述第一通话语音数据向服务器发送翻译请求；接收所述服务器返回的第一翻译文本，所述第一翻译文本是服务器响应于所述翻译请求对所述第一通话语音数据进行翻译得到的；和/或，所述耳机设备在本地对所述第一通话语音数据进行翻译，得到第一翻译文本。

本发明一个可选的实施例中，所述的通话语音翻译装置还包括：

入口展示模块524，用于当所述耳机设备用于通话时，在显示界面展示通话语音处理功能入口，所述通话语音处理功能入口包括通话语音翻译功能入口；

所述文本获取模块506，用于接收第二用户针对所述通话语音翻译功能入口的触控操作，执行所述获取所述第一通话语音数据对应的第一翻译文本的步骤；其中，所述第二用户是使用所述耳机设备的用户。

本发明一个可选的实施例中，所述文本获取模块506，用于获取第二用户所使用的第二语种，其中，所述第二用户是使用所述耳机设备的用户；基于所述第二用户所使用的第二语种，获取所述第一通话语音数据对应的第一翻译文本。

本发明一个可选的实施例中，所述文本获取模块506，用于根据所述耳机设备的系统语种，确定所述第二用户所使用的第二语种；和/或，根据所述第二用户的第二通话语音数据对应的语种，确定所述第二用户所使用的第二语种；和/或，根据所述第二用户在所述显示界面所选择的语种，确定所述第二用户所使用的第二语种。

本发明一个可选的实施例中，所述耳机设备包括耳机和与所述耳机连接的耳机收纳装置；所述耳机包括所述第一播放模块504和所述第二播放模块510，所述耳机收纳装置包括所述文本获取模块506和第二语音获取模块508。

本发明一个可选的实施例中，所述耳机设备包括耳机收纳装置；所述耳机收纳装置包括所述第一播放模块504、所述文本获取模块506、第二语音获取模块508和所述第二播放模块510。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

图7是根据一示例性实施例示出的一种用于通话语音翻译的耳机设备700的结构框图。

参照图7，耳机设备700可以包括以下一个或多个组件：处理组件702，存储器704，电力组件706，多媒体组件708，音频组件710，输入/输出(I/O)的接口712，传感器组件714，以及通信组件716。

处理组件702通常控制耳机设备700的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件702可以包括一个或多个处理器720来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件702可以包括一个或多个模块，便于处理组件702和其他组件之间的交互。例如，处理部件702可以包括多媒体模块，以方便多媒体组件708和处理组件702之间的交互。

存储器704被配置为存储各种类型的数据以支持在耳机设备700的操作。这些数据的示例包括用于在耳机设备700上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器704可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电力组件706为耳机设备700的各种组件提供电力。电力组件706可以包括电源管理系统，一个或多个电源，及其他与为耳机设备700生成、管理和分配电力相关联的组件。

多媒体组件708包括在所述耳机设备700和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件708包括一个前置摄像头和/或后置摄像头。当耳机设备700处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件710被配置为输出和/或输入音频信号。例如，音频组件710包括一个麦克风(MIC)，当耳机设备700处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器704或经由通信组件716发送。在一些实施例中，音频组件710还包括一个扬声器，用于输出音频信号。

I/O接口712为处理组件702和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件714包括一个或多个传感器，用于为耳机设备700提供各个方面的状态评估。例如，传感器组件714可以检测到耳机设备700的打开/关闭状态，组件的相对定位，例如所述组件为耳机设备700的显示器和小键盘，传感器组件714还可以检测耳机设备700或耳机设备700一个组件的位置改变，用户与耳机设备700接触的存在或不存在，耳机设备700方位或加速/减速和耳机设备700的温度变化。传感器组件714可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件714还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件714还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件716被配置为便于耳机设备700和其他设备之间有线或无线方式的通信。耳机设备700可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信部件714经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件714还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，耳机设备700可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器704，上述指令可由耳机设备700的处理器720执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由耳机设备的处理器执行时，使得耳机设备能够执行一种通话语音翻译方法，所述方法包括：在所述耳机设备用于通话的过程中，所述耳机设备获取第一用户的第一通话语音数据，其中，所述第一用户是其他通话参与用户；播放所述第一通话语音数据；以及获取所述第一通话语音数据对应的第一翻译文本并展示所述第一翻译文本；获取所述第一翻译文本对应的第一翻译语音数据，并播放所述第一翻译语音数据。

可选地，所述在播放所述第一通话语音数据的同时，播放所述第一翻译语音数据，包括：以大于第一通话语音数据的音量播放所述第一翻译语音数据。

可选地，所述的方法还包括：在所述耳机设备用于通话的过程中，在显示界面中对通话过程中的发言者进行标识。

可选地，所述的方法还包括：获取所述第一通话语音数据对应的第一语音识别文本并在显示界面展示。

可选地，所述的方法还包括：若获取到第二翻译文本，则在显示界面展示所述第二翻译文本。

可选地，所述的方法还包括：获取第二通话语音数据对应的第二语音识别文本；在显示界面展示所述第二语音识别文本。

图8是本发明根据另一示例性实施例示出的一种用于通话语音翻译的电子设备800的结构示意图。该电子设备800可以是服务器，该服务器可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)822(例如，一个或一个以上处理器)和存储器832，一个或一个以上存储应用程序842或数据844的存储介质830(例如一个或一个以上海量存储设备)。其中，存储器832和存储介质830可以是短暂存储或持久存储。存储在存储介质830的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器822可以设置为与存储介质830通信，在服务器上执行存储介质830中的一系列指令操作。

服务器还可以包括一个或一个以上电源826，一个或一个以上有线或无线网络接口850，一个或一个以上输入输出接口858，一个或一个以上键盘856，和/或，一个或一个以上操作系统841，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

在示例性实施例中，服务器经配置以由一个或者一个以上中央处理器1022执行一个或者一个以上程序包含用于进行以下操作的指令：接收耳机设备发送的翻译请求，基于所述翻译请求对所述第一通话语音数据进行翻译，得到第一翻译文本并将所述第一翻译文本返回至耳机设备。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种通话语音翻译方法、一种通话语音翻译装置和一种耳机设备，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种通话语音翻译方法、装置和耳机设备 [P] . 中国专利： CN113286217A . 2021-08-20
2. 一种基于耳机的实时语音翻译方法及装置 [P] . 中国专利： CN109376363A . 2019-02-22
3. HEADSET OR HANDS-FREE SET FOR MOBILE TELEPHONES MONITORING VOICE MAIL MESSAGES IN REAL-TIME AND OFFERING THE OPTION TO TAKE OVER CONVERSATION WITH THE CALLER [P] . 世界知识产权组织专利： WO2006136266A1 . 2006-12-28

机译：耳机或免提装置，可用于移动电话实时监控语音邮件，并提供与通话者进行通话的选项
4. Voice talk system, voice talk control apparatus, voice talk control method, and voice talk control program [P] . 美国专利： US2006159238A1 . 2006-07-20

机译：语音通话系统，语音通话控制设备，语音通话控制方法和语音通话控制程序
5. Voice call system, voice call control device, voice call program, and voice call method [P] . 日本专利： JP2020150386A . 2020-09-17

机译：语音通话系统，语音通话控制装置，语音通话程序以及语音通话方法