首页> 中国专利> 语音标注的正确率获取方法、装置和电子设备

语音标注的正确率获取方法、装置和电子设备

页面导航

摘要
著录项
说明书
相似文献

摘要

本公开公开了语音标注的正确率获取方法、装置和电子设备，涉及人工智能技术领域，尤其涉及计算机视觉、语音转写技术领域。具体实现方案为：获取语音的标注结果，其中，所述标注结果包括针对原始语音的标注结果和针对所述原始语音切分后的语音分段的标注结果中的至少一项；识别所述标注结果的标注对象，其中，所述标注对象包括所述原始语音和所述语音分段中的至少一项；基于所述标注对象确定所述标注结果的标注粒度；基于所述标注结果的标注粒度，获取目标语音特征维度下的标注正确率。由此，能够基于标注粒度获取在不同特征维度下的标注正确率，灵活性较高，提高了语音标注的正确率的多样性。

著录项

公开/公告号CN113284509A

专利类型发明专利
公开/公告日2021-08-20

原文格式PDF
申请/专利权人北京百度网讯科技有限公司;
展开▼

申请/专利号CN202110491593.6
发明设计人杨雪;
展开▼

申请日2021-05-06
分类号G10L25/51(20130101);G10L25/03(20130101);
代理机构11201 北京清亦华知识产权代理事务所(普通合伙);
代理人王萌
地址 100085 北京市海淀区上地十街10号百度大厦2层
入库时间 2023-06-19 12:16:29

说明书

技术领域

本公开涉及计算机技术领域，尤其涉及一种语音标注的正确率获取方法、装置、电子设备、存储介质和计算机程序产品。

背景技术

目前，随着人工智能技术的发展，语音标注在智能客服、智能家居等领域中得到了广泛应用，比如，智能客服应用场景下，可对采集的用户语音进行音色、转写内容等属性进行标注。然而，现有技术中的语音标注的正确率获取方法较为单一，不够灵活，不能全面反映语音标注的正确率。

发明内容

提供了一种语音标注的正确率获取方法、装置、电子设备、存储介质和计算机程序产品。

根据第一方面，提供了一种语音标注的正确率获取方法，包括：获取语音的标注结果，其中，所述标注结果包括针对原始语音的标注结果和所述原始语音切分后的语音分段的标注结果中的至少一项；识别所述标注结果的标注对象，其中，所述标注对象包括所述原始语音和所述语音分段中的至少一项；基于所述标注对象确定所述标注结果的标注粒度；基于所述标注结果的标注粒度，获取目标语音特征维度下的标注正确率。

根据第二方面，提供了一种语音标注的正确率获取装置，包括：第一获取模块，用于获取语音的标注结果，其中，所述标注结果包括针对原始语音的标注结果和所述原始语音切分后的语音分段的标注结果中的至少一项；第一识别模块，用于识别所述标注结果的标注对象，其中，所述标注对象包括所述原始语音和所述语音分段中的至少一项；确定模块，用于基于所述标注对象确定所述标注结果的标注粒度；第二获取模块，用于基于所述标注结果的标注粒度，获取目标语音特征维度下的标注正确率。

根据第三方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开第一方面所述的语音标注的正确率获取方法。

根据第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行本公开第一方面所述的语音标注的正确率获取方法。

根据第五方面，提供了一种计算机程序产品，包括计算机程序，其中，所述计算机程序被处理器执行时实现本公开第一方面所述的语音标注的正确率获取方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开第一实施例的语音标注的正确率获取方法的流程示意图；

图2根据本公开第二实施例的语音标注的正确率获取方法中获取目标语音特征维度下的标注正确率的流程示意图；

图3根据本公开第三实施例的语音标注的正确率获取方法中获取目标语音特征维度下的标注正确率的流程示意图；

图4是根据本公开第四实施例的语音标注的正确率获取方法中识别标注结果的判断结果的流程示意图；

图5是根据本公开第五实施例的语音标注的正确率获取方法中获取目标语音特征维度下的标注正确率的流程示意图；

图6是根据本公开第六实施例的语音标注的正确率获取方法中获取至少一个隶属标注粒度的权重的流程示意图；

图7是根据本公开第七实施例的语音标注的正确率获取方法中获取语音特征维度下的标注正确率的流程示意图；

图8是根据本公开第一实施例的语音标注的正确率获取装置的框图；

图9是用来实现本公开实施例的语音标注的正确率获取方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

AI(Artificial Intelligence，人工智能)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学。目前，AI技术具有自动化程度高、精确度高、成本低的优点，得到了广泛的应用。

计算机视觉(Computer Vision)是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。计算机视觉是一门综合性的学科，包括计算机科学和工程、信号处理、物理学、应用数学和统计学，神经生理学和认知科学等。

语音转写是一种让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术，主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。

图1是根据本公开第一实施例的语音标注的正确率获取方法的流程示意图。

如图1所示，本公开第一实施例的语音标注的正确率获取方法，包括：

S101，获取语音的标注结果，其中，标注结果包括针对原始语音的标注结果和针对原始语音切分后的语音分段的标注结果中的至少一项。

需要说明的是，本公开实施例的语音标注的正确率获取方法的执行主体可为具有数据信息处理能力的硬件设备和/或驱动该硬件设备工作所需必要的软件。可选地，执行主体可包括工作站、服务器，计算机、用户终端及其他智能设备。其中，用户终端包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端等。

本公开的实施例中，可获取语音的标注结果，其中，标注结果包括针对原始语音的标注结果和针对原始语音切分后的语音分段的标注结果中的至少一项。应说明的是，可对原始语音进行切分，并对切分后的语音分段进行标注。

其中，针对原始语音的标注结果包括但不限于针对原始语音是否清晰、原始语音是否可标、原始语音是否可以转写、原始语音的音色为男生、女声还是系统音等的标注结果。

其中，针对原始语音切分后的语音分段的标注结果包括但不限于针对语音分段的位置、音色、清晰度、转写内容等属性的标注结果。比如，针对语音分段的标注结果包括但不限于针对语音分段的数量、语音分段的起始时间、语音分段是否可以转写、语音分段是否清晰、语音分段的音色为男生、女声还是系统音、语音分段的转写内容是否有错别字、语音分段的转写内容是否缺失、语音分段的转写内容是否与说话内容一致等的标注结果。

S102，识别标注结果的标注对象，其中，标注对象包括原始语音和语音分段中的至少一项。

本公开的实施例中，可识别标注结果的标注对象，其中，标注对象包括原始语音和语音分段中的至少一项。

S103，基于标注对象确定标注结果的标注粒度。

本公开的实施例中，可基于标注对象确定标注结果的标注粒度。

在一种实施方式中，基于标注对象确定标注结果的标注粒度，可包括根据标注对象和标注粒度的对应关系，获取标注对象对应的候选标注粒度，基于标注结果的内容从候选标注粒度中确定标注结果的标注粒度。其中，标注对象和标注粒度的对应关系可根据实际情况进行设置，这里不做过多限定。

例如，标注结果为针对针对原始语音是否清晰的标注结果，则可先确定标注结果的标注对象为原始语音，获取与原始语音对应的候选标注粒度包括原始语音是否清晰、原始语音是否可以转写、原始语音的音色为男生、女声还是系统音等，之后基于标注结果的内容从候选标注粒度中确定标注结果的标注粒度为原始语音是否清晰。

S104，基于标注结果的标注粒度，获取目标语音特征维度下的标注正确率。

本公开的实施例中，可根据实际情况预先设置语音特征维度，这里不做过多限定。比如，语音特征维度包括但不限于位置、音色、清晰度、转写内容、属性、元素、数据、题目、页面、批次。其中，属性特征维度由位置、音色、清晰度和转写内容特征维度聚合得到，元素特征维度由多个属性特征维度聚合得到，数据特征维度由多个元素特征维度聚合得到，题目特征维度由多个数据特征维度聚合得到，页面特征维度由多个题目特征维度聚合得到，批次特征维度由多个页面特征维度聚合得到。

本公开的实施例中，可基于标注结果的标注粒度，获取目标语音特征维度下的标注正确率。

例如，目标语音特征维度为位置特征维度时，可根据标注粒度为针对语音分段的数量、语音分段的起始时间的标注结果，获取位置特征维度下的标注正确率。

例如，目标语音特征维度为转写内容特征维度时，可根据标注粒度为针对语音分段的转写内容是否有错别字、语音分段的转写内容是否缺失、语音分段的转写内容是否与说话内容一致等的标注结果，获取转写内容特征维度下的标注正确率。

综上，根据本公开实施例的语音标注的正确率获取方法，获取语音的标注结果，标注结果包括针对原始语音的标注结果和原始语音切分后的语音分段的标注结果中的至少一项，识别标注结果的标注对象，基于标注对象确定标注结果的标注粒度，基于标注结果的标注粒度，获取目标语音特征维度下的标注正确率。由此，能够基于标注粒度获取不同特征维度下的标注正确率，灵活性较高，提高了语音标注的正确率的多样性。

在上述任一实施例的基础上，如图2所示，步骤S104中基于标注结果的标注粒度，获取目标语音特征维度下的标注正确率，包括：

S201，从标注粒度中获取隶属于目标语音特征维度的至少一个隶属标注粒度，以及获取隶属标注粒度的标注结果。

本公开的实施例中，标注粒度与语音特征维度具有隶属关系，一个或多个标注粒度可隶属于一个语音特征维度。

比如，针对语音分段的数量、语音分段的起始时间等标注粒度隶属于位置特征维度。

比如，针对语音分段的转写内容是否有错别字、语音分段的转写内容是否缺失、语音分段的转写内容是否与说话内容一致等标注粒度隶属于转写内容特征维度。

比如，针对语音分段的数量、语音分段的起始时间、语音分段的转写内容是否有错别字、语音分段的转写内容是否缺失、语音分段的转写内容是否与说话内容一致等标注粒度隶属于属性特征维度。

需要说明的是，标注粒度与语音特征维度的隶属关系还可包括其他实施方式，这里不做过多限定。

本公开的实施例中，可从标注粒度中获取隶属于目标语音特征维度的至少一个隶属标注粒度，以及获取隶属标注粒度的标注结果。其中，目标语音特征维度的数量可为一个或多个，可分别获取隶属于不同目标语音特征维度的至少一个隶属标注粒度。

例如，目标语音特征维度为位置特征维度时，从标注粒度中获取的隶属标注粒度包括针对语音分段的数量、语音分段的起始时间等标注粒度。

S202，根据隶属标注粒度的标注结果，获取目标语音特征维度下的标注正确率。

本公开的实施例中，可根据隶属标注粒度的标注结果，获取目标语音特征维度下的标注正确率。

例如，目标语音特征维度为位置特征维度时，从标注粒度中获取的隶属标注粒度包括针对语音分段的数量、语音分段的起始时间等标注粒度，并根据针对语音分段的数量、语音分段的起始时间等标注粒度的标注结果，获取目标语音特征维度下的标注正确率。

由此，该方法从标注粒度中获取隶属于目标语音特征维度的至少一个隶属标注粒度，以及获取隶属标注粒度的标注结果，并根据隶属标注粒度的标注结果，获取目标语音特征维度下的标注正确率。

在上述任一实施例的基础上，如图3所示，步骤S202中根据隶属标注粒度的标注结果，获取目标语音特征维度下的标注正确率，包括：

S301，识别标注结果的判断结果。

本公开的实施例中，标注结果的判断结果可为正确或者错误。

在一种实施方式中，可通过人工来识别标注结果的判断结果。比如，若标注结果为针对语音分段的数量，且标注为4，若人工判断语音分段的数量为5，即标注结果与人工判断不一致，则可识别标注结果的判断结果为错误，反之，若人工判断语音分段的数量为4，即标注结果与人工判断一致，则可识别标注结果的判断结果为正确。

S302，根据隶属标注粒度的标注结果的判断结果，获取目标语音特征维度下的标注正确率。

本公开的实施例中，可根据隶属标注粒度的标注结果的判断结果，获取目标语音特征维度下的标注正确率。

例如，目标语音特征维度为位置特征维度时，从标注粒度中获取的隶属标注粒度包括针对语音分段的数量、语音分段的起始时间等标注粒度，并根据针对语音分段的数量、语音分段的起始时间等标注粒度的标注结果的判断结果，获取目标语音特征维度下的标注正确率。

由此，该方法可识别标注结果的判断结果，并根据隶属标注粒度的标注结果的判断结果，获取目标语音特征维度下的标注正确率。

在上述任一实施例的基础上，如图4所示，步骤S301中识别标注结果的判断结果，包括：

S401，获取标注结果对应的参考标注结果。

本公开的实施例中，可获取标注结果对应的参考标注结果。

在一种实施方式中，可通过人工对语音进行标注，将人工对语音的标注结果作为参考标注结果。

S402，将标注结果与参考标注结果进行比对。

S403，响应于标注结果与参考标注结果一致，识别标注结果的判断结果为正确。

S404，响应于标注结果与参考标注结果不一致，识别标注结果的判断结果为错误。

本公开的实施例中，可将标注结果与参考标注结果进行比对。

在一种实施方式中，可响应于标注结果与参考标注结果一致，可识别标注结果的判断结果为正确。比如，若标注结果为针对语音分段的数量，且标注为4，若参考标注结果为针对语音分段的数量，且标注为4，则可响应于标注结果与参考标注结果一致，则可识别标注结果的判断结果为正确。

在一种实施方式中，可响应于标注结果与参考标注结果不一致，可识别标注结果的判断结果为错误。若标注结果为针对语音分段的数量，且标注为4，若参考标注结果为针对语音分段的数量，且标注为5，则可响应于标注结果与参考标注结果不一致，则可识别标注结果的判断结果为错误。

由此，该方法可将标注结果与参考标注结果进行比对，根据标注结果与参考标注结果是否一致来识别标注结果的判断结果。

在上述任一实施例的基础上，如图5所示，步骤S302中根据隶属标注粒度的标注结果的判断结果，获取目标语音特征维度下的标注正确率，包括：

S501，获取至少一个隶属标注粒度的权重。

本公开的实施例中，可预先为标注粒度设置权重，不同的标注粒度可对应不同的权重。比如，针对语音分段的位置属性的标注粒度可设置为50％，针对语音分段的音色属性的标注粒度可设置为10％。

本公开的实施例中，可获取至少一个隶属标注粒度的权重。

在一种实施方式中，可预先建立标注粒度和权重之间的映射关系或者映射表，在获取隶属标注粒度之后，通过查询映射关系或者映射表，能够获取隶属标注粒度的权重。应说明的是，上述映射关系或者映射表均可根据实际情况进行设置。

S502，根据任一隶属标注粒度的标注结果的判断结果，获取任一隶属标注粒度的标注正确率。

本公开的实施例中，可根据任一隶属标注粒度的标注结果的判断结果，获取任一隶属标注粒度的标注正确率。

在一种实施方式中，根据任一隶属标注粒度的标注结果的判断结果，获取任一隶属标注粒度的标注正确率，可包括获取任一隶属标注粒度的标注结果的第一数量，获取任一隶属标注粒度的标注结果中判断结果为正确的标注结果的第二数量，获取第二数量与第一数量的比值，作为任一隶属标注粒度的标注正确率。

例如，任一隶属标注粒度的标注结果的第一数量为10个，任一隶属标注粒度的标注结果中判断结果为正确的标注结果的第二数量为4个，则任一隶属标注粒度的标注正确率为40％。

S503，根据隶属标注粒度的标注正确率和隶属标注粒度的权重，获取目标语音特征维度下的标注正确率。

本公开的实施例中，可根据隶属标注粒度的标注正确率和隶属标注粒度的权重，获取目标语音特征维度下的标注正确率。

在一种实施方式中，根据隶属标注粒度的标注正确率和隶属标注粒度的权重，获取目标语音特征维度下的标注正确率，可包括识别隶属标注粒度包含至少一个目标标注粒度，响应于存在任一目标标注粒度的标注结果的判断结果为错误，获取目标语音特征维度下的标注正确率为0。

其中，目标标注粒度可根据实际情况进行设置，比如，目标标注粒度包括但不限于针对原始语音是否清晰、原始语音是否可标等标注粒度。

例如，若隶属标注粒度包含针对原始语音是否可标的标注粒度，且针对原始语音是否可标的标注粒度的标注结果的判断结果为错误，则可获取目标语音特征维度下的标注正确率为0。

由此，该方法在隶属标注粒度包含目标标注粒度，且存在任一目标标注粒度的标注结果的判断结果为错误时，可直接获取目标语音特征维度下的标注正确率为0。

在一种实施方式中，根据隶属标注粒度的标注正确率和隶属标注粒度的权重，获取目标语音特征维度下的标注正确率，可包括识别隶属标注粒度包含至少一个目标标注粒度，响应于所有目标标注粒度的标注结果的判断结果为正确，获取其余隶属标注粒度的标注正确率和权重的乘积的和值，作为目标语音特征维度下的标注正确率。

例如，若隶属标注粒度包含针对原始语音是否可标的标注粒度，且针对原始语音是否可标的标注粒度的标注结果的判断结果为正确，其余隶属标注粒度的标注正确率分别为80％、50％、60％，其余隶属标注粒度的权重分别为10％，50％，40％，则目标语音特征维度下的标注正确率为80％*10％+50％*50％+60％*40％＝57％。

由此，该方法在隶属标注粒度包含目标标注粒度，且所有目标标注粒度的标注结果的判断结果为正确时，可获取其余隶属标注粒度的标注正确率和权重的乘积的和值，作为目标语音特征维度下的标注正确率。

在一种实施方式中，根据隶属标注粒度的标注正确率和隶属标注粒度的权重，获取目标语音特征维度下的标注正确率，可包括识别隶属标注粒度不包含目标标注粒度，获取隶属标注粒度的标注正确率和权重的乘积的和值，作为目标语音特征维度下的标注正确率。由此，该方法在隶属标注粒度不包含目标标注粒度时，可直接获取隶属标注粒度的标注正确率和权重的乘积的和值，作为目标语音特征维度下的标注正确率。

需要说明的是，根据隶属标注粒度的标注正确率和隶属标注粒度的权重，获取目标语音特征维度下的标注正确率，还可包括其他可能的实施方式，这里不做过多限定。

由此，该方法可根据任一隶属标注粒度的标注结果的判断结果，获取任一隶属标注粒度的标注正确率，并根据隶属标注粒度的标注正确率和权重，获取目标语音特征维度下的标注正确率。

在上述任一实施例的基础上，如图6所示，步骤S501中获取至少一个隶属标注粒度的权重，可包括：

S601，获取隶属标注粒度的历史权重、第一关注度参数和/或第二关注度参数，其中，第一关注度参数用于表征用户对隶属标注粒度的关注度，第二关注度参数用于表征服务端对隶属标注粒度的关注度。

本公开的实施例中，可获取隶属标注粒度的历史权重、第一关注度参数和/或第二关注度参数。

在一种实施方式中，第一关注度参数越大，表征用户对隶属标注粒度的关注度越高，第二关注度参数越大，表征服务端对隶属标注粒度的关注度越高。

在一种实施方式中，可将隶属标注粒度之前设置的权重作为历史权重，比如，可将设置的标注粒度的权重保存至服务端的存储空间中，则可从服务端的存储空间中获取之前设置的隶属标注粒度的权重，作为隶属标注粒度的历史权重。比如，可获取隶属标注粒度前N次设置的权重的平均值作为历史权重，时效性较好，其中，N为正整数，可根据实际情况进行设置。

在一种实施方式中，可预先建立隶属标注粒度与历史权重、第一关注度参数、第二关注度参数之间的映射关系或者映射表，通过查询映射关系或者映射表，获取隶属标注粒度对应的历史权重、第一关注度参数、第二关注度参数。应说明的是，上述映射关系或者映射表均可根据实际情况进行设置。

S602，根据第一关注度参数和/或第二关注度参数，确定历史权重的调整参数。

本公开的实施例中，可根据第一关注度参数和/或第二关注度参数，确定历史权重的调整参数。

在一种实施方式中，可根据第一关注度参数和/或第二关注度参数，确定历史权重的调整方向和调整数值。例如，第一关注度参数和/或第二关注度参数越大，表征用户和/或服务端对隶属标注粒度的关注度越高，可确定历史权重的调整方向为提高方向，并可根据第一关注度参数和/或第二关注度参数确定历史权重的调整数值。

S603，基于调整参数对历史权重进行调整，并将调整后的历史权重作为隶属标注粒度的权重。

本公开的实施例中，可基于调整参数对历史权重进行调整，并将调整后的历史权重作为隶属标注粒度的权重。例如，若隶属标注粒度的历史权重的调整参数为调整方向为提高方向，调整数值为10％，历史权重为20％，调整后的历史权重为30％，则隶属标注粒度的权重为30％。

由此，该方法可根据第一关注度参数和/或第二关注度参数，确定历史权重的调整参数，并基于调整参数对历史权重进行调整，将调整后的历史权重作为隶属标注粒度的权重。

在上述任一实施例的基础上，如图7所示，获取语音特征维度下的标注正确率，可包括：

S701，识别语音特征维度之间的层级关系。

本公开的实施例中，语音特征维度之间具有层级关系，可识别语音特征维度之间的层级关系。

S702，针对任意一个属于第一层级的第一语音特征维度，获取第一语音特征维度对应的属于第二层级的每个第二语音特征维度，以及第二语音特征维度下的标注正确率，其中，属于第二层级的第二语音特征维度用于聚合成第一层级的第一语音特征维度。

本公开的实施例中，语音特征维度包括属于第一层级的第一语音特征维度，以及属于第二层级的第二语音特征维度。其中，属于第二层级的第二语音特征维度用于聚合成第一层级的第一语音特征维度，第一语音特征维度与第二语音特征维度具有对应关系，不同的第一语音特征维度可对应不同的第二语音特征维度。

例如，语音特征维度包括但不限于位置、音色、清晰度、转写内容、属性、元素、数据、题目、页面、批次。其中，位置、音色、清晰度和转写内容特征维度用于聚合成属性特征维度，多个属性特征维度用于聚合成元素特征维度，多个元素特征维度用于聚合成数据特征维度，多个数据特征维度用于聚合成题目特征维度，多个题目特征维度用于聚合成页面特征维度，多个页面特征维度用于聚合成批次特征维度。

本公开的实施例中，可针对任意一个属于第一层级的第一语音特征维度，获取第一语音特征维度对应的属于第二层级的每个第二语音特征维度，以及第二语音特征维度下的标注正确率。

例如，针对属于第一层级的元素特征维度，获取的属于第二层级的第二语音特征维度包括属性特征维度，可获取属性特征维度下的标注正确率。

S703，根据每个第二语音特征维度下的标注正确率，获取第一语音特征维度下的标注正确率。

本公开的实施例中，可根据每个第二语音特征维度下的标注正确率，获取第一语音特征维度下的标注正确率。

在一种实施方式中，根据每个第二语音特征维度下的标注正确率，获取第一语音特征维度下的标注正确率，可包括获取所有第二语音特征维度下的标注正确率的平均值，作为第一语音特征维度下的标注正确率。

例如，针对属于第一层级的题目特征维度，获取的属于第二层级的第二语音特征维度包括数据特征维度，获取的数据特征维度下的标注正确率分别为80％、50％、60％，则所有数据特征维度下的标注正确率的平均值为63.3％，则题目特征维度下的标注正确率为63.3％。

由此，该方法可根据第二层级的第二语音特征维度下的标注正确率，获取第一层级的第一语音特征维度下的标注正确率，能够利用语音特征维度之间的层级关系获取标注正确率。

图8是根据本公开第一实施例的语音标注的正确率获取装置的框图。

如图8所示，本公开实施例的语音标注的正确率获取装置800，包括：第一获取模块801、第一识别模块802、确定模块803和第二获取模块804。

第一获取模块801，用于获取语音的标注结果，其中，所述标注结果包括针对原始语音的标注结果和所述原始语音切分后的语音分段的标注结果中的至少一项；

第一识别模块802，用于识别所述标注结果的标注对象，其中，所述标注对象包括所述原始语音和所述语音分段中的至少一项；

确定模块803，用于基于所述标注对象确定所述标注结果的标注粒度；

第二获取模块804，用于基于所述标注结果的标注粒度，获取目标语音特征维度下的标注正确率。

在本公开的一个实施例中，所述第二获取模块804，包括：第一获取单元，用于从所述标注粒度中获取隶属于所述目标语音特征维度的至少一个隶属标注粒度，以及获取所述隶属标注粒度的标注结果；第二获取单元，用于根据所述隶属标注粒度的标注结果，获取所述目标语音特征维度下的标注正确率。

在本公开的一个实施例中，所述第二获取单元，包括：识别子单元，用于识别所述标注结果的判断结果；获取子单元，用于根据所述隶属标注粒度的标注结果的判断结果，获取所述目标语音特征维度下的标注正确率。

在本公开的一个实施例中，所述识别子单元，具体用于：获取所述标注结果对应的参考标注结果；将所述标注结果与所述参考标注结果进行比对；响应于所述标注结果与所述参考标注结果一致，识别所述标注结果的判断结果为正确；响应于所述标注结果与所述参考标注结果不一致，识别所述标注结果的判断结果为错误。

在本公开的一个实施例中，所述获取子单元，具体用于：获取所述至少一个隶属标注粒度的权重；根据任一隶属标注粒度的标注结果的判断结果，获取任一隶属标注粒度的标注正确率；根据所述隶属标注粒度的标注正确率和所述隶属标注粒度的权重，获取所述目标语音特征维度下的标注正确率。

在本公开的一个实施例中，所述获取子单元，具体用于：获取所述任一隶属标注粒度的标注结果的第一数量；获取所述任一隶属标注粒度的标注结果中判断结果为正确的标注结果的第二数量；获取所述第二数量与所述第一数量的比值，作为所述任一隶属标注粒度的标注正确率。

在本公开的一个实施例中，所述获取子单元，具体用于：识别所述隶属标注粒度包含至少一个目标标注粒度；响应于存在任一目标标注粒度的标注结果的判断结果为错误，获取所述目标语音特征维度下的标注正确率为0；或者，响应于所有目标标注粒度的标注结果的判断结果为正确，获取其余隶属标注粒度的标注正确率和权重的乘积的和值，作为所述目标语音特征维度下的标注正确率。

在本公开的一个实施例中，所述获取子单元，具体用于：识别所述隶属标注粒度不包含所述目标标注粒度，获取所述隶属标注粒度的标注正确率和权重的乘积的和值，作为所述目标语音特征维度下的标注正确率。

在本公开的一个实施例中，所述获取子单元，具体用于：获取所述隶属标注粒度的历史权重、第一关注度参数和/或第二关注度参数，其中，所述第一关注度参数用于表征用户对所述隶属标注粒度的关注度，所述第二关注度参数用于表征服务端对所述隶属标注粒度的关注度；根据所述第一关注度参数和/或所述第二关注度参数，确定所述历史权重的调整参数；基于所述调整参数对所述历史权重进行调整，并将调整后的历史权重作为所述隶属标注粒度的权重。

在本公开的一个实施例中，所述装置还包括：第二识别模块，用于识别语音特征维度之间的层级关系；第三获取模块，用于针对任意一个属于第一层级的第一语音特征维度，获取所述第一语音特征维度对应的属于第二层级的每个第二语音特征维度，以及所述第二语音特征维度下的标注正确率，其中，属于所述第二层级的第二语音特征维度用于聚合成所述第一层级的第一语音特征维度；第四获取模块，用于根据每个所述第二语音特征维度下的标注正确率，获取所述第一语音特征维度下的标注正确率。

综上，本公开实施例的语音标注的正确率获取装置，获取语音的标注结果，标注结果包括针对原始语音的标注结果和原始语音切分后的语音分段的标注结果中的至少一项，识别标注结果的标注对象，基于标注对象确定标注结果的标注粒度，基于标注结果的标注粒度，获取目标语音特征维度下的标注正确率。由此，能够基于标注粒度获取不同特征维度下的标注正确率，灵活性较高，提高了语音标注的正确率的多样性。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图9示出了可以用来实施本公开的实施例的示例电子设备900的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图9所示，电子设备900包括计算单元901，其可以根据存储在只读存储器(ROM)902中的计算机程序或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序，来执行各种适当的动作和处理。在RAM 903中，还可存储电子设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

电子设备900中的多个部件连接至I/O接口905，包括：输入单元906，例如键盘、鼠标等；输出单元907，例如各种类型的显示器、扬声器等；存储单元908，例如磁盘、光盘等；以及通信单元909，例如网卡、调制解调器、无线通信收发机等。通信单元909允许电子设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理，例如图1至图7所述的语音标注的正确率获取方法。例如，在一些实施例中，语音标注的正确率获取方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元908。在一些实施例中，计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到电子设备900上。当计算机程序加载到RAM 903并由计算单元901执行时，可以执行上文描述的语音标注的正确率获取方法的一个或多个步骤。备选地，在其他实施例中，计算单元901可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行语音标注的正确率获取方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

根据本公开的实施例，本公开还提供了一种计算机程序产品，包括计算机程序，其中，所述计算机程序被处理器执行时实现本公开上述实施例所述的语音标注的正确率获取方法。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 语音标注的正确率获取方法、装置和电子设备 [P] . 中国专利： CN113284509A . 2021-08-20
2. 语音库的语音获取方法、装置、电子设备及存储介质 [P] . 中国专利： CN110728994B . 2020.05.05
3. Automatic phonetic symbols labeling method and automatic pronunciation symbol labeling system for pronunciation correction [P] . 日本专利： JP4391109B2 . 2009-12-24

机译：用于语音校正的自动语音符号标注方法和自动语音符号标注系统
4. NOISE ELIMINATION DEVICE, VOICE RECOGNITION DEVICE, VOICE ACQUISITION DEVICE, NOISE ELIMINATION SYSTEM, CONTROL METHOD OF NOISE ELIMINATION DEVICE, CONTROL METHOD VOICE ACQUISITION DEVICE AND CONTROL PROGRAM [P] . 日本专利： JP2015187626A . 2015-10-29

机译：噪声消除装置，语音识别装置，语音获取装置，噪声消除系统，噪声消除装置的控制方法，控制方法，语音获取装置和控制程序
5. Motion analyzer having voice acquisition unit, voice acquisition apparatus, motion analysis system having voice acquisition unit, and motion analysis method with voice acquisition [P] . 美国专利： US8983843B2 . 2015-03-17

机译：具有语音获取单元的运动分析器，语音获取设备，具有语音获取单元的运动分析系统以及具有语音获取的运动分析方法