首页> 中国专利> 改进掩码策略的自监督语音表征方法及相关设备

改进掩码策略的自监督语音表征方法及相关设备

摘要

本申请涉及人工智能技术领域,尤其涉及一种改进掩码策略的自监督语音表征方法及相关设备。所述方法包括根据基于语音和音素级别的改进掩码策略对预处理后的语音数据做掩码处理,并进行Transformer模型训练,得到训练好的自监督语音表征模型;将待表征语音数据输入至训练好的自监督语音表征模型中,获得目标表征数据。本申请还涉及区块链技术,利用改进后的掩码策略处理后的语音数据可存储于区块链中。本方案采用自监督学习模型对语音数据进行了改进的掩码处理,处理后的语音数据表征训练具有更高复杂度,因而得到的模型更具高级别的表征能力,能有效改进下游语音处理任务的准确率。

著录项

  • 公开/公告号CN114974297A

    专利类型发明专利

  • 公开/公告日2022-08-30

    原文格式PDF

  • 申请/专利权人 平安科技(深圳)有限公司;

    申请/专利号CN202210517669.2

  • 发明设计人 张旭龙;王健宗;程宁;

    申请日2022-05-12

  • 分类号G10L25/30(2013.01);G06N3/08(2006.01);

  • 代理机构深圳市世联合知识产权代理有限公司 44385;

  • 代理人杨晖琼

  • 地址 518000 广东省深圳市福田区福田街道福安社区益田路5033号平安金融中心23楼

  • 入库时间 2023-06-19 16:36:32

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-09-16

    实质审查的生效 IPC(主分类):G10L25/30 专利申请号:2022105176692 申请日:20220512

    实质审查的生效

说明书

技术领域

本申请涉及人工智能技术领域,尤其涉及一种改进掩码策略的自监督语音表征方法及相关设备。

背景技术

众所周知,标注语音数据需要耗费大量的人工成本,而无标注语料库则相对容易获得。自监督语音表征学习可以使用在大规模的无标注语音数据上,基于掩码的自监督学习模型是业界一种有效的提取高阶语音特征表示的方法,因此获得广泛关注。

然而,目前业界大多数的语音表征学习模型在自监督预训练中,都使用的随机掩码策略,这种随机性导致语音数据中特征相对较明显的数据得不到足够的训练,从而影响模型的性能。

发明内容

本申请实施例的目的在于提出一种改进掩码策略的自监督语音表征方法及相关设备,以解决现有方案语音表征模型的学习能力不足的问题。

为了解决上述技术问题,本申请实施例提供一种改进掩码策略的自监督语音表征方法,采用了如下所述的技术方案:

获取语音训练样本数据并进行预处理,所述预处理包括语音分帧,得到预处理后的语音数据X=(x

基于改进掩码策略确定在所述预处理后的语音数据中多个掩码段的起始位置序号和掩码段的长度;

根据多个所述掩码段的起始位置序号和所述掩码段的长度生成改进后的掩码序列;

利用所述掩码序列对所述预处理后的语音数据做掩码处理,得到掩码处理后的语音数据;

对所述掩码处理后的语音数据进行Transformer模型训练,得到训练好的自监督语音表征模型;

接收待表征语音数据,将所述待表征语音数据输入至所述训练好的自监督语音表征模型中,获得目标表征数据。

为了解决上述技术问题,本申请实施例还提供一种改进掩码策略的自监督语音表征装置,采用了如下所述的技术方案:

语音获取模块,用于获取语音训练样本数据并进行预处理,所述预处理包括语音分帧,得到预处理后的语音数据X=(x

掩码参数确定模块,用于基于改进掩码策略确定在所述预处理后的语音数据中多个掩码段的起始位置序号和掩码段的长度;

掩码生成模块,用于根据多个所述掩码段的起始位置序号和所述掩码段的长度生成改进后的掩码序列;

掩码处理模块,用于利用所述掩码序列对所述预处理后的语音数据做掩码处理,得到掩码处理后的语音数据;

模型训练模块,用于对所述掩码处理后的语音数据进行Transformer模型训练,得到训练好的自监督语音表征模型;

语音预测模块,用于接收待表征语音数据,将所述待表征语音数据输入至所述训练好的自监督语音表征模型中,获得目标表征数据。

为了解决上述技术问题,本申请实施例还提供一种计算机设备,采用了如下所述的技术方案:

所述计算机设备包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如上所述的改进掩码策略的自监督语音表征方法的步骤。

为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:

所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如上所述的改进掩码策略的自监督语音表征方法的步骤。

与现有技术相比,本申请实施例主要有以下有益效果:

本方案采用自监督学习模型对语音数据进行了改进的掩码处理,处理后的语音数据表征训练具有更高复杂度,因而得到的模型更具高级别的表征能力,能有效改进下游语音处理任务的准确率。

附图说明

为了更清楚地说明本申请中的方案,下面将对本申请实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本申请实施例一提供的改进掩码策略的自监督语音表征方法的实现流程图;

图2是图1中步骤S102的一种实现方式的流程图;

图3是图1中步骤S102的第二种实现方式的流程图;

图4是图1中步骤S102的第三种实现方式的流程图;

图5是图1中步骤S103的实现流程图;

图6是本申请实施例二提供的改进掩码策略的自监督语音表征装置的结构示意图;

图7是根据本申请的计算机设备的一个实施例的结构示意图。

具体实施方式

除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。

在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。

为了使本技术领域的人员更好地理解本申请方案,下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述。

实施例一

如图1所示,示出了本申请实施例一提供的改进掩码策略的自监督语音表征方法的实现流程图,为了便于说明,仅示出于本申请相关的部分。

本实施例提供的改进掩码策略的自监督语音表征方法,包括以下步骤:

步骤S101:获取语音训练样本数据并进行预处理,所述预处理包括语音分帧,得到预处理后的语音数据X=(x

在本申请实施例中,利用大规模的无标注的语音数据作为语音训练样本。对获取的语音训练样本信号进行处理,滤除掉其中的不重要信息以及背景噪声,并进行语音信号的端点检测(也就是找出语音信号的始末)、语音分帧(可以近似理解为,一段语音就像是一段视频,由许多帧的有序画面构成,可以将语音信号切割为单个的“画面”进行分析)等处理,可以减少语音信号整体的非稳态、时变的影响。

步骤S102:基于改进掩码策略确定在所述预处理后的语音数据中多个掩码段的起始位置序号和掩码段的长度。

在本申请实施例中,掩码语言模型(Masked Language Model,MLM)在预训练阶段完成,利用掩码策略在语音数据中选出一些词用掩码标记,然后通过后续模型训练去预测被掩码标记的词。

在本申请实施例中,可使用基于语音级别、基于音素级别或两者结合的掩码策略。

步骤S103:根据多个所述掩码段的起始位置序号和所述掩码段的长度生成改进后的掩码序列。

在本申请实施例中,对新建掩码序列m中以所述掩码段的起始位置序号开始的连续多个元素置零,得到改进后的掩码序列M,其中,所述连续多个元素指的是以所述掩码段的长度为个数的多个元素。

步骤S104:利用所述掩码序列对所述预处理后的语音数据做掩码处理,得到掩码处理后的语音数据。

在本申请实施例中,对所述预处理后的语音数据X=(x

步骤S105:对所述掩码处理后的语音数据进行Transformer模型训练,得到训练好的自监督语音表征模型。

在本申请实施例中,将所述掩码处理后的语音数据作为Transformer模型训练的输入数据,利用Transformer模型得到预测语音数据

调整模型参数并监督预测语音数据

步骤S106:接收待表征语音数据,将所述待表征语音数据输入至所述训练好的自监督语音表征模型中,获得目标表征数据。

在本申请实施例中,对接收到的待表征语音数据进行去噪、分帧等预处理,然后利用改进后的掩码策略对预处理后的待表征语音数据做掩码处理,再通过所述训练好的自监督语音表征模型获得目标表征数据。

本申请提供的改进掩码策略的自监督语音表征方法,对语音数据进行了改进的掩码处理,处理后的语音数据表征训练具有更高复杂度,因而得到的模型更具高级别的表征能力,能有效改进音素分类、说话人验证、语音识别等下游语音处理任务的准确率。

继续参考图2,示出了图1中步骤S102的一种实现方式的流程图,为了便于说明,仅示出于本申请相关的部分。

在本实施例的一些可选的实现方式中,步骤S102具体包括:步骤S201、步骤S202、步骤S203、步骤S204、步骤S205。

步骤S201:对所述预处理后的语音数据进行语音活动检测和语音识别,将所述预处理后的语音数据分为语音帧集合和静音帧集合。

在本申请实施例中,语音活动检测(Voice Activity Detection,VAD)的是一种判断当前语音帧是人声还是静音帧的二元分类模型。通过VAD将预处理后的语音数据X分成语音部分和静音部分。

在本申请实施例中,使用一个预先训练好的自动语音识别(Automatic SpeechRecognition,ASR)模型对所述语音部分预测每一个音素的边界。通过语音字典确定每个字对应的语音起始帧,计算得到每一个字的帧长度Cw,每一个字的帧长度Cw指的是每个字对应起始帧位置到结束帧位置包含的语音帧总数。进一步地,从语音部分提取出所有字的起始帧集合作为所述语音帧集合A,从静音部分提取所有静音段的起始帧集合作为静音帧集合B。

步骤S202:获取掩码段长度参数。

在本申请实施例中,掩码段长度参数分为语音帧掩码段长度参数和静音帧掩码段长度参数两种,其中语音帧掩码段长度参数指的是当前字的帧长度Cw,静音帧掩码段长度参数指的是当前静音段对应起始帧位置到结束帧位置包含的总帧数。

步骤S203:获取设定的帧分类参数ρ∈[0,1],所述帧分类参数用于调节用于Transformer模型训练的语音帧和静音帧的比例。

在本申请实施例中,掩盖更多的语音帧语音,对于自监督模型训练出更有效地语音特征表示是有帮助的。利用参数ρ还保留一定比例的静音帧的原因在于,静音帧会包含一些高阶的语义表示特征,例如韵律和节奏。

步骤S204:生成一个随机数p∈[0,1],比较所述随机数p和所述帧分类参数ρ的大小,若所述随机数p不大于所述帧分类参数ρ,则在所述语音帧集合A中随机选择一个语音帧,以所述语音帧在所述预处理后的语音数据中的位置序号作为所述掩码段的起始位置序号,以所述掩码段长度参数作为所述掩码段的长度,若所述随机数p大于所述帧分类参数ρ,则在所述静音帧集合中随机选择一个静音帧,以所述静音帧在所述预处理后的语音数据中的位置序号作为所述掩码段的起始位置序号,以所述掩码段长度参数作为所述掩码段的长度。

在本申请实施例中,按照所述随机数p和所述帧分类参数ρ的大小分为两种情况:若p≤ρ,则在所述语音帧集合A中随机选择一个语音帧,以所述语音帧在所述预处理后的语音数据中的位置序号s

步骤S205:重复前一步骤,直到确定数量满足Transformer模型训练要求的多个掩码段的起始位置序号和对应的掩码段的长度。

在本申请实施例中,根据模型复杂度选择合适的掩码段数量。对每一句语音数据根据掩盖粒度的不同选择不同的掩码段数量,例如,执行语音级别的掩盖时,可选择3至5段掩码数;执行音素级别的掩盖时,可选择总音素数的20%作为掩码段数量。

继续参考图3,示出了图1中步骤S102的第二种实现方式的流程图,为了便于说明,仅示出于本申请相关的部分。

在本实施例的一些可选的实现方式中,上述步骤S102具体包括:步骤S301、步骤S302以及步骤S303。

步骤S301:对所述预处理后的语音数据进行语音识别,获取每个音素的起始帧和结束帧,得到所有音素的起始帧集合以及每个音素的长度,所述每个音素的长度指的是对应音素起始帧位置到结束帧位置包含的语音帧总数。

在本申请实施例中,使用一个预先训练好的自动语音识别(Automatic SpeechRecognition,ASR)模型来预测每一个音素y

步骤S302:在所述起始帧集合中随机选择一个起始帧,以所述起始帧在所述预处理后的语音数据中的位置序号作为所述掩码段的起始位置序号,以所述起始帧对应的音素的长度作为所述掩码段的长度。

在本申请实施例中,在所述起始帧集合S中随机选择一个起始帧,以所述起始帧在所述预处理后的语音数据中的位置序号b

步骤S303:重复前一步骤,直到确定数量满足Transformer模型训练要求的多个掩码段的起始位置序号和对应的掩码段的长度。

在本申请实施例中,根据模型复杂度选择合适的掩码段数量。对每一句语音数据根据掩盖粒度的不同选择不同的掩码段数量,例如,执行语音级别的掩盖时,可选择3至5段掩码数;执行音素级别的掩盖时,可选择总音素数的20%作为掩码段数量。

继续参考图4,示出了图1中步骤S102的第三种实现方式的流程图,为了便于说明,仅示出于本申请相关的部分。

在本实施例的一些可选的实现方式中,上述步骤S102具体包括:步骤S401、步骤S402、步骤S403、步骤S404、步骤S405以及步骤S406。

步骤S401:对所述预处理后的语音数据进行语音活动检测,以提取出静音帧集合。

在本申请实施例中,语音活动检测(Voice Activity Detection,VAD)的是一种判断当前语音帧是人声还是静音帧的二元分类模型。首先,我们通过VAD将预处理后的语音数据X分成语音部分和静音部分,从静音部分提取所有静音段的起始帧集合作为静音帧集合B。

步骤S402:获取静音帧掩码段长度参数。

在本申请实施例中,静音帧掩码段长度参数指的是当前静音段对应起始帧位置到结束帧位置包含的总帧数。

步骤S403:对所述预处理后的语音数据进行语音识别,获取每个音素的起始帧和结束帧,得到音素起始帧集合以及每个音素的长度,所述每个音素的长度指的是对应音素起始帧位置到结束帧位置包含的语音帧总数。

在本申请实施例中,使用一个预先训练好的自动语音识别(Automatic SpeechRecognition,ASR)模型来预测每一个音素y

步骤S404:获取设定的帧分类参数ρ∈[0,1],所述帧分类参数用于调节用于Transformer模型训练的语音帧和静音帧的比例。

在本申请实施例中,掩盖更多的语音帧语音,对于自监督模型训练出更有效地语音特征表示是有帮助的。利用参数ρ还保留一定比例的静音帧的原因在于,静音帧会包含一些高阶的语义表示特征,例如韵律和节奏。

步骤S405:生成一个随机数p∈[0,1],比较所述随机数p和所述帧分类参数ρ的大小,若所述随机数p不大于所述帧分类参数ρ,则在所述起始帧集合中随机选择一个起始帧,以所述起始帧在所述预处理后的语音数据中的位置序号作为所述掩码段的起始位置序号,以所述起始帧对应的音素的长度作为所述掩码段的长度,若所述随机数p大于所述帧分类参数ρ,则在所述静音帧集合中随机选择一个静音帧,以所述静音帧在所述预处理后的语音数据中的位置序号作为所述掩码段的起始位置序号,以所述静音帧掩码段长度参数作为所述掩码段的长度。

在本申请实施例中,按照所述随机数p和所述帧分类参数ρ的大小分为两种情况:若p≤ρ,则在所述音素起始帧集合S中随机选择一个起始帧,以所述起始帧在所述预处理后的语音数据中的位置序号b

步骤S406:重复前一步骤,直到确定数量满足Transformer模型训练要求的多个掩码段的起始位置序号和对应的掩码段的长度。

在本申请实施例中,根据模型复杂度选择合适的掩码段数量。对每一句语音数据根据掩盖粒度的不同选择不同的掩码段数量,例如,执行语音级别的掩盖时,可选择3至5段掩码数;执行音素级别的掩盖时,可选择总音素数的20%作为掩码段数量。

继续参考图5,示出了图1中步骤S103的实现流程图,为了便于说明,仅示出于本申请相关的部分。

在本实施例的一些可选的实现方式中,上述步骤S103具体包括:步骤S501、步骤S502以及步骤S503。

步骤S501:新建掩码序列m=(m

在本申请实施例中,新建与所述预处理后的语音数据相对应的掩码序列m,其中,T为所述预处理后的语音数据的帧长度。

步骤S502:对所述掩码序列m中以所述掩码段的起始位置序号开始的连续多个元素置零,其中,所述连续多个元素指的是以所述掩码段的长度为个数的多个元素;

在本申请实施例中,为避免模型过渡本地平滑的问题,对所述掩码序列m中以所述掩码段的起始位置序号开始的连续多个元素置零,其中,所述连续多个元素指的是以所述掩码段的长度为个数的多个元素。例如,以语音数据帧在所述预处理后的语音数据中的位置序号s

其中,所述语音数据帧可以是语音帧、静音帧或者音素起始帧中的任意一种。

步骤S503:重复前一步骤,直到完成所有掩码段置零处理,得到改进后的掩码序列M=(m

在本申请实施例中,根据模型复杂度选择合适的掩码段数量,对每一句语音数据根据掩盖粒度的不同选择不同的掩码段数量,例如,执行语音级别的掩盖时,可选择3至5段掩码数;执行音素级别的掩盖时,可选择总音素数的20%作为掩码段数量。重复前一步骤对所有掩码段进行置零处理,得到改进后的掩码序列M。

综上所述,本申请提供的改进掩码策略的自监督语音表征方法对语音数据进行了语音和音素级别的掩码处理,处理后的语音数据表征训练具有更高复杂度,因而得到的模型更具高级别的表征能力,能有效改进音素分类、说话人验证、语音识别等下游语音处理任务的准确率。同时本方案采用自监督学习模型,可以更有效地利用大规模的无标注语音数据,并提出了将语音级别和音素级别的掩码策略相结合的改进策略,进一步提升模型性能,增强模型表征能力。

需要强调的是,为进一步保证信息的私密和安全性,含有敏感信息的日志数据等可以存储于一区块链的节点中。本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

本申请可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,该计算机可读指令可存储于一计算机可读取存储介质中,该计算机可读指令在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。

应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

实施例二

进一步参考图6,作为对上述图1所示方法的实现,本申请提供了一种改进掩码策略的自监督语音表征装置的一个实施例,该装置实施例与图1所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。

如图6所示,本实施例的改进掩码策略的自监督语音表征装置100包括:语音获取模块110、掩码参数确定模块120、掩码生成模块130、掩码处理模块140、模型训练模块150以及语音预测模块160,其中:

语音获取模块110,用于获取语音训练样本数据并进行预处理,所述预处理包括语音分帧,得到预处理后的语音数据X=(x

掩码参数确定模块120,用于基于改进掩码策略确定在所述预处理后的语音数据中多个掩码段的起始位置序号和掩码段的长度;

掩码生成模块130,用于根据多个所述掩码段的起始位置序号和所述掩码段的长度生成改进后的掩码序列;

掩码处理模块140,用于利用所述掩码序列对所述预处理后的语音数据做掩码处理,得到掩码处理后的语音数据;

模型训练模块150,用于对所述掩码处理后的语音数据进行Transformer模型训练,得到训练好的自监督语音表征模型;

语音预测模块160,用于接收待表征语音数据,将所述待表征语音数据输入至所述训练好的自监督语音表征模型中,获得目标表征数据。

在本申请实施例中,语音获取模块110利用大规模的无标注的语音数据作为语音训练样本。语音获取模块110对获取的语音训练样本信号进行处理,滤除掉其中的不重要信息以及背景噪声,并进行语音信号的端点检测(也就是找出语音信号的始末)、语音分帧(可以近似理解为,一段语音就像是一段视频,由许多帧的有序画面构成,可以将语音信号切割为单个的“画面”进行分析)等处理,可以减少语音信号整体的非稳态、时变的影响。

在本申请实施例中,掩码语言模型(Masked Language Model,MLM)在预训练阶段完成,掩码参数确定模块120利用掩码策略在语音数据中选出一些词用掩码标记,然后通过后续模型训练去预测被掩码标记的词。

在本申请实施例中,掩码参数确定模块120使用基于语音级别、基于音素级别或两者结合的掩码策略。

在本申请实施例中,掩码生成模块130根据多个所述掩码段的起始位置序号和所述掩码段的长度生成改进后的掩码序列时,具体用于对新建掩码序列m中以所述掩码段的起始位置序号开始的连续多个元素置零,得到改进后的掩码序列M,其中,所述连续多个元素指的是以所述掩码段的长度为个数的多个元素。

在本申请实施例中,掩码处理模块140利用所述掩码序列对所述预处理后的语音数据做掩码处理,得到掩码处理后的语音数据时,具体用于对所述预处理后的语音数据X=(x

在本申请实施例中,模型训练模块150对所述掩码处理后的语音数据进行Transformer模型训练,得到训练好的自监督语音表征模型时,具体用于将所述掩码处理后的语音数据作为Transformer模型训练的输入数据,利用Transformer模型得到预测语音数据

在本申请实施例中,模型训练模块150调整模型参数并监督预测语音数据

在本申请实施例中,语音预测模块160接收待表征语音数据,将所述待表征语音数据输入至所述训练好的自监督语音表征模型中,获得目标表征数据时,具体用于对接收到的待表征语音数据进行去噪、分帧等预处理,然后利用改进后的掩码策略对预处理后的待表征语音数据做掩码处理,再通过所述训练好的自监督语音表征模型获得目标表征数据。

综上所述,本申请提供的改进掩码策略的自监督语音表征装置,通过根据改进掩码策略对预处理后的语音数据做掩码处理,并进行Transformer模型训练,得到训练好的自监督语音表征模型;将待表征语音数据输入至训练好的自监督语音表征模型中,获得目标表征数据。本方案对语音数据进行了语音和音素级别的掩码处理,处理后的语音数据表征训练具有更高复杂度,因而得到的模型更具高级别的表征能力,能有效改进音素分类、说话人验证、语音识别等下游语音处理任务的准确率。同时本方案采用自监督学习模型,可以更有效地利用大规模的无标注语音数据,并提出了将语音级别和音素级别的掩码策略相结合的改进策略,进一步提升模型性能,增强模型表征能力。

为解决上述技术问题,本申请实施例还提供计算机设备。具体请参考图7,图7为本实施例计算机设备基本结构框图。

所述计算机设备200包括通过系统总线相互通信连接存储器210、处理器220、网络接口230。需要指出的是,图中仅示出了具有组件210-230的计算机设备200,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

所述存储器210至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器210可以是所述计算机设备200的内部存储单元,例如该计算机设备200的硬盘或内存。在另一些实施例中,所述存储器210也可以是所述计算机设备200的外部存储设备,例如该计算机设备200上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,所述存储器210还可以既包括所述计算机设备200的内部存储单元也包括其外部存储设备。本实施例中,所述存储器210通常用于存储安装于所述计算机设备200的操作系统和各类应用软件,例如改进掩码策略的自监督语音表征方法的计算机可读指令等。此外,所述存储器210还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器220在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器220通常用于控制所述计算机设备200的总体操作。本实施例中,所述处理器220用于运行所述存储器210中存储的计算机可读指令或者处理数据,例如运行所述改进掩码策略的自监督语音表征方法的计算机可读指令。

所述网络接口230可包括无线网络接口或有线网络接口,该网络接口230通常用于在所述计算机设备200与其他电子设备之间建立通信连接。

本申请提供的改进掩码策略的自监督语音表征方法,通过基于预设敏感信息匹配规则从大量的日志文件中检测和提取含有敏感信息的日志数据及其属性,并通过人机交互界面简明地在目标用户端展示,利用日志数据中包含的代码位置关键信息可快速定位代码脱敏漏洞,提高开发效率。

本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令可被至少一个处理器执行,以使所述至少一个处理器执行如上述的改进掩码策略的自监督语音表征方法的步骤。

本申请提供的改进掩码策略的自监督语音表征方法,通过基于预设敏感信息匹配规则从大量的日志文件中检测和提取含有敏感信息的日志数据及其属性,并通过人机交互界面简明地在目标用户端展示,利用日志数据中包含的代码位置关键信息可快速定位代码脱敏漏洞,提高开发效率。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。

显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号