首页> 中国专利> 噪音单词表示方法及装置

噪音单词表示方法及装置

摘要

本发明实施例提供一种噪音单词表示方法及装置,该方法包括:将噪音单词输入预训练的首尾字符预测模型,分别输出首尾字符的表示向量;根据噪音单词的字符级依赖关系,确定整个单词的表示向量;将首尾字符的表示向量和整个单词的表示向量进行组合,得到噪音单词的表示向量,用于单词识别任务;其中,所述首尾字符预测模型,根据正确单词的首尾字符作为标签,进行训练后得到。该方法通过在单词表示中加入了预训练预测得到的首尾单词向量来加强对首尾字符的关注,并且同时捕获了字符级依赖关系,使得单词识别器的识别率更高。

著录项

  • 公开/公告号CN112487788A

    专利类型发明专利

  • 公开/公告日2021-03-12

    原文格式PDF

  • 申请/专利权人 中国科学院信息工程研究所;

    申请/专利号CN202011171086.6

  • 申请日2020-10-28

  • 分类号G06F40/216(20200101);G06F40/284(20200101);

  • 代理机构11002 北京路浩知识产权代理有限公司;

  • 代理人郭亮

  • 地址 100093 北京市海淀区闵庄路甲89号

  • 入库时间 2023-06-19 10:11:51

说明书

技术领域

本发明涉及自然语言处理领域,尤其涉及一种噪音单词表示方法及装置。

背景技术

近些年来随着各种社交软件及自媒体的快速发展,文本数据在互联网数据中占有很大的比例。然而,由于人们在撰写发布这些信息时往往依赖于个人习惯,而对于文本的结构性或正确性并不怎么重视,导致这些文本通常含有拼写错误的单词。这样的文本通常需要先通过单词识别器进行识别,还原成正确文本再进行下一步的信息处理和挖掘工作。对于单词识别器来说,噪音单词的表示方法对其识别率起着关键性作用。因此,对含有噪音的英文单词的表示方法成为单词识别器的研究重点。

目前,针对有噪单词的表示方法主要有以下几种:使用半字符表示方法,首尾字符采用one-hot表示方法,中间字符采用词袋表示方法;使用Transformer编码器结构捕获单词间的字符级依赖关系来对有噪单词进行表示。

当前噪音单词的表示方法存在的不足主要在于:没有完全利用单词的首尾字符信息。当前方法无法完全利用首尾字符信息的主要原因在于首尾字符的特殊性,当人类正常阅读英文单词时,通常只要首尾字符正确,而忽略内部字符顺序就可以将单词识别出来。当前主流方法之一便将首尾字符固定,但这将会直接限定首尾字符正确的情况,无法很好的应对首尾字符错误的情况。或者直接将首尾字符和中间字符一样处理,这种方法将遗漏首尾字符所能提供的重要信息。首尾字符信息的不完全利用将会导致单词识别结果的不理想甚至错误。

发明内容

本发明实施例提供一种噪音单词表示方法及装置,用以解决现有技术中的缺陷。

本发明实施例提供一种噪音单词表示方法,包括:将噪音单词输入预训练的首尾字符预测模型,分别输出首尾字符的表示向量;根据噪音单词的字符级依赖关系,确定整个单词的表示向量;将首尾字符的表示向量和整个单词的表示向量进行组合,得到噪音单词的表示向量,用于单词识别任务;其中,所述首尾字符预测模型,根据正确单词的首尾字符作为标签,进行训练后得到。

根据本发明一个实施例的噪音单词表示方法,所述将噪音单词输入预训练的首尾字符预测模型,输出首尾字符的表示向量,包括:将噪音单词输入预训练的首尾字符预测模型,根据噪音单词去除首尾字符后的语义关联信息,得到首尾字符所有的预测结果和对应的概率;根据每个预测结果的首尾字符的表示向量和对应的概率,确定首尾字符的表示向量。

根据本发明一个实施例的噪音单词表示方法,所述将噪音单词输入预训练的首尾字符预测模型之前,还包括:获取多个正确单词,以正确单词的首尾字符作为标签,得到训练集样本;利用所述训练集样本中正确单词的表示向量作为输入,构建初始首尾字符预测模型并进行训练,得到预训练的首尾字符预测模型。

根据本发明一个实施例的噪音单词表示方法,所述根据噪音单词的字符级依赖关系,确定整个单词的表示向量,包括:使用transformer编码器结构捕获噪音单词的字符级依赖关系,确定整个单词的表示向量。

根据本发明一个实施例的噪音单词表示方法,将首尾字符的表示向量和整个单词的表示向量进行组合,包括:将首尾字符的表示向量,分别乘上对应的系数矩阵进行加权;将加权后的首尾字符的表示向量,通过激活函数进行映射后,与整个单词的表示向量进行相加。

根据本发明一个实施例的噪音单词表示方法,所述得到噪音单词的表示向量之前,还包括:获取已知识别结果的噪音单词,初始化所述系数矩阵,并按对应组合方法得到样本噪音单词的表示向量;将样本噪音单词的表示向量输入单词识别器,利用单词识别器的识别结果和已知识别结果的标签,对所述系数矩阵进行更新。

本发明实施例还提供一种噪音单词表示装置,包括:首尾字符预测模块,用于将噪音单词输入预训练的首尾字符预测模型,分别输出首尾字符的表示向量;单词向量确定模块,用于根据噪音单词的字符级依赖关系,确定整个单词的表示向量;向量组合模块,用于将首尾字符的表示向量和整个单词的表示向量进行组合,得到噪音单词的表示向量,用于单词识别任务;其中,所述首尾字符预测模型,根据正确单词的首尾字符作为标签,进行训练后得到。

根据本发明一个实施例的噪音单词表示方法,所述首尾字符预测模块,具体用于:将噪音单词输入预训练的首尾字符预测模型,根据噪音单词去除首尾字符后的语义关联信息,得到首尾字符所有的预测结果和对应的概率;根据每个预测结果的首尾字符的表示向量和对应的概率,确定首尾字符的表示向量。

本发明实施例还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述噪音单词表示方法的步骤。

本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述噪音单词表示方法的步骤。

本发明实施例提供的噪音单词表示方法及装置,通过在单词表示中加入了预训练预测得到的首尾单词向量来加强对首尾字符的关注,并且同时捕获了字符级依赖关系,使得单词识别器的识别率更高。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种噪音单词表示方法的流程示意图;

图2是本发明另一实施例提供的一种噪音单词表示方法的流程示意图;

图3是本发明实施例提供的一种噪音单词表示装置的结构示意图;

图4是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

下面结合图1-图4描述本发明实施例的噪音单词表示方法及装置。图1是本发明实施例提供的一种噪音单词表示方法的流程示意图,如图1所示,本发明实施例提供一种噪音单词表示方法,包括:

101、将噪音单词输入预训练的首尾字符预测模型,分别输出首尾字符的表示向量。

噪音单词为有字母错误的单词,本实施例中,预先训练一个首尾字符预测模型。可基于常用的字符预测方法实现,训练好的首尾字符预测模型,当输入一个正常单词,则输出对应的首字符和尾字符的向量表示。由于需预测两个字符,可通过训练完成的两个模型分别实现首字符和尾字符的向量预测,可将输出层前一层的隐藏向量作为首尾字符的向量表示。

102、根据噪音单词的字符级依赖关系,确定整个单词的表示向量。

单词的字符之间存在依赖关系,根据此依赖关系可得到单词的唯一向量表示。可选地,可使用transformer编码器捕获噪音单词的字符级依赖关系,确定整个单词的表示向量,得到整个单词对应的向量表达x

103、将首尾字符的表示向量和整个单词的表示向量进行组合,得到噪音单词的表示向量,用于单词识别任务。

将首字符的表示向量、尾字符的表示向量和所述整个单词的表示向量进行组合,得到噪音单词的表示向量,用于后续环节词级依赖关系的分析中进行单词识别任务。

本发明实施例的噪音单词表示方法,通过在单词表示中加入了预训练预测得到的首尾单词向量来加强对首尾字符的关注,并且同时捕获了字符级依赖关系,使得单词识别器的识别率更高。

基于上述实施例的内容,作为一种可选实施例,所述将噪音单词输入预训练的首尾字符预测模型,输出首尾字符的表示向量,包括:将噪音单词输入预训练的首尾字符预测模型,根据噪音单词去除首尾字符后的语义关联信息,得到首尾字符所有的预测结果和对应的概率;根据每个预测结果的首尾字符的表示向量和对应的概率,确定首尾字符的表示向量。

由于一个缺少首或尾的单词,其预测的首或尾字符可能不止一个,在首尾字符预测模型中,预测得到的首或尾字符存在多个,每个预测结果有对应的概率。在首尾字符预测模型中,根据每个预测结果的首尾字符的表示向量和对应的概率,确定首尾字符的表示向量。例如,首尾字符的选择为选择概率最大的结果,取隐藏层的网络参数作为首尾字符的表示向量。

基于上述实施例的内容,作为一种可选实施例,所述将噪音单词输入预训练的首尾字符预测模型之前,还包括:获取多个正确单词,以正确单词的首尾字符作为标签,得到训练集样本;利用所述训练集样本中正确单词的表示向量作为输入,构建初始首尾字符预测模型并进行训练,得到预训练的首尾字符预测模型。

将大量的正确英文单词作为训练集,预测对应的首尾字符,实现首尾字符预测模型的训练。将噪音单词输入预训练好的首尾字符预测模型,可以大概率正确地预测出其首尾字符,并获取相应的首尾字符向量表示x

基于上述实施例的内容,作为一种可选实施例,将首尾字符的表示向量和整个单词的表示向量进行组合,包括:将首尾字符的表示向量,分别乘上对应的系数矩阵进行加权;将加权后的首尾字符的表示向量,通过激活函数进行映射后,与整个单词的表示向量进行相加。

将获取的首尾字符向量加入到整体单词表示向量中去,设置首尾字符的系数矩阵分别用W

x

其中,tanH为tanH激活函数。

基于上述实施例的内容,作为一种可选实施例,所述得到噪音单词的表示向量之前,还包括:获取已知识别结果的噪音单词,初始化所述系数矩阵,并按对应组合方法得到样本噪音单词的表示向量;将样本噪音单词的表示向量输入单词识别器,利用单词识别器的识别结果和已知识别结果的标签,对所述系数矩阵进行更新。

为了更精确表示噪音单词,上述系数矩阵是训练后得到的。在噪声单词识别之前,获取大量已经识别的噪音单词,已识别结果作为标签。对于初始的系数矩阵,单词识别器的识别结果可能并不准确,计算作为标签的已知识别结果,和单词识别器的识别结果的误差,并通过目前常用的机器学习方法,对系数矩阵进行更新训练。通过大量已知识别结果的噪音单词的不断训练,从而得到准确的系数矩阵,进一步实现噪音单词的准确表达。

图2是本发明另一实施例提供的一种噪音单词表示方法的流程示意图。具体参见图2和上述各方法实施例。

下面对本发明实施例提供的噪音单词表示装置进行描述,下文描述的噪音单词表示装置与上文描述的噪音单词表示方法可相互对应参照。

图3是本发明实施例提供的一种噪音单词表示装置的结构示意图,如图3所示,该噪音单词表示装置包括:首尾字符预测模块301、单词向量确定模块302和向量组合模块303。其中,首尾字符预测模块301用于将噪音单词输入预训练的首尾字符预测模型,分别输出首尾字符的表示向量;单词向量确定模块302用于根据噪音单词的字符级依赖关系,确定整个单词的表示向量;向量组合模块303用于将首尾字符的表示向量和整个单词的表示向量进行组合,得到噪音单词的表示向量,用于单词识别任务;其中,所述首尾字符预测模型,根据正确单词的首尾字符作为标签,进行训练后得到。

本发明实施例提供的装置实施例是为了实现上述各方法实施例的,具体流程和详细内容请参照上述方法实施例,此处不再赘述。

本发明实施例提供的噪音单词表示装置,通过在单词表示中加入了预训练预测得到的首尾单词向量来加强对首尾字符的关注,并且同时捕获了字符级依赖关系,使得单词识别器的识别率更高。

图4是本发明实施例提供的一种电子设备的结构示意图,如图4所示,该电子设备可以包括:处理器(processor)401、通信接口(Communications Interface)402、存储器(memory)403和通信总线404,其中,处理器401,通信接口402,存储器403通过通信总线404完成相互间的通信。处理器401可以调用存储器403中的逻辑指令,以执行噪音单词表示方法,该方法包括:将噪音单词输入预训练的首尾字符预测模型,分别输出首尾字符的表示向量;根据噪音单词的字符级依赖关系,确定整个单词的表示向量;将首尾字符的表示向量和整个单词的表示向量进行组合,得到噪音单词的表示向量,用于单词识别任务;其中,所述首尾字符预测模型,根据正确单词的首尾字符作为标签,进行训练后得到。

此外,上述的存储器403中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的噪音单词表示方法,该方法包括:将噪音单词输入预训练的首尾字符预测模型,分别输出首尾字符的表示向量;根据噪音单词的字符级依赖关系,确定整个单词的表示向量;将首尾字符的表示向量和整个单词的表示向量进行组合,得到噪音单词的表示向量,用于单词识别任务;其中,所述首尾字符预测模型,根据正确单词的首尾字符作为标签,进行训练后得到。

又一方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的噪音单词表示方法,该方法包括:将噪音单词输入预训练的首尾字符预测模型,分别输出首尾字符的表示向量;根据噪音单词的字符级依赖关系,确定整个单词的表示向量;将首尾字符的表示向量和整个单词的表示向量进行组合,得到噪音单词的表示向量,用于单词识别任务;其中,所述首尾字符预测模型,根据正确单词的首尾字符作为标签,进行训练后得到。

以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号