首页> 中国专利> 数据处理、目标识别模型训练、目标识别方法及装置

数据处理、目标识别模型训练、目标识别方法及装置

摘要

本申请提供一种数据处理、目标识别模型训练、目标识别方法及装置,其中,数据处理方法包括:基于获取的训练集,训练出多个不同的目标识别模型,然后利用训练得到的各目标识别模型,分别对训练集中的各训练文本进行目标识别,得到各训练文本的目标识别结果,如果针对任一训练文本,该训练文本的目标识别结果与该训练文本的标注信息不一致,则说明该训练文本的标注信息不准确,因此,对训练集中该训练文本的标注信息进行更新,从而去除了训练集中训练文本的标注信息的数据噪声。

著录项

  • 公开/公告号CN113255357A

    专利类型发明专利

  • 公开/公告日2021-08-13

    原文格式PDF

  • 申请/专利权人 北京金山数字娱乐科技有限公司;

    申请/专利号CN202110701378.4

  • 发明设计人 王得贤;李长亮;毛璐;

    申请日2021-06-24

  • 分类号G06F40/295(20200101);G06F16/33(20190101);G06F16/35(20190101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构11637 北京智信禾专利代理有限公司;

  • 代理人吴肖肖

  • 地址 100085 北京市海淀区西二旗中路33号院5号楼11层002号

  • 入库时间 2023-06-19 12:13:22

说明书

技术领域

本申请涉及计算机技术领域,特别涉及一种数据处理方法及装置、目标识别模型训练方法及装置、目标识别方法及装置、计算设备和计算机可读存储介质。

背景技术

在自然语言处理任务中,目标识别任务的需求越来越多,例如实体识别,实体识别又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。

在当前的目标识别任务中,通常采用深度学习方法,具体是将待识别文本输入预先训练得到的目标识别模型,目标识别模型是一种端到端的神经网络模型,可以直接输出待识别文本中的目标。

可见,目标识别模型的精度直接影响着识别结果的准确性,目标识别模型是基于训练集中海量的带有标注信息的训练文本训练得到的,训练集中训练文本的数目越多,训练得到的目标识别模型精度就越高。

训练文本的标注信息一般是由人工标注的,然而,随着训练集中训练文本的数目越来越多,这就导致不可避免地会出现人工漏标、错标等情况,使得训练集中训练文本的标注信息存在一定的数据噪声,影响目标识别模型的精度。

发明内容

有鉴于此,本申请实施例提供了一种数据处理方法及装置、目标识别模型训练方法及装置、目标识别方法及装置、计算设备和计算机可读存储介质,以解决现有技术中存在的技术缺陷。

根据本申请实施例的第一方面,提供了一种数据处理方法,包括:

获取训练集,其中,训练集包括多个训练文本;

基于训练集,训练得到不同的目标识别模型;

利用训练得到的各目标识别模型,分别对训练集中的各训练文本进行目标识别,得到各训练文本的目标识别结果;

针对各训练文本,在该训练文本的目标识别结果与该训练文本的标注信息不一致的情况下,更新训练集中该训练文本的标注信息。

可选地,基于训练集,训练得到不同的目标识别模型的步骤,包括:

利用训练集,对至少一个预设神经网络进行训练,得到不同的目标识别模型。

可选地,利用训练集,对至少一个预设神经网络进行训练,得到不同的目标识别模型的步骤,包括:

从训练集中依次选择验证子集和训练子集;

每次利用所选择的训练子集对同一个预设神经网络进行训练,并利用所选择的验证子集对训练结果进行验证,得到不同的目标识别模型。

可选地,利用训练集,对至少一个预设神经网络进行训练,得到不同的目标识别模型的步骤,包括:

从训练集中依次选择验证子集和训练子集;

针对不同的预设神经网络,每次利用所选择的训练子集对该预设神经网络进行训练,并利用所选择的验证子集对训练结果进行验证,得到不同的目标识别模型。

可选地,针对各训练文本,在该训练文本的目标识别结果与该训练文本的标注信息不一致的情况下,更新训练集中该训练文本的标注信息的步骤,包括:

针对各训练文本,若该训练文本的目标识别结果包括目标、且在训练集中不存在该训练文本的标注信息,则在训练集中增加该训练文本的标注信息,其中,增加的该训练文本的标注信息为识别出的该训练文本中的目标;

针对各训练文本,若该训练文本的目标识别结果不包括目标、且在训练集中存在该训练文本的标注信息,则从训练集中删除该训练文本的标注信息。

根据本申请实施例的第二方面,提供了一种目标识别模型训练方法,包括:

获取训练集,其中,训练集为利用本申请实施例第一方面提供的方法进行数据处理后的训练集;

利用训练集,对预设神经网络进行训练,得到目标识别模型。

根据本申请实施例的第三方面,提供了一种目标识别方法,包括:

获取待识别文本;

将待识别文本输入利用本申请实施例第二方面提供的方法训练得到的目标识别模型,得到待识别文本的目标识别结果。

根据本申请实施例的第四方面,提供了一种数据处理装置,包括:

第一获取模块,被配置为获取训练集,其中,训练集包括多个训练文本;

第一模型训练模块,被配置为基于训练集,训练得到不同的目标识别模型;

第一目标识别模块,被配置为利用训练得到的各目标识别模型,分别对训练集中的各训练文本进行目标识别,得到各训练文本的目标识别结果;

更新模块,被配置为针对各训练文本,在该训练文本的目标识别结果与该训练文本的标注信息不一致的情况下,更新训练集中该训练文本的标注信息。

可选地,第一模型训练模块,进一步被配置为:利用训练集,对至少一个预设神经网络进行训练,得到不同的目标识别模型。

可选地,第一模型训练模块,进一步被配置为:从训练集中依次选择验证子集和训练子集;每次利用所选择的训练子集对同一个预设神经网络进行训练,并利用所选择的验证子集对训练结果进行验证,得到不同的目标识别模型。

可选地,第一模型训练模块,进一步被配置为:从训练集中依次选择验证子集和训练子集;针对不同的预设神经网络,每次利用所选择的训练子集对该预设神经网络进行训练,并利用所选择的验证子集对训练结果进行验证,得到不同的目标识别模型。

可选地,更新模块,进一步被配置为:针对各训练文本,若该训练文本的目标识别结果包括目标、且在训练集中不存在该训练文本的标注信息,则在训练集中增加该训练文本的标注信息,其中,增加的该训练文本的标注信息为识别出的该训练文本中的目标;针对各训练文本,若该训练文本的目标识别结果不包括目标、且在训练集中存在该训练文本的标注信息,则从训练集中删除该训练文本的标注信息。

根据本申请实施例的第五方面,提供了一种目标识别模型训练装置,包括:

第二获取模块,被配置为获取训练集,其中,训练集为利用本申请实施例第一方面提供的方法进行数据处理后的训练集;

第二模型训练模块,被配置为利用训练集,对预设神经网络进行训练,得到目标识别模型。

根据本申请实施例的第六方面,提供了一种目标识别装置,包括:

第三获取模块,被配置为获取待识别文本;

第二目标识别模块,被配置为将待识别文本输入利用本申请实施例第二方面提供的方法训练得到的目标识别模型,得到待识别文本的目标识别结果。

根据本申请实施例的第七方面,提供了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,处理器执行计算机指令时实现本申请实施例第一方面、第二方面或第三方面所提供方法的步骤。

根据本申请实施例的第八方面,提供了一种计算机可读存储介质,其存储有计算机指令,该计算机指令被处理器执行时实现本申请实施例第一方面、第二方面或第三方面所提供方法的步骤。

根据本申请实施例的第九方面,提供了一种芯片,其存储有计算机指令,该计算机指令被芯片执行时实现本申请实施例第一方面、第二方面或第三方面所提供方法的步骤。

本申请实施例中,基于获取的训练集,训练出多个不同的目标识别模型,然后利用训练得到的各目标识别模型,分别对训练集中的各训练文本进行目标识别,得到各训练文本的目标识别结果,如果针对任一训练文本,该训练文本的目标识别结果与该训练文本的标注信息不一致,则说明该训练文本的标注信息不准确,因此,对训练集中该训练文本的标注信息进行更新,从而去除了训练集中训练文本的标注信息的数据噪声。

附图说明

图1是本申请实施例提供的一种数据处理方法的流程示意图;

图2是本申请实施例提供的另一种数据处理方法的流程示意图;

图3是本申请实施例提供的再一种数据处理方法的流程示意图;

图4是本申请实施例提供的一种目标识别模型训练方法的流程示意图;

图5是本申请实施例提供的目标识别模型训练过程的示意图;

图6是本申请实施例提供的一种目标识别方法的流程示意图;

图7是本申请实施例提供的一种数据处理装置的结构示意图;

图8是本申请实施例提供的一种目标识别模型训练装置的结构示意图;

图9是本申请实施例提供的一种目标识别装置的结构示意图;

图10是本申请实施例提供的计算设备的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。

在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解,尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“响应于确定”。

针对训练集中训练文本的标注信息存在一定数据噪声的技术问题,现主要采用的去噪方法有:人工去噪和基于规则去噪。人工去噪是通过人工的方式查看每个训练文本的标注信息,逐个判断是否有漏标、错标、误标的情况,如果有则进行人工修正,这种方式需要消耗大量的人力、物力,且时间成本较大;基于规则去噪是根据各个特殊领域的知识设计判断规则,利用判断规则对训练文本的标注信息进行判断,判断是否有漏标、错标、误标的情况,如果有则进行人工修正,这种方式需要较深的专业领域知识,需要专业人员设计大量的判断规则,成本较大。

为了应对上述问题,本申请实施例提供了一种数据处理方法及装置、目标识别模型训练方法及装置、目标识别方法及装置、计算设备和计算机可读存储介质,在下面的实施例中将逐一进行详细说明。

图1示出了本申请实施例提供的一种数据处理方法的流程示意图,该方法具体包括如下步骤。

S101,获取训练集,其中,训练集包括多个训练文本。

本申请实施例中,数据处理方法的执行主体可以是用于获取训练文本的数据获取设备、存储训练集的数据库、执行目标识别功能的智能设备等。在进行数据处理之前,需要获取包括海量训练文本的训练集,一般情况下,获取训练集的方式可以是接收人工输入的海量训练文本组成训练集,也可以是从其他数据获取设备或者数据库中读取海量训练文本组成训练集。

所获取的训练集中训练文本一般已由人工进行了标注,具体标注的信息为训练文本中的目标,例如文本中的实体,其中,训练文本可以是一句话、一个短句、一段文字、一篇文章等,例如,训练文本为“武汉长江大桥的总设计师是茅以升”,则该训练文本的标注信息可以包括“武汉长江大桥”和“茅以升”。但是,在一些特定领域下,需要技术人员有非常强的专业基础,否则在进行人工标注时,很容易出现漏标、错标、误标等问题,例如,在医学领域中,要求技术人员有非常专业的医学专业基础,以“用于血瘀所致的月经不调”的训练样本为例,需要技术人员有一定的医学专业基础,才能够标注出“血瘀”和“月经不调”的标注信息。

S102,基于训练集,训练得到不同的目标识别模型。

在获取训练集后,可以基于训练集进行目标识别模型的训练,在传统的训练方式中,是将训练集中的训练文本依次输入待训练的神经网络,待训练的神经网络为进行目标识别常用的神经网络,例如长短期记忆网络(LSTM,Long Short-Term Memory)、条件随机场(CRF,Conditional Random Field)、双向长短期记忆网络(BiLSTM,Bi-directional LongShort-Term Memory)、基于转换器的双向编码表征(BERT,Bidirectional EncoderRepresentations from Transformers)等,每输入一个训练文本,神经网络会输出一个特征信息表征该训练文本的目标信息,将神经网络的输出与该训练文本的标注信息进行比较,得到差异值,利用梯度下降等方法,基于差异值对神经网络的网络参数进行调整,该过程称为一次迭代,再输入一个训练文本至参数调整后的神经网络,进行下一次迭代,经过多次迭代,直至差异值小于预设阈值或者迭代次数达到预设次数,则停止迭代,确定最后一次迭代后的神经网络为训练好的目标识别模型。

在本申请实施例中,为了对训练集标注信息进行去噪,可以基于训练集,训练得到多个不同的目标识别模型,各目标识别模型具有不同目标识别性能,为了保证训练出的各目标识别模型具有不同的目标识别性能,具体的训练方式可以采用如下方式:第一种方式,将训练集拆分成多个子集,然后利用不同的子集分别对一个或者多个预设神经网络进行训练,基于每一个子集可以训练出一个目标识别模型,并且由于每个子集中的训练文本不同、标注信息不同,则训练出的目标识别模型也不同,子集划分的越多,训练出来的目标识别模型的目标识别性能差异就越明显;第二种方式,不拆分训练集,直接利用该训练集对多个预设神经网络进行训练,针对每一个预设神经网络都可以训练出一个目标识别模型,由于采用的神经网络不同,训练出来的目标识别模型的目标识别性能也会存在一定的差异;第三种方式,将训练集拆分成多个子集,将子集划分成训练子集、验证子集等,再利用训练加验证的方式,对一个或者多个预设神经网络进行训练,每次可以选择不同的子集作为训练子集和验证子集,这样可以训练出多个目标识别模型,目标识别模型的目标识别性能存在差异。

综上,在本申请实施例的一种实现方式中,S102具体可以为:利用训练集,对至少一个预设神经网络进行训练,得到多个不同的目标识别模型。

S103,利用训练得到的各目标识别模型,分别对训练集中的各训练文本进行目标识别,得到各训练文本的目标识别结果。

在训练出多个不同的目标识别模型之后,可以利用各目标识别模型分别对训练集中的各训练文本进行目标识别,由于各目标识别模型的目标识别性能存在差异,针对同一个训练文本,得到的目标识别结果可能相同也可能不同。如果同一个训练文本经各目标识别模型得到的目标识别结果都相同,则可以说明该训练文本的标注信息准确;如果同一个训练文本经各目标识别模型得到的目标识别结果不同,尤其是与训练集中该训练文本的标注信息不同,则可以说明该训练文本的标注信息可能不准确。

S104,针对各训练文本,在该训练文本的目标识别结果与该训练文本的标注信息不一致的情况下,更新训练集中该训练文本的标注信息。

如上述,如果一训练文本经各目标识别模型得到的目标识别结果与训练集中该训练文本的标注信息不同,则可以说明该训练文本的标注信息可能不准确,需要更新训练集中该训练文本的标注信息。

在具体实施时,S104具体可以分为以下几种方式实现:

第一种,针对一个训练文本,训练集中存在该训练文本原本的标注信息,经各目标识别模型对该训练文本的目标识别后,得到多个目标识别结果,其中,一部分目标识别结果与该训练文本原本的标注信息相同、一部分目标识别结果与该训练文本原本的标注信息不同,如果与该训练文本原本的标注信息不同的目标识别结果的数目达到一定的比例(例如达到目标识别结果总数的80%),则说明该训练文本的标注信息属于误标,需要对其进行修正,可以将训练集中该训练文本原本的标注信息替换为:与该训练文本原本的标注信息不同的目标识别结果中出现次数最多的目标识别结果。例如,训练文本原本的标注信息为“A”,一共有20个目标识别模型,其中有3个目标识别模型对该训练文本进行目标识别后得到的目标识别结果为“A”,有10个目标识别模型对该训练文本进行目标识别后得到的目标识别结果为“B”,有7个目标识别模型对该训练文本进行目标识别后得到的目标识别结果为“C”,由于目标识别结果与原本的标注信息不同的比例超过了80%,且其中“B”的占比最大,则需要将该训练文本的标注信息替换为“B”。

第二种,针对一个训练文本,训练集中存在该训练文本原本的标注信息,经各目标识别模型对该训练文本的目标识别后,得到多个目标识别结果,其中,有一定数目(例如大于目标识别结果总数的90%)的目标识别结果是该训练文本中无目标,或者,针对该训练文本,有超过一定数目的目标识别模型无目标识别结果的输出(被认为是无目标),则说明该训练文本的标注信息属于错标,需要对其进行修正,可以将训练集中该训练文本的标注信息删除,或者将训练集中该训练文本原本的标注信息修改为“无目标”,或者设置该训练文本原本的标注信息为空。

第三种,针对一个训练文本,训练集中不存在该训练文本的标注信息,经各目标识别模型对该训练文本的目标识别后,得到多个目标识别结果,其中,有一定数目(例如大于目标识别结果总数的60%)的目标识别结果是该训练文本中有目标,且这些目标识别结果相同,则说明该训练文本的标注信息属于漏标,需要对其进行修正,可以对该训练文本增加标注信息,增加的标注信息即为上述目标识别结果。

以上三种方式仅仅是举例说明S104的实现过程,在具体实施时,技术人员可以依据目标识别结果与标注信息不同的比例或者其他规则,对训练集中训练文本的标注信息进行更新。例如,针对一个训练文本,只要目标识别结果有与该训练文本的标注信息不同,就认为标注错误,删除训练集中该训练文本的标注信息;再例如,针对一个训练文本,每个目标识别结果都与该训练文本的标注信息不同,也可以认为标注无误,可以保留训练集中该训练文本的标注信息。

在本申请实施例的一种实现方式中,S104具体可以为:

针对各训练文本,若该训练文本的目标识别结果包括目标、且在训练集中不存在该训练文本的标注信息,则在训练集中增加该训练文本的标注信息,其中,增加的该训练文本的标注信息为识别出的该训练文本中的目标;

针对各训练文本,若该训练文本的目标识别结果不包括目标、且在训练集中存在该训练文本的标注信息,则从训练集中删除该训练文本的标注信息。

本申请在具体实施时,主要针对的是漏标和错标两种情况。

漏标指的是训练文本中是有目标的,然而技术人员在对该训练文本进行标注时遗漏了对该训练文本的标注,即在训练集中缺少该训练文本的标注信息,那么在利用各目标识别模型对该训练文本进行目标识别时,目标识别结果大概率是包括目标的。那么,如果一个训练文本的目标识别结果包括目标、且在训练集中不存在该训练文本的标注信息,则说明出现了漏标的情况,可以在训练集中增加该训练文本的标注信息(即增加利用目标识别模型识别出的目标作为该训练文本的标注信息),如果各目标识别模型针对该训练文本识别出的目标不同,可以选择识别出的这些目标中数目最多的目标信息作为该训练文本的标注信息。

错标指的是训练文本中本来是无目标的,然而技术人员因为理解错误,在对该训练文本进行标注时错标了一个目标的标注信息,那么在利用各目标识别模型对该训练文本进行目标识别时,目标识别结果大概率是不包括目标的。那么,如果一个训练文本的目标识别结果不包括目标、且在训练集中存在该训练文本的标注信息,则说明出现了错标的情况,可以从训练集中删除该训练文本的标注信息。在具体实施时,针对一个训练文本,可以只要有一个目标识别结果不包括目标,就删除该训练文本的标注信息,或者,目标识别结果中不包括目标的比例达到一定值时,再删除该训练文本的标注信息。

通过上述实施例,可以很好的解决训练集中训练文本漏标和错标的问题,达到了去除训练集中训练文本的标注信息的数据噪声的目的,其中,数据噪声是由人工标注带来的,主要包括人工漏标、错标。

应用本申请实施例的方案,基于获取的训练集,训练出多个不同的目标识别模型,然后利用训练得到的各目标识别模型,分别对训练集中的各训练文本进行目标识别,得到各训练文本的目标识别结果,如果针对任一训练文本,该训练文本的目标识别结果与该训练文本的标注信息不一致,则说明该训练文本的标注信息不准确,因此,对训练集中该训练文本的标注信息进行更新,从而去除了训练集中训练文本的标注信息的数据噪声。

基于图1所示实施例,图2示出了本申请实施例提供的另一种数据处理方法的流程示意图,该方法具体包括如下步骤。

S201,获取训练集,其中,训练集包括多个训练文本。

该步骤与图1所示实施例的S101相同,这里不再赘述。

S202,从训练集中依次选择验证子集和训练子集。

训练集中可以包括多个子集,这些子集可以划分为验证子集和训练子集。当然,在获取训练集后,也可以对训练集进行拆分,得到多个子集,具体在拆分时可以平均拆分也可以随机拆分,为了保证各目标识别模型的精度相同,可进行平均拆分,也就是每个子集中训练文本的数目相同。

在划分子集后,可将子集分成训练子集、验证子集,利用训练加验证的方式,对一个或者多个预设神经网络进行训练,每次可以从多个子集中选择一个子集作为验证子集、其他子集作为训练子集。

S203,每次利用所选择的训练子集对同一个预设神经网络进行训练,并利用所选择的验证子集对训练结果进行验证,得到多个不同的目标识别模型。

在具体进行训练时,每次利用所选择的训练子集对同一个预设神经网络进行训练、利用所选择的验证子集对训练结果进行验证。例如,将训练集拆分成5个子集,第一次利用子集1、子集2、子集3、子集4作为训练子集,对预设神经网络进行训练,利用子集5作为验证子集,对训练结果进行验证,得到目标识别模型1;第二次利用子集1、子集2、子集3、子集5作为训练子集,对预设神经网络进行训练,利用子集4作为验证子集,对训练结果进行验证,得到目标识别模型2;第三次利用子集1、子集2、子集4、子集5作为训练子集,对预设神经网络进行训练,利用子集3作为验证子集,对训练结果进行验证,得到目标识别模型3;第四次利用子集1、子集3、子集4、子集5作为训练子集,对预设神经网络进行训练,利用子集2作为验证子集,对训练结果进行验证,得到目标识别模型4;第五次利用子集2、子集3、子集4、子集5作为训练子集,对预设神经网络进行训练,利用子集1作为验证子集,对训练结果进行验证,得到目标识别模型5。这样就得到五个目标识别模型,即目标识别模型1、目标识别模型2、目标识别模型3、目标识别模型4、目标识别模型5。

上述的预设神经网络可以是LSTM、CRF、BiLSTM、BERT等,或者,也可以是上述几种网络的相互组合得到的网络。具体的训练过程与传统的目标识别模型训练过程相同或相似,这里不再赘述。

S204,利用训练得到的各目标识别模型,分别对训练集中的各训练文本进行目标识别,得到各训练文本的目标识别结果。

该步骤与图1所示实施例的S103相同,这里不再赘述。

S205,针对各训练文本,在该训练文本的目标识别结果与该训练文本的标注信息不一致的情况下,更新训练集中该训练文本的标注信息。

该步骤与图1所示实施例的S104相同,这里不再赘述。

应用本申请实施例的方案,将获取的训练集拆分为多个子集,从多个子集中依次选择一个子集作为验证子集、其他子集作为训练子集,每次利用所选择的训练子集对同一个预设神经网络进行训练、利用所选择的验证子集对训练结果进行验证,得到多个不同的目标识别模型,然后利用训练得到的各目标识别模型,分别对训练集中的各训练文本进行目标识别,得到各训练文本的目标识别结果,如果针对任一训练文本,该训练文本的目标识别结果与该训练文本的标注信息不一致,则说明该训练文本的标注信息不准确,因此,对训练集中该训练文本的标注信息进行更新,从而去除了训练集中训练文本的标注信息的数据噪声。

基于图1所示实施例,图3示出了本申请实施例提供的再一种数据处理方法的流程示意图,如图3所示,该方法具体包括如下步骤。

S301,获取训练集,其中,训练集包括多个训练文本。

该步骤与图1所示实施例的S101相同,这里不再赘述。

S302,从训练集中依次选择验证子集和训练子集。

训练集中可以包括多个子集,这些子集可以划分为验证子集和训练子集。当然,在获取训练集后,也可以对训练集进行拆分,得到多个子集,具体在拆分时可以平均拆分也可以随机拆分,为了保证各目标识别模型的精度相同,可进行平均拆分,也就是每个子集中训练文本的数目相同。

在划分子集后,可将子集分成训练子集、验证子集,利用训练加验证的方式,对一个或者多个预设神经网络进行训练,每次可以从多个子集中选择一个子集作为验证子集、其他子集作为训练子集。

S303,针对不同的预设神经网络,每次利用所选择的训练子集对该预设神经网络进行训练,并利用所选择的验证子集对训练结果进行验证,得到不同的目标识别模型。

在具体进行训练时,可以选择多个不同的预设神经网络,针对每一个预设神经网络,每次利用所选择的训练子集对该预设神经网络进行训练、利用所选择的验证子集对训练结果进行验证。例如,将训练集拆分成5个子集,预设神经网络为2个,第一次利用子集1、子集2、子集3、子集4作为训练子集,对第1个预设神经网络进行训练,利用子集5作为验证子集,对训练结果进行验证,得到目标识别模型1;第二次利用子集1、子集2、子集3、子集4作为训练子集,对第2个预设神经网络进行训练,利用子集5作为验证子集,对训练结果进行验证,得到目标识别模型2;第三次利用子集1、子集2、子集3、子集5作为训练子集,对第1个预设神经网络进行训练,利用子集4作为验证子集,对训练结果进行验证,得到目标识别模型3;第四次利用子集1、子集2、子集3、子集5作为训练子集,对第2个预设神经网络进行训练,利用子集4作为验证子集,对训练结果进行验证,得到目标识别模型4;以此类推,可以得到十个目标识别模型,即目标识别模型1、目标识别模型2、目标识别模型3、目标识别模型4、目标识别模型5、目标识别模型6、目标识别模型7、目标识别模型8、目标识别模型9、目标识别模型10。具体的训练过程与传统的目标识别模型训练过程相同或相似,这里不再赘述。

S304,利用训练得到的各目标识别模型,分别对训练集中的各训练文本进行目标识别,得到各训练文本的目标识别结果。

该步骤与图1所示实施例的S103相同,这里不再赘述。

S305,针对各训练文本,在该训练文本的目标识别结果与该训练文本的标注信息不一致的情况下,更新训练集中该训练文本的标注信息。

该步骤与图1所示实施例的S104相同,这里不再赘述。

应用本申请实施例的方案,将获取的训练集拆分为多个子集,从多个子集中依次选择一个子集作为验证子集、其他子集作为训练子集,针对多个不同的预设神经网络中的每一个预设神经网络,每次利用所选择的训练子集对同一个预设神经网络进行训练、利用所选择的验证子集对训练结果进行验证,得到多个不同的目标识别模型,然后利用训练得到的各目标识别模型,分别对训练集中的各训练文本进行目标识别,得到各训练文本的目标识别结果,如果针对任一训练文本,该训练文本的目标识别结果与该训练文本的标注信息不一致,则说明该训练文本的标注信息不准确,因此,对训练集中该训练文本的标注信息进行更新,从而去除了训练集中训练文本的标注信息的数据噪声。

图4示出了本申请实施例提供的一种目标识别模型训练方法的流程示意图,该方法具体包括如下步骤。

S401,获取训练集。

其中,训练集为利用上述数据处理方法进行数据处理后的训练集。具体数据处理的过程如上述的方法实施例,这里不再赘述。

S402,利用训练集,对预设神经网络进行训练,得到目标识别模型。

预设神经网络可以是LSTM、CRF、BiLSTM、BERT等,或者,上述几种网络的相互组合得到的网络。具体的训练过程与传统的目标识别模型训练过程相同或相似,这里不再赘述。

本申请实施例中,目标识别模型训练方法的执行主体可以是目标识别模型的训练设备、执行目标识别功能的智能设备等。应用本申请实施例的方案,由于获取的训练集是通过上述数据处理方法进行数据处理后的训练集,该训练集很好的去除了数据噪声,因此,能够减少训练文本的数据噪声对目标识别模型精度的影响,提高了目标识别模型的精度。

为了便于理解,下面以两个预设神经网络为例,对目标识别模型的训练过程进行介绍,如图5所示,主要包括五折模型训练、数据降噪和目标识别模型训练三个步骤。首先,选择BERT+CRF、BERT+机器阅读理解(MRC,Machine Reading Comprehension)两个预设神经网络,将获取的训练集拆分成5等份;然后,进行五折模型训练:分别利用BERT+CRF和BERT+MRC在拆分得到的5等份子集上进行五折模型训练,五折模型训练就是每次选取一个子集作为验证子集、另外四个子集作为训练子集,针对BERT+CRF和BERT+MRC两个神经网络,分别进行训练加验证,这样可以得到10个训练好的目标识别模型。当然,这里将训练集拆分成5等份仅仅是作为一个例子,也可以将训练集拆分为K等份(K≥2),然后分别利用BERT+CRF和BERT+MRC在拆分得到的K等份子集上进行K折模型训练。再然后,进行数据降噪:将训练好的10个目标识别模型在整个训练集上进行目标识别,如果某个训练文本同时被10个目标识别模型识别为目标,而训练集中未标注该训练文本为目标,则认为是漏标,将该训练文本标注为目标加入训练集中;如果某个训练文本在训练集中被标注为目标,但是10个目标识别模型的识别结果都没有目标,则认为是错标,将该训练文本的标注信息从训练集中删除。最后,进行目标识别模型训练,重新在标注信息更新后的训练集上进行目标识别模型的训练,此时训练集经过了数据去噪,提高了目标识别模型的精度,提升了目标识别的准确率。

图6示出了本申请实施例提供的一种目标识别方法的流程示意图,该方法具体包括如下步骤。

S601,获取待识别文本。

S602,将待识别文本输入训练好的目标识别模型,得到待识别文本的目标识别结果。

其中,目标识别模型利用上述目标识别模型训练方法得到。由于训练好的目标识别模型是一种端到端的深度学习模型,直接将获取的待识别文本输入训练好的目标识别模型,可以直接得到待识别文本的目标识别结果,目标识别结果包括待识别文本中可以被识别出来的所有目标。

本申请实施例中,目标识别方法的执行主体可以是执行目标识别功能的智能设备。应用本申请实施例的方案,由于获取的训练集是通过上述数据处理方法进行数据处理后的训练集,该训练集很好的去除了数据噪声,因此,能够减少训练文本的数据噪声对目标识别模型精度的影响,提高了目标识别模型的精度。这样,在利用训练好的目标识别模型对待识别文本进行目标识别时,能够提高目标识别结果的准确性。

相应于上述数据处理方法实施例,图7示出了本申请实施例提供的一种数据处理装置的结构示意图,该数据处理装置包括:

第一获取模块710,被配置为获取训练集,其中,训练集包括多个训练文本;

第一模型训练模块720,被配置为基于训练集,训练得到不同的目标识别模型;

第一目标识别模块730,被配置为利用训练得到的各目标识别模型,分别对训练集中的各训练文本进行目标识别,得到各训练文本的目标识别结果;

更新模块740,被配置为针对各训练文本,在该训练文本的目标识别结果与该训练文本的标注信息不一致的情况下,更新训练集中该训练文本的标注信息。

可选地,第一模型训练模块720,进一步被配置为:利用训练集,对至少一个预设神经网络进行训练,得到不同的目标识别模型。

可选地,第一模型训练模块720,进一步被配置为:从训练集中依次选择验证子集和训练子集;每次利用所选择的训练子集对同一个预设神经网络进行训练,并利用所选择的验证子集对训练结果进行验证,得到不同的目标识别模型。

可选地,第一模型训练模块720,进一步被配置为:从训练集中依次选择验证子集和训练子集;针对不同的预设神经网络,每次利用所选择的训练子集对该预设神经网络进行训练,并利用所选择的验证子集对训练结果进行验证,得到不同的目标识别模型。

可选地,更新模块740,进一步被配置为:针对各训练文本,若该训练文本的目标识别结果包括目标、且在训练集中不存在该训练文本的标注信息,则在训练集中增加该训练文本的标注信息,其中,增加的该训练文本的标注信息为识别出的该训练文本中的目标;针对各训练文本,若该训练文本的目标识别结果不包括目标、且在训练集中存在该训练文本的标注信息,则从训练集中删除该训练文本的标注信息。

应用本申请实施例的方案,基于获取的训练集,训练出多个不同的目标识别模型,然后利用训练得到的各目标识别模型,分别对训练集中的各训练文本进行目标识别,得到各训练文本的目标识别结果,如果针对任一训练文本,该训练文本的目标识别结果与该训练文本的标注信息不一致,则说明该训练文本的标注信息不准确,因此,对训练集中该训练文本的标注信息进行更新,从而去除了训练集中训练文本的标注信息的数据噪声。

上述为本实施例的一种数据处理装置的示意性方案。需要说明的是,该数据处理装置的技术方案与上述的数据处理方法的技术方案属于同一构思,数据处理装置的技术方案未详细描述的细节内容,均可以参见上述数据处理方法的技术方案的描述。

相应于上述目标识别模型训练方法实施例,图8示出了本申请实施例提供的一种目标识别模型训练装置的结构示意图,该目标识别模型训练装置包括:

第二获取模块810,被配置为获取训练集,其中,训练集为利用上述数据处理方法进行数据处理后的训练集;

第二模型训练模块820,被配置为利用训练集,对预设神经网络进行训练,得到目标识别模型。

应用本申请实施例的方案,由于获取的训练集是通过上述数据处理方法进行数据去噪后的训练集,该训练集很好的去除了数据噪声,因此,能够减少训练文本的数据噪声对目标识别模型精度的影响,提高了目标识别模型的精度。

上述为本实施例的一种目标识别模型训练装置的示意性方案。需要说明的是,该目标识别模型训练装置的技术方案与上述的目标识别模型训练方法的技术方案属于同一构思,目标识别模型训练装置的技术方案未详细描述的细节内容,均可以参见上述目标识别模型训练方法的技术方案的描述。

相应于上述目标识别方法实施例,图9示出了本申请实施例提供的一种目标识别装置的结构示意图,该目标识别装置包括:

第三获取模块910,被配置为获取待识别文本;

第二目标识别模块920,被配置为将待识别文本输入利用上述目标识别模型训练方法训练得到的目标识别模型,得到待识别文本的目标识别结果。

应用本申请实施例的方案,由于获取的训练集是通过上述数据处理方法进行数据去噪后的训练集,该训练集很好的去除了数据噪声,因此,能够减少训练文本的数据噪声对目标识别模型精度的影响,提高了目标识别模型的精度。这样,在利用训练好的目标识别模型对待识别文本进行目标识别时,能够提高目标识别结果的准确性。

上述为本实施例的一种目标识别装置的示意性方案。需要说明的是,该目标识别装置的技术方案与上述的目标识别方法的技术方案属于同一构思,目标识别装置的技术方案未详细描述的细节内容,均可以参见上述目标识别方法的技术方案的描述。

需要说明的是,装置中的各组成部分应当理解为实现该程序流程各步骤或该方法各步骤所必须建立的功能模块,各个功能模块并非实际的功能分割或者分离限定。由这样一组功能模块限定的装置应当理解为主要通过说明书记载的计算机程序实现该解决方案的功能模块构架,而不应当理解为主要通过硬件方式实现该解决方案的实体装置。

图10示出了根据本申请实施例提供的一种计算设备100的结构框图。该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接,数据库150用于保存数据。

计算设备100还包括接入设备140,接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络的示例包括公用交换电话网(PSTN,Public SwitchedTelephone Network)、局域网(LAN,Local Area Network)、广域网(WAN,Wide AreaNetwork)、个域网(PAN,Personal Area Network)或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC,NetworkInterface Card))中的一个或多个,诸如IEEE802.11无线局域网(WLAN,Wireless LocalArea Networks)无线接口、全球微波互联接入(Wi-MAX,World Interoperability forMicrowave Access)接口、以太网接口、通用串行总线(USB,Universal Serial Bus)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC,Near Field Communication)接口,等等。

在本申请的一个实施例中,计算设备100的上述部件以及图10中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图10所示的计算设备结构框图仅仅是出于示例的目的,而不是对本申请范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。

计算设备100可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备100还可以是移动式或静止式的服务器。

其中,处理器120用于执行如下计算机可执行指令,处理器120执行计算机可执行指令时实现上述数据处理方法或目标识别模型训练方法或目标识别方法的步骤。

上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的数据处理方法、目标识别模型训练方法、目标识别方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述数据处理方法、目标识别模型训练方法、目标识别方法的技术方案的描述。

本申请一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该计算机指令被处理器执行时实现如前所述数据处理方法或目标识别模型训练方法或目标识别方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的数据处理方法、目标识别模型训练方法、目标识别方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述数据处理方法、目标识别模型训练方法、目标识别方法的技术方案的描述。

本申请实施例公开了一种芯片,其存储有计算机指令,该计算机指令被处理器执行时实现如前所述数据处理方法或目标识别模型训练方法或目标识别方法的步骤。

上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。

需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。

以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本申请的内容,可作很多的修改和变化。本申请选取并具体描述这些实施例,是为了更好地解释本申请的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号