首页> 中国专利> 模型训练方法、异常文件检测方法、装置、设备及介质

模型训练方法、异常文件检测方法、装置、设备及介质

摘要

本申请公开了一种模型训练方法、装置、异常文件检测方法、电子设备及计算机可读存储介质,该模型训练方法包括:从原始样本集中选择多个预训练样本,并利用预训练样本训练初始模型,得到预训练模型;将原始样本集中的各个非预训练样本输入预训练模型,得到分类结果和特征值;基于分类结果和特征值对非预训练样本进行样本精简处理,得到精简样本集;利用精简样本集对预训练模型进行训练,得到训练后模型;该方法利用预训练模型对样本进行预分类,进而基于预分类的结果进行样本精简处理,可以高效地进行样本精简,可以减少样本精简所需的时间,提高效率,进而提高模型训练效率。

著录项

  • 公开/公告号CN113298185A

    专利类型发明专利

  • 公开/公告日2021-08-24

    原文格式PDF

  • 申请/专利权人 深信服科技股份有限公司;

    申请/专利号CN202110688044.8

  • 发明设计人 郭开;

    申请日2021-06-21

  • 分类号G06K9/62(20060101);

  • 代理机构44285 深圳市深佳知识产权代理事务所(普通合伙);

  • 代理人张金香

  • 地址 518055 广东省深圳市南山区学苑大道1001号南山智园A1栋一层

  • 入库时间 2023-06-19 12:19:35

说明书

技术领域

本申请涉及网络模型技术领域,特别涉及模型训练方法、异常文件检测方法、模型训练装置、电子设备及计算机可读存储介质。

背景技术

在网络模型的使用过程中,模型的性能不仅依赖于算法的设计,还依赖于训练该模型的训练集的质量。由于越大的数据集会使得模型训练时长越长,因此为了能够快速训练出网络模型,相关技术通常采用人工校验的方式进行样本精简。然而人工校验需要人工筛选并标注样本,因此该方法所需时间较长,效率较低。因此相关技术存在无法高效地对模型进行训练的问题。

发明内容

有鉴于此,本申请的目的在于提供一种模型训练方法、异常文件检测方法、模型训练装置、电子设备及计算机可读存储介质,利用预训练模型对样本进行预分类,同时划分多个第一区间,在各个区间内进行样本精简处理,可以减少样本精简所需的时间,提高效率,进而提高模型训练效率。

为解决上述技术问题,本申请提供了一种模型训练方法,具体包括:

从原始样本集中选择多个预训练样本,并利用所述预训练样本训练初始模型,得到预训练模型;

将所述原始样本集中的各个非预训练样本输入所述预训练模型,得到分类结果和特征值;

基于所述分类结果和所述特征值对所述非预训练样本进行样本精简处理,得到精简样本集;

利用所述精简样本集对所述预训练模型进行训练,得到训练后模型。

可选地,所述基于所述分类结果和所述特征值对所述非预训练样本进行样本精简处理,得到精简样本集,包括:

基于所述特征值划分多个特征值区间;

根据所述分类结果,对处于各个所述特征值区间内的所述非预训练样本进行样本精简处理,得到所述精简样本集。

可选地,所述基于所述特征值划分多个特征值区间,包括:

基于正确样本对应的所述特征值划分多个第一区间;所述正确样本为分类结果正确的非预训练样本;

相应的,所述根据所述分类结果,对处于各个所述特征值区间内的所述非预训练样本进行样本精简处理,得到所述精简样本集,包括:

对各个所述第一区间对应的所述正确样本进行样本精简处理,得到第一精简样本;

基于所述第一精简样本构建所述精简样本集。

可选地,所述对各个所述第一区间对应的所述正确样本进行样本精简处理,得到第一精简样本,包括:

分别计算各个所述第一区间内任意两个所述正确样本之间的相似度,并将所述相似度大于相似度阈值的所述正确样本确定为所述第一区间内的正确相似样本;

若所述正确相似样本的数量大于数量阈值,则对所述正确相似样本进行删减处理,得到所述第一精简样本。

可选地,所述基于所述特征值划分多个特征值区间,包括:

基于错误样本对应的所述特征值划分多个第二区间;所述错误样本为分类结果错误的非预训练样本;

相应的,所述根据所述分类结果,对处于各个所述特征值区间内的所述非预训练样本进行样本精简处理,得到所述精简样本集,包括:

分别计算各个所述第二区间内任意两个所述错误样本之间的相似度,并将所述相似度大于相似度阈值的所述错误样本确定为所述第二区间内的错误相似样本;

若各个所述错误相似样本对应的样本标签存在冲突,则删除所述第二区间内的所述错误相似样本,得到第二精简样本;

基于所述第二精简样本构建所述精简样本集。

可选地,所述利用所述精简样本集对所述预训练模型进行训练,得到训练后模型,包括:

对所述精简样本集中的所述第二精简样本进行权重增加处理,得到加权样本集;

利用所述加权样本集对所述预训练模型进行训练,得到训练后模型。

可选地,所述将所述原始样本集中的各个非预训练样本输入所述预训练模型,得到分类结果和特征值,包括:

将各个所述非预设训练样本输入所述预训练模型,得到所述特征值和识别结果;

若识别结果与所述非预设训练样本对应的样本标签匹配,则确定所述分类结果正确;

若识别结果与所述样本标签不匹配,则确定所述分类结果错误。

本申请还提供了一种异常文件检测方法,包括:

获取待测文件;

将所述待测文件输入异常文件检测模型,得到对应的检测结果;其中,所述异常文件检测模型基于上述的模型训练方法训练得到。

本申请还提供了一种模型训练装置,包括:

预训练模块,用于从原始样本集中选择多个预训练样本,并利用所述预训练样本训练初始模型,得到预训练模型;

样本回扫模块,用于将所述原始样本集中的各个非预训练样本输入所述预训练模型,得到分类结果和特征值;

样本精简模块,用于基于所述分类结果和所述特征值对所述非预训练样本进行样本精简处理,得到精简样本集;

重训练模块,用于利用所述精简样本集对所述预训练模型进行训练,得到训练后模型。

本申请还提供了一种电子设备,包括存储器和处理器,其中:

所述存储器,用于保存计算机程序;

所述处理器,用于执行所述计算机程序,以实现上述的模型训练方法和/或上述的异常文件检测方法。

本申请还提供了一种计算机可读存储介质,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现上述的模型训练方法和/或上述的异常文件检测方法。

本申请提供的模型训练方法,从原始样本集中选择多个预训练样本,并利用预训练样本训练初始模型,得到预训练模型;将原始样本集中的各个非预训练样本输入预训练模型,得到分类结果和特征值;基于分类结果和特征值对非预训练样本进行样本精简处理,得到精简样本集;利用精简样本集对预训练模型进行训练,得到训练后模型。

可见,该方法采用预训练和分类的方式对原始样本集进行精简。具体的,通过选择预训练样本并利用其训练得到预训练模型,可以使得预训练模型对原始样本集中的部分样本具有识别能力。通过将各个非预训练样本输入预训练模型,可以得到对应的分类结果和特征值,特征值可以表征非预训练样本的特征,分类结果可以表示预训练模型对非预训练样本是否具有识别能力,若能够正确识别,则说明预训练模型具有一定的对这一类样本的识别能力。由于特征值与样本的特征和类别相关,且分类结果可以表征样本的类别。因此可以基于特征值和分类结果确定预训练模型具有对哪些样本的识别能力,同时确定预训练模型不具备对哪些样本的识别能力,进而进行高效的样本精简,即对非预训练样本进行样本精简处理,得到精简样本集。由于预训练模型仅为初步训练后得到的模型,为了得到准确的模型,可以利用精简样本集对预训练模型进行进一步训练,得到训练后模型。得到的训练后模型可以具备对各类样本的识别能力,具有较好的性能。利用预训练模型对样本进行预分类,进而基于预分类的结果进行样本精简处理,可以高效地进行样本精简,快速减少用于进行模型训练的样本的数量,进而提高模型训练效率,解决了相关技术无法快速且高效地对模型进行训练的问题。

此外,本申请还提供了一种模型训练装置、异常文件检测方法、电子设备及计算机可读存储介质,同样具有上述有益效果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的一种模型训练方法流程图;

图2为本申请实施例提供的一种具体的样本精简过程的流程图;

图3为本申请实施例提供的一种模型训练装置的结构示意图;

图4为本申请实施例提供的一种模型训练方法所适用的一种硬件组成框架示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

请参考图1,图1为本申请实施例提供的一种模型训练方法流程图。该方法包括:

S101:从原始样本集中选择多个预训练样本,并利用预训练样本训练初始模型,得到预训练模型。

在本实施例中,原始样本集为用于对初始模型进行训练的样本集,其中包括多个样本。根据训练后得到的训练后模型的用途不同,原始样本集中的样本可以不同,因此在实际应用中,可以根据需要选择原始样本集中的样本,例如可以为音频样本、图像样本、文件样本,数据样本等,对此本实施例不做限定。相应的,训练后模型可以具有分类、识别、特征提取等功能,而训练前的初始模型的具体类型、架构等,本实施例不做限定。

为了提高模型训练的效率,避免利用海量训练样本对模型进行训练造成的训练时间过长的问题,可以从原始样本集中选择部分训练样本作为预训练样本。预训练样本为原始样本集中的一部分样本,其具体选择方式不做限定,例如可以根据原始样本集中训练样本的数量确定预训练样本数,并从原始样本集中随机选择预训练样本数个训练样本作为预训练样本。预训练样本用于对初始模型进行训练,初始模型即为未经过训练的模型,其经过训练达到收敛,即转变为训练后模型。初始模型经过预训练样本的训练,即可转变为预训练模型,由于预训练样本为原始样本集的一部分,因此预训练模型能够对原始样本集中的部分类别的训练样本具有识别能力。训练的具体过程不做限定,可以参考相关技术。

S102:将原始样本集中的各个非预训练样本输入预训练模型,得到分类结果和特征值。

原始样本集中没有被确定为预训练样本的其他训练样本即为非预训练样本,原始样本集中除预训练样本以外,还存在大量的非预训练样本,由于预训练模型已经对预训练样本具有识别能力,而原始样本集中还可能存在大量与预训练样本相似的非预训练样本。为了确定预训练模型对哪些非预训练样本具有识别能力,可以依次将各个非预训练样本输入预训练模型,利用预训练模型对其进行处理,得到对应的分类结果和特征值。其中,特征值与训练样本的特征相对应,特征值相近的两个训练样本大概率具有相似的特征,而两个相似的样本对应的特征值必然相近。分类结果用于表示预训练模型对该非预训练样本是否具有识别能力,其具体形式不做限定,例如可以为正确或错误,正确则表明预训练模型对该非预训练样本具有识别能力,能够对其进行识别;错误则表明无法正确识别该非预训练模型。

S103:基于分类结果和特征值对非预训练样本进行样本精简处理,得到精简样本集。

其中,样本精简处理,是指对非预训练样本中的相似样本进行删除或数量减少,以便减少同类型样本的处理。由于预训练模型经过了一定的训练,其虽然没有训练完毕,但是其必然对某些类型的样本具备了一定的识别能力。若在后续继续利用大量该类型的样本对预训练模型继续进行训练,则对模型性能的提升较小,而浪费的计算资源和时间较多,使得模型训练效率较低。此外,在另一种情况中,若后续用于对预训练模型进行训练的样本中存在部分标记不准确的样本,则会使得模型经过大量训练也无法具备较强的性能,需要消耗更多的时间和计算资源持续进行训练。因此,为了提高模型训练效率,在得到各个非预训练样本对应的分类结果和特征值后,可以基于其对非预训练样本进行样本精简,减少样本数量,保留有价值的样本组成精简样本集。

可以理解的是,样本精简处理基于分类结果和特征值进行,则在精简过程中,需要以分类结果和/或特征值作为标准。例如,在一种实施方式中,可以将非预训练样本按照分类结果划分为两类,然后分别在两类非预训练样本中进行样本精简,在另一种实施方式中,样本精简处理的过程可以包括如下步骤:

步骤11:基于特征值划分多个特征值区间。

步骤12:根据分类结果,对处于各个特征值区间内的非预训练样本进行样本精简处理,得到精简样本集。

在本实施方式中,为了进一步提高样本精简过程的效率。可以基于特征值划分多个特征值区间。样本精简的目的是将模型已经能够识别的类型的样本(可以将其称为正确样本,即分别结果正确的非预训练样本)减少,通过减少该类型的样本的数量来减少训练所需的时间。此外,其目的还可以包括筛除标记不准确的样本,通过减少不准确样本来减少模型训练受到的干扰,进而减少训练所需的时间。

故此,在进行样本精简时,必然需要判断两个正确样本是否足够相似。特征值能够表征样本的特征,其基于样本的原本特性得到,不受到标签的影响,因此特征值越相近的两个样本,则说明其越可能相似,反之说明二者越不相似。基于特征值划分得到的区间,不同的特征值区间覆盖不同的特征值范围,可以认为同一区间内的样本越可能相似。在特征值区间划分完毕后,根据分类结果正确或错误,可以分别选择不同的方式对处于各个特征值区间内的非预训练样本进行样本精简处理,最终得到精简样本集。通过划分特征值区间,可以减少判断两个样本是否足够相似的次数,进而减少计算资源的消耗,使得能够在利用大规模数据集训练模型时提高模型训练效率。

本实施例并不限定特征值区间的具体划分方式,利于可以按照预设长度划分若干个等长的特征值区间;在另一种实施方式中,可以按照特征值的具体分布情况,使得每个特征值区间内的样本数量相同或相近。

S104:利用精简样本集对预训练模型进行训练,得到训练后模型。

经过样本精简处理后得到的精简样本集中的样本数量较小,因此利用其对预训练模型再次进行训练所需的时间较少,训练后模型的生成效率较高。

应用本申请实施例提供的模型训练方法,通过选择预训练样本并利用其训练得到预训练模型,可以使得预训练模型对原始样本集中的部分样本具有识别能力。通过将各个非预训练样本输入预训练模型,可以得到对应的分类结果和特征值,特征值可以表征非预训练样本的特征,分类结果可以表示预训练模型对非预训练样本是否具有识别能力,若能够正确识别,则说明预训练模型具有一定的对这一类样本的识别能力。由于特征值与样本的特征和类别相关,且分类结果可以表征样本的类别。因此可以基于特征值和分类结果确定预训练模型具有对哪些样本的识别能力,同时确定预训练模型不具备对哪些样本的识别能力,进而进行高效的样本精简,即对非预训练样本进行样本精简处理,得到精简样本集。由于预训练模型仅为初步训练后得到的模型,为了得到准确的模型,可以利用精简样本集对预训练模型进行进一步训练,得到训练后模型。得到的训练后模型可以具备对各类样本的识别能力,具有较好的性能。利用预训练模型对样本进行预分类,进而基于预分类的结果进行样本精简处理,可以高效地进行样本精简,快速减少用于进行模型训练的样本的数量,进而提高模型训练效率,解决了相关技术无法快速且高效地对模型进行训练的问题。

基于上述实施例,本实施例将对上述实施例中的若干步骤进行具体阐述。在一种实施方式中,在训练预训练模型时,还可以同时训练一个二分类模型,以便在后续利用该二分类模型生成对应的分类结果;在另一种实施方式中,为了能够提高分类结果的准确性,将原始样本集中的各个非预训练样本输入预训练模型,得到分类结果和特征值的过程可以包括如下步骤:

步骤21:将各个非预设训练样本输入预训练模型,得到特征值和识别结果。

在本实施例中,在将非预设训练样本输入预训练模型后,预训练模型可以提取并输出其对应的特征值,以及根据预训练的情况对非预训练样本进行识别,得到对应的识别结果。由于预训练模型的识别能力有限,因此得到的识别结果不一定准确,可能会出现识别结果与样本标签不匹配的情况。

步骤22:若识别结果与非预设训练样本对应的样本标签匹配,则确定分类结果正确。

若识别结果与样本标签匹配,则可以确定预训练模型具有对非预设训练样本的识别能力,因此可以确定分类结果正确。

步骤23:若识别结果与样本标签不匹配,则确定分类结果错误。

若识别结果与样本标签不匹配,则说明预训练模型对该非预训练样本的识别错误,因此确定分类结果错误,预训练模型不具备对该类样本的识别能力,需要在后续利用此类样本对其进行训练。利用该方式,可以得到准确的分类结果,以便在后续对预训练模型再次训练后得到性能较好的训练后模型。

基于上述实施例,对于分类结果正确的非预训练样本,即正确样本,由于预训练模型已经具备对该类型的样本的识别能力,因此在后续训练中不需要采用大量的同类型样本进行训练,可以减少其数量。在这种情况下,基于特征值划分多个特征值区间的过程可以包括如下步骤:

步骤31:基于正确样本对应的特征值划分多个第一区间。

正确样本为分类结果正确的非预训练样本。为了提高样本精简的有效性,在对正确样本进行精简的过程中,在划分特征值区间时,仅基于正确样本对应的特征值划分对应的特征值区间,即第一区间。

相应的,根据分类结果,对处于各个特征值区间内的非预训练样本进行样本精简处理,得到精简样本集的过程可以包括如下步骤:

步骤32:对各个第一区间对应的正确样本进行样本精简处理,得到第一精简样本。

步骤33:基于第一精简样本构建精简样本集。

在划分得到第一区间后,则分别对各个第一区间内的正确样本进行样本精简,以减少正确样本的数量,进而得到第一精简样本,并利用其构成精简样本集。本实施例并不限定对正确样本的具体精简方式,例如在一种实施方式中,对各个第一区间对应的正确样本进行样本精简处理,得到第一精简样本的过程可以包括如下步骤:

步骤41:分别计算各个第一区间内任意两个正确样本之间的相似度,并将相似度大于相似度阈值的正确样本确定为第一区间内的正确相似样本;

步骤42:若正确相似样本的数量大于数量阈值,则对正确相似样本进行删减处理,得到第一精简样本。

特征值能够在一定程度上反映样本的特征,因此特征值相近的样本在一定程度上是相似的,因此第一区间内的各个正确样本可以视为相对较相似的样本,但是在本实施例中并不将其全部视为足够相似的样本,其中可能存在较小的不同,若将其删减,则会影响模型的训练效果。因此为了进行准确地样本精简,可以分别计算各个第一区间内的各个正确样本之间的相似度,并判断相似度是否大于相似度阈值。相似度阈值的具体大小不做限定。若相似度大于相似度阈值,则将计算该相似度的两个正确样本确定为正确相似样本,正确相似样本即为足够相似的正确样本。

若正确相似样本的数量大于数量阈值,说明在该第一区间内,足够相似的样本较多,可以对进行精简。通过对正确相似样本进行删减处理,将剩余的正确样本确定为第一精简样本。可以理解的是,删减处理为分别对各个第一区间对应的多个正确相似样本之间进行删减。利用该方法,可以利用相似度进一步确定正确样本是否足够相似,可以使得样本精简处理更加准确。

基于上述实施例,在一种可行的实施方式中,原始样本集中的非预训练样本可能存在标记错误的情况,为了减少模型训练过程中的干扰,提高训练效率,基于特征值划分多个特征值区间的过程可以包括如下步骤:

步骤51:基于错误样本对应的特征值划分多个第二区间。

错误样本为分类结果错误的非预训练样本。需要说明的是,本实施例中的第二区间的划分方式与上述第一区间的划分方式可以相同也可以不同,具体划分方式不做限定。

相应的,根据分类结果,对处于各个特征值区间内的非预训练样本进行样本精简处理,得到精简样本集的过程可以包括如下步骤:

步骤52:分别计算各个第二区间内任意两个错误样本之间的相似度,并将相似度大于相似度阈值的错误样本确定为第二区间内的错误相似样本。

步骤53:若各个错误相似样本对应的样本标签存在冲突,则删除第二区间内的错误相似样本,得到第二精简样本。

步骤54:基于第二精简样本构建精简样本集。与划分方式类似的,本实施例中两个错误样本之间的相似度计算方式与上述的两个正确样本之间的相似度计算方式可以相同也可以不同,相似度可以体现两样本之间的相似程度即可。

在确定错误相似样本后,判断各个错误相似样本的样本标签是否冲突。若存在冲突,则说明存在标签标记错误的情况,在这种情况下,说明由错误相似样本组成的一簇样本均不可信,因此删除错误相似样本。样本标签冲突即为错误相似样本的多个标签并不完全一致。删除错误相似样本后剩余的样本即为第二精简样本,第二精简样本用于构成精简样本集。

进一步的,为了进一步提高模型的训练效率,使模型快速具备对错误样本的识别能力,利用所述精简样本集对所述预训练模型进行训练,得到训练后模型的过程可以包括:

步骤61:对精简样本集中的第二精简样本进行权重增加处理,得到加权样本集。

由于预训练模型无法正确识别第二精简样本,为了加强其对第二精简样本的识别能力,可以增加第二精简样本的权重,即对第二精简样本进行权重增加处理,得到加权样本集。增加第二精简样本的权重的具体方式本实施例不做限定,可以参考相关技术。

步骤62:利用加权样本集对预训练模型进行训练,得到训练后模型。

通过对第二精简样本进行加权,可以在利用加权样本集对预训练模型进行训练时,使其更加注重对第二精简样本的学习,提高对第二精简样本的识别能力,进而提升训练后模型的性能。

基于上述实施例,在得到训练后模型后,还可以执行进一步处理,例如在一种实施方式中,可以将训练后模型发送给其他电子设备,以便其他电子设备利用训练好的模型完成与模型功能相对应的任务。具体的,还可以包括如下步骤:

步骤71:获取目标设备信息,并将训练后模型发送至目标设备信息对应的目标设备。

其中,目标设备信息用于指定目标设备,具体为目标设备的身份信息,具体形式不做限定,例如可以为设备网络地址或者为设备编号。

在另一种实施方式中,训练后模型可以被应用于检测异常文件,例如病毒文件,因此本实施例还提供了一种异常文件检测方法,具体包括:

步骤81:获取待测文件。

步骤82:将待测文件输入异常文件检测模型,得到对应的检测结果。

其中,异常文件检测模型基于上述的模型训练方法训练得到。

基于上述实施例,请参考图2,图2为本申请实施例提供的一种具体的样本精简过程的流程图。其中,原始数据集即为原始样本集,按照比例对原始数据集进行划分,即可得到预训练数据集,其中包括至少两个预训练样本。利用其对机器学习模型(即初始模型)进行训练,可以利用较短的事件得到一个收敛的基础模型,即预训练模型。将原始数据集中没有被划分为预训练数据集的部分输入到预训练模型,得到对应的预测结果,以及对应的预测得分(即特征值)。基于预测结果进行分类,得到正确样本(即预测正确的样本)和错误样本(即预测错误的样本)。通过预测得分,分别划定第一区间和第二区间,在得分区间内计算样本之间的相似性,确定错误相似样本和正确相似样本。对于错误样本,如果错误相似样本的标签有冲突,那么将该簇错误相似样本从训练集中删除;如果样本标签一致,则增加错误样本在训练集中的权重。对于预测正确的样本,同样在区间内寻找正确相似样本,如果正确相似样本数量大于阈值,那么说明该簇样本过多,可以按照一定比例对该簇样本进行删减。最终得到精简数据集,进而利用精简数据集对预训练模型进行训练,得到训练后模型。

下面对本申请实施例提供的模型训练装置进行介绍,下文描述的模型训练装置与上文描述的模型训练方法可相互对应参照。

请参考图3,图3为本申请实施例提供的一种模型训练装置的结构示意图,包括:

预训练模块110,用于从原始样本集中选择多个预训练样本,并利用所述预训练样本训练初始模型,得到预训练模型;

样本回扫模块120,用于将所述原始样本集中的各个非预训练样本输入所述预训练模型,得到分类结果和特征值;

样本精简模块130,用于基于所述分类结果和所述特征值对所述非预训练样本进行样本精简处理,得到精简样本集;

重训练模块140,用于利用所述精简样本集对所述预训练模型进行训练,得到训练后模型。

可选地,样本精简模块130,包括:

区间划分单元,用于基于所述特征值划分多个特征值区间;

精简单元,用于根据所述分类结果,对处于各个所述特征值区间内的所述非预训练样本进行样本精简处理,得到所述精简样本集。

可选地,区间划分单元,包括:

第一划分子单元,用于基于正确样本对应的所述特征值划分多个第一区间;所述正确样本为分类结果正确的非预训练样本;

相应的,精简单元,包括:

第一精简子单元,用于对各个所述第一区间对应的所述正确样本进行样本精简处理,得到第一精简样本;

第一构建子单元,用于基于所述第一精简样本构建所述精简样本集。

可选地,第一精简子单元,包括:

相似度计算子单元,用于分别计算各个所述第一区间内任意两个所述正确样本之间的相似度,并将所述相似度大于相似度阈值的所述正确样本确定为所述第一区间内的正确相似样本;

删减处理子单元,用于若所述正确相似样本的数量大于数量阈值,则对所述正确相似样本进行删减处理,得到所述第一精简样本。

可选地,区间划分单元,包括:

第二划分子单元,用于基于错误样本对应的所述特征值划分多个第二区间;所述错误样本为分类结果错误的非预训练样本;

相应的,精简单元,包括:

错误相似样本确定子单元,用于分别计算各个所述第二区间内任意两个所述错误样本之间的相似度,并将所述相似度大于相似度阈值的所述错误样本确定为所述第二区间内的错误相似样本;

删除子单元,用于若各个所述错误相似样本对应的样本标签存在冲突,则删除所述第二区间内的所述错误相似样本,得到第二精简样本;

第二构建子单元,用于基于所述第二精简样本构建所述精简样本集。

可选地,重训练模块140,包括:

加权单元,用于对所述精简样本集中的所述第二精简样本进行权重增加处理,得到加权样本集;

训练单元,用于利用所述加权样本集对所述预训练模型进行训练,得到训练后模型。

可选地,样本回扫模块120,包括:

输入单元,用于将各个所述非预设训练样本输入所述预训练模型,得到所述特征值和识别结果;

正确确定单元,用于若识别结果与所述非预设训练样本对应的样本标签匹配,则确定所述分类结果正确;

错误确定单元,用于若识别结果与所述样本标签不匹配,则确定所述分类结果错误。

下面对本申请实施例提供的异常文件检测装置进行介绍,下文描述的模型训练装置与上文描述的异常文件检测方法可相互对应参照。

本实施例还提供了一种异常文件检测装置,包括:

待测文件获取模块,用于获取待测文件;

文件检测模块,用于将待测文件输入异常文件检测模型,得到对应的检测结果;其中,异常文件检测模型基于上述的模型训练方法训练得到。

下面对本申请实施例提供的电子设备进行介绍,下文描述的电子设备与上文描述的模型训练方法可相互对应参照。

请参考图4,图4为本申请实施例提供的一种模型训练方法所适用的一种硬件组成框架示意图。其中电子设备100可以包括处理器101和存储器102,还可以进一步包括多媒体组件103、信息输入/信息输出(I/O)接口104以及通信组件105中的一种或多种。

其中,处理器101用于控制电子设备100的整体操作,以完成上述的模型训练方法中的全部或部分步骤;存储器102用于存储各种类型的数据以支持在电子设备100的操作,这些数据例如可以包括用于在该电子设备100上操作的任何应用程序或方法的指令,以及应用程序相关的数据。该存储器102可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,SRAM)、电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,EPROM)、可编程只读存储器(Programmable Read-Only Memory,PROM)、只读存储器(Read-OnlyMemory,ROM)、磁存储器、快闪存储器、磁盘或光盘中的一种或多种。在本实施例中,存储器102中至少存储有用于实现以下功能的程序和/或数据:

从原始样本集中选择多个预训练样本,并利用预训练样本训练初始模型,得到预训练模型;

将原始样本集中的各个非预训练样本输入预训练模型,得到分类结果和特征值;

基于分类结果和特征值对非预训练样本进行样本精简处理,得到精简样本集;

利用精简样本集对预训练模型进行训练,得到训练后模型。

多媒体组件103可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器102或通过通信组件105发送。音频组件还包括至少一个扬声器,用于输出音频信号。I/O接口104为处理器101和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件105用于电子设备100与其他设备之间进行有线或无线通信。无线通信,例如Wi-Fi,蓝牙,近场通信(Near Field Communication,简称NFC),2G、3G或4G,或它们中的一种或几种的组合,因此相应的该通信组件105可以包括:Wi-Fi部件,蓝牙部件,NFC部件。

电子设备100可以被一个或多个应用专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、数字信号处理器(Digital Signal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device,简称PLD)、现场可编程门阵列(Field ProgrammableGate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述实施例给出的模型训练方法。

当然,图4所示的电子设备100的结构并不构成对本申请实施例中电子设备的限定,在实际应用中电子设备100可以包括比图4所示的更多或更少的部件,或者组合某些部件。

下面对本申请实施例提供的计算机可读存储介质进行介绍,下文描述的计算机可读存储介质与上文描述的模型训练方法可相互对应参照。

本申请还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述的模型训练方法的步骤。

该计算机可读存储介质可以包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。

本领域技术人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件的方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应该认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系属于仅仅用来将一个实体或者操作与另一个实体或者操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语包括、包含或者其他任何变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。

本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号