首页> 中国专利> 素材分类方法、装置、计算机设备及存储介质

素材分类方法、装置、计算机设备及存储介质

摘要

本发明涉及人工智能技术领域,提供一种素材分类方法、装置、计算机设备及存储介质,包括:基于多个历史场景素材的第一标注场景类别及第一特征向量训练第一随机森林模型;根据待分类场景素材的第二特征向量及多个第一特征向量识别待分类场景素材的第二标注场景类别;基于第二场景类别及第二特征向量更新第一随机森林模型得到第二随机森林模型;根据第一随机森林模型的第一输出及第二随机森林模型的第二输出校正第一标注场景类别为第一目标场景类别;根据第二标注场景类别及第二随机森林模型的第二输出计算待分类场景素材的第二目标场景类别。本发明能够对场景素材进行准确的分类且解决人工误标注的问题。

著录项

  • 公开/公告号CN112651439A

    专利类型发明专利

  • 公开/公告日2021-04-13

    原文格式PDF

  • 申请/专利权人 平安科技(深圳)有限公司;

    申请/专利号CN202011559080.6

  • 发明设计人 张莉;王雅青;吴志成;乔延柯;

    申请日2020-12-25

  • 分类号G06K9/62(20060101);G06N3/08(20060101);G06F40/284(20200101);G06F40/289(20200101);

  • 代理机构44334 深圳市赛恩倍吉知识产权代理有限公司;

  • 代理人杨毅玲;刘丽华

  • 地址 518000 广东省深圳市福田区福田街道福安社区益田路5033号平安金融中心23楼

  • 入库时间 2023-06-19 10:35:20

说明书

技术领域

本发明涉及人工智能技术领域,具体涉及一种素材分类方法、装置、计算机设备及存储介质。

背景技术

营销活动不仅能够吸引消费者的注意力,还能够传递出品牌的核心价值,进而提升品牌的影响力。现有活动素材平台可以提供各种各样的场景素材,供营销活动的策划者选取,从而根据选取的场景素材来实施营销活动。

发明人在实现本发明的过程中发现,现有活动素材平台通过人工标注已有的场景素材的场景,并基于标注后的场景素材训练机器学习模型,使用训练完成的机器学习模型来对新上传的场景素材进行素材分类,由于人工标注场景会存在错误,训练完成的机器学习模型的分类准确度较低,导致对新上传的场景素材的分类的准确度也较低,且无法更新人工错误标注的场景素材的场景类别。

发明内容

鉴于以上内容,有必要提出一种素材分类方法、装置、计算机设备及存储介质,能够对场景素材进行准确的分类,且不断更新历史场景素材的场景类别,解决了人工误标注的问题。

本发明的第一方面提供一种素材分类方法,所述方法包括:

获取多个历史场景素材的第一标注场景类别,提取所述多个历史场景素材的第一特征向量;

基于多个所述第一标注场景类别及多个所述第一特征向量训练第一随机森林模型;

提取待分类场景素材的第二特征向量,根据多个所述第一特征向量及所述第二特征向量识别所述待分类场景素材的第二标注场景类别;

基于所述第二场景类别及所述第二特征向量更新所述第一随机森林模型得到第二随机森林模型;

根据所述第一随机森林模型的第一输出及所述第二随机森林模型的第二输出校正所述第一标注场景类别为第一目标场景类别;

根据所述第二标注场景类别及所述第二随机森林模型的第二输出计算所述待分类场景素材的第二目标场景类别。

在一个可选的实施例中,所述方法还包括:

接收所述用户对所下载的目标场景素材的反馈;

解析所述反馈得到所述目标场景素材的真实场景类别;

基于所述目标场景素材及对应的真实场景类别更新所述第二随机森林模型得到第三随机森林模型,使得所述第三随机森林模型输出的所述目标场景素材的场景类别与所述真实场景类别相同;

使用所述第三随机森林模型更新其他场景素材的场景类别。

在一个可选的实施例中,所述根据所述第一随机森林模型的第一输出及所述第二随机森林模型的第二输出校正所述第一标注场景类别为第一目标场景类别包括:

获取所述第一输出中每个历史场景素材的第一待确认场景类别;

获取所述第二输出中每个历史场景素材的第二待确认场景类别;

判断所述第一待确认场景类别的第一类别概率及对应的所述第二待确认场景类别的第二类别概率是否均大于预设类别概率阈值;

当所述第一类别概率及所述第二类别概率均大于所述预设类别概率阈值时,判断所述第一待确认场景类别、所述第二待确认场景类别及所述第一标注场景类别中是否有至少两个相同的场景类别;

当所述第一待确认场景类别、所述第二待确认场景类别及所述第一标注场景类别中有至少两个相同的场景类别时,根据所述相同的场景类别校正所述第一标注场景类别为第一目标场景类别。

在一个可选的实施例中,所述根据多个所述第一特征向量及所述第二特征向量识别所述待分类场景素材的第二标注场景类别包括:

计算每个所述第一特征向量与所述第二特征向量之间的相似度;

确定最大的相似度对应的目标第一特征向量;

将所述目标第一特征向量对应的第一标注场景类别确定为所述待分类场景素材的第二标注场景类别。

在一个可选的实施例中,所述根据多个所述第一特征向量及所述第二特征向量识别所述待分类场景素材的第二标注场景类别包括:

对多个所述第一特征向量及所述第二特征向量进行聚类,得到多个特征向量簇;

确定所述第二特征向量所在的目标特征向量簇;

根据所述目标特征向量簇中所述第一特征向量的第一标注场景类别计算所述目标特征向量簇的目标标注场景类别;

将所述目标标注场景类别确定为所述待分类场景素材的第二标注场景类别。

在一个可选的实施例中,所述方法还包括:

响应于用户的场景素材下载请求,提取所述场景素材下载请求中的场景类别;

查询与所述场景类别对应的多个场景素材;

生成每个所述场景素材的下载链接;

计算每个所述场景素材的素材量;

根据所述素材量对多个所述下载链接进行排序显示。

在一个可选的实施例中,所述提取所述多个历史场景素材的第一特征向量包括:

对每个所述历史场景素材进行分词处理,得到多个分词;

使用word2vector提取每个分词的词向量;

基于每个所述历史场景素材的所述多个分词的词向量生成第一特征向量。

本发明的第二方面提供一种素材分类装置,所述装置包括:

第一提取模块,用于获取多个历史场景素材的第一标注场景类别,提取所述多个历史场景素材的第一特征向量;

模型训练模块,用于基于多个所述第一标注场景类别及多个所述第一特征向量训练第一随机森林模型;

第二提取模块,用于提取待分类场景素材的第二特征向量,根据多个所述第一特征向量及所述第二特征向量识别所述待分类场景素材的第二标注场景类别;

模型更新模块,用于基于所述第二场景类别及所述第二特征向量更新所述第一随机森林模型得到第二随机森林模型;

类别校正模块,用于根据所述第一随机森林模型的第一输出及所述第二随机森林模型的第二输出校正所述第一标注场景类别为第一目标场景类别;

类别计算模块,用于根据所述第二标注场景类别及所述第二随机森林模型的第二输出计算所述待分类场景素材的第二目标场景类别。

本发明的第三方面提供一种计算机设备,所述计算机设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现所述素材分类方法。

本发明的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述素材分类方法。

综上所述,本发明所述的素材分类方法、装置、计算机设备及存储介质,基于历史场景素材的特征向量及标注场景类别进行有监督的训练第一随机森林模型,对于待分类场景素材,首先通过聚类或者相似度的方式为待分类场景素材给予一个标注场景类别,再基于待分类场景素材及对应的标注场景类别有监督的更新第一随机森林模型为第二随机森林模型,实现了对随机森林模型的迭代更新,提高了第二随机森林模型的分类效果,最后结合所述第一随机森林模型的第一输出及所述第二随机森林模型的第二输出实现了对所述第一标注场景类别的校正;结合所述第二标注场景类别及所述第二随机森林模型的第二输出实现了对所述待分类场景素材的分类。本发明不仅能够对待分类场景素材的准确分类,还能对历史场景素材的标注场景类别进行校正,解决了人工错误标注场景类别的问题。

附图说明

图1是本发明实施例一提供的素材分类方法的流程图。

图2是本发明实施例二提供的素材分类装置的结构图。

图3是本发明实施例三提供的计算机设备的结构示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施例对本发明进行详细描述。需要说明的是,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。

除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。

本发明实施例提供的素材分类方法由计算机设备执行,相应地,素材分类装置运行于计算机设备中。

图1是本发明实施例一提供的素材分类方法的流程图。所述素材分类方法具体包括以下步骤,根据不同的需求,该流程图中步骤的顺序可以改变,某些可以省略。

S11,获取多个历史场景素材的第一标注场景类别,提取所述多个历史场景素材的第一特征向量。

其中,历史场景素材是指已举办过的营销活动所使用的且已上传至活动素材平台中的素材,每个历史场景素材为一个素材描述文本。

可以使用标注工具标注活动素材平台中的每个历史场景素材的第一标注场景类别,第一标注场景类别用以标识对应的历史场景素材属于哪一种类型的营销活动场景,例如,促销型活动场景,挖掘新用户活动场景,回馈老用户活动场景等。

计算机设备获取活动素材平台中标注有第一标注场景类别的历史场景素材,并提取每个历史场景素材的第一特征向量,从而基于多个第一标注场景类别及多个第一特征向量训练第一随机森林模型,以对后续上传至活动素材平台中的场景素材进行预标注,从而避免人工对场景素材的标注。

在一个可选的实施例中,所述提取所述多个历史场景素材的第一特征向量包括:

对每个所述历史场景素材进行分词处理,得到多个分词;

使用word2vector提取每个分词的词向量;

基于每个所述历史场景素材的所述多个分词的词向量生成第一特征向量。

计算机设备可以采用结巴分词工具对每个历史场景素材进行分词处理,以将每个历史场景素材分为多个分词。

由于多个分词中包括一些停用词等无意义词,将这些无意义词进行过滤处理后,再使用word2vector提取每个分词的词向量,使用word2vector提取出的每个词向量的维度相同。

不同的历史场景素材中的分词的数量不同,为了避免生成的第一特征向量的维度不同,则将每个历史场景素材中每个分词的词向量中属于同一个维度的元素进行相加,得到的第一特征向量的维度与词向量的维度相同,每个历史场景素材的第一特征向量的维度则保持了一致,便于后续训练随机森林模型,使得随机森林模型能够快速的收敛。

示例性的,假设第一个历史场景素材中包括3个分词,其中,分词A1的词向量为(a11,a12,a13),分词A2的词向量为(a21,a22,a23),分词A3的词向量为(a31,a32,a33),则基于第一个历史场景素材的3个分词的词向量生成的第一特征向量为((a11+a21+a31)/3,(a12+a22+a32)/3,(a13+a23+a33)/3)。

假设第二个历史场景素材中包括2个分词,其中,分词B1的词向量为(b11,b12,b13),分词B2的词向量为(b21,b22,b23),则基于第二个历史场景素材的2个分词的词向量生成的第一特征向量为((b11+b21)/3,(b12+b22)/3,(b13+b23)/3)。

S12,基于多个所述第一标注场景类别及多个所述第一特征向量训练第一随机森林模型。

将每个第一标注场景类别及对应的第一特征向量作为一个数据对,将多个数据对作为数据集,基于所述数据集有监督的训练第一随机森林模型。

随机森林模型的训练过程为现有技术,不再详细阐述。

S13,提取待分类场景素材的第二特征向量,根据多个所述第一特征向量及所述第二特征向量识别所述待分类场景素材的第二标注场景类别。

其中,待分类场景素材是指新上传至活动素材平台中需要进行素材分类的素材。

计算机设备使用结巴分词工具对待分类场景素材进行分词处理,得到多个分词,去掉无意义词之后使用word2vector提取每个分词的词向量;基于待分类场景素材的多个分词的词向量生成第二特征向量。

第二特征向量与第一特征向量具有相同的维度。

直接使用第一随机森林模型虽能够在一定程度上预测待分类场景素材的场景类别,但由于第一随机森林模型中的第一场景类别的标注存在误标,因此,导致第一随机森林模型的分类准确度不高,从而预测待分类场景素材的第二场景类别的准确度也不高。而又由于第一随机森林模型是采用有监督的方式训练的,待分类场景素材没有场景类别,即没有标签,因此,无法直接使用分类的场景素材来迭代更新所述第一随机森林模型,因此,再提取出待分类场景素材的第二特征向量之后,根据多个第一特征向量及第二特征向量先识别待分类场景素材的第二标注场景类别,对待分类场景素材进行场景类别的预标注。

在一个可选的实施例中,所述根据多个所述第一特征向量及所述第二特征向量识别所述待分类场景素材的第二标注场景类别包括:

计算每个所述第一特征向量与所述第二特征向量之间的相似度;

确定最大的相似度对应的目标第一特征向量;

将所述目标第一特征向量对应的第一标注场景类别确定为所述待分类场景素材的第二标注场景类别。

第一特征向量是历史场景素材的特征表示,第二特征是待分类场景素材的特征表示,通过计算第一特征向量与第二特征向量之间的相似度来计算历史场景素材与待分类场景素材之间的相似度。相似度越大,表明对应的历史场景素材与待分类场景素材越相似,历史场景素材与待分类场景素材越属于同一类。相似度越小,表明对应的历史场景素材与待分类场景素材越不相似,历史场景素材与待分类场景素材越不属于同一类。将最大相似度对应的目标第一特征向量的第一标注场景类别确定为所述待分类场景素材的第二标注场景类别。

在另一个可选的实施例中,所述根据多个所述第一特征向量及所述第二特征向量识别所述待分类场景素材的第二标注场景类别包括:

对多个所述第一特征向量及所述第二特征向量进行聚类,得到多个特征向量簇;

确定所述第二特征向量所在的目标特征向量簇;

根据所述目标特征向量簇中所述第一特征向量的第一标注场景类别计算所述目标特征向量簇的目标标注场景类别;

将所述目标标注场景类别确定为所述待分类场景素材的第二标注场景类别。

计算机设备可以采用K-means聚类算法对多个所述第一特征向量及所述第二特征向量进行聚类,从而将多个所述第一特征向量及所述第二特征向量分为多个特征向量簇,每个特征向量簇中包括一个或多个特征向量。

通过聚类实现了将具有相同标注场景类别的特征向量聚为同一类,将具有不同标注场景类别的特征向量聚为不同的类。

确定了所述第二特征向量所在的目标特征向量簇,即可根据目标特征向量簇中的第一特征向量的第一标注场景类别来确定第二特征向量的第二标注场景类别。如果目标特征向量簇中的目标第一特征向量对应的目标第一标注场景类别全部相同,则目标第一标注场景类别为目标特征向量簇中的场景类别,目标第一标注场景类别为待分类场景素材的第二标注场景类别。如果目标特征向量簇中的目标第一特征向量对应的目标第一标注场景类别不全部相同,则计算目标第一标注场景类别中每个相同的第一标注场景类别的数量,将数量最大的第一标注场景类别确定为目标特征向量簇中的场景类别,数量最大的第一标注场景类别为待分类场景素材的第二标注场景类别。

S14,基于所述第二场景类别及所述第二特征向量更新所述第一随机森林模型得到第二随机森林模型。

将第二标注场景类别及第二特征向量作为一个新的数据对,将新的数据对加入所述数据集中得到新的数据集,基于所述新的数据集有监督的训练第一随机森林模型,得到第二随机森林模型,实现了对第一随机森林模型的迭代更新。

S15,根据所述第一随机森林模型的第一输出及所述第二随机森林模型的第二输出校正所述第一标注场景类别为第一目标场景类别。

随机森林模型在训练完成后输出每个特征向量的场景类别及场景类别的类别概率。将所述第一随机森林模型的输出称之为第一输出,将所述第二随机森林模型的输出称之为第二输出。

结合所述第一随机森林模型的第一输出及所述第二随机森林模型的第二输出对所述历史场景的所述第一标注场景类别进行校正。

在一个可选的实施例中,所述根据所述第一随机森林模型的第一输出及所述第二随机森林模型的第二输出校正所述第一标注场景类别为第一目标场景类别包括:

获取所述第一输出中每个历史场景素材的第一待确认场景类别;

获取所述第二输出中每个历史场景素材的第二待确认场景类别;

判断所述第一待确认场景类别的第一类别概率及对应的所述第二待确认场景类别的第二类别概率是否均大于预设类别概率阈值;

当所述第一类别概率及所述第二类别概率均大于所述预设类别概率阈值时,判断所述第一待确认场景类别、所述第二待确认场景类别及所述第一标注场景类别中是否有至少两个相同的场景类别;

当所述第一待确认场景类别、所述第二待确认场景类别及所述第一标注场景类别中有至少两个相同的场景类别时,根据所述相同的场景类别校正所述第一标注场景类别为第一目标场景类别。

当所述第一待确认场景类别的第一类别概率及对应的所述第二待确认场景类别的第二类别概率均大于预设类别概率阈值时,表明第一随机森林模型与第二随机森林模型对同一个历史场景素材的分类准确度均较高。在这种情况下,如果所述第一待确认场景类别、所述第二待确认场景类别及所述第一标注场景类别均相同,则历史场景素材的第一目标场景类别为所述第一标注场景类别。

当所述第一类别概率及所述第二类别概率均小于所述预设类别概率阈值时,比较所述第一类别概率及所述第二类别概率,当所述第一类别概率大于所述第二类别概率时,根据所述第一待确认场景类别校正所述第一标注场景类别为第一目标场景类别,当所述第二类别概率大于所述第一类别概率时,根据所述第二待确认场景类别校正所述第一标注场景类别为第一目标场景类别。

S16,根据所述第二标注场景类别及所述第二随机森林模型的第二输出计算所述待分类场景素材的第二目标场景类别。

通过计算相似度或者聚类的方式确定待分类场景素材的第二标注场景类别可能是错误的,那么可以结合第二标注场景类别和第二随机森林模型的第二输出计算所述待分类场景素材的第二目标场景类别。

如果所述第二标注场景类别与所述第二输出中所述待分类场景素材的场景类别相同,则所述待分类场景素材的第二目标场景类别为所述第二标注场景类别。

如果所述第二标注场景类别与所述第二输出中所述待分类场景素材的场景类别不相同,则当所述第二输出中所述待分类场景素材的场景类别的类别概率大于所述预设概率阈值时,所述待分类场景素材的第二目标场景类别为所述第二输出中所述待分类场景素材的场景类别;当所述第二输出中所述待分类场景素材的场景类别的类别概率小于所述预设概率阈值时,所述待分类场景素材的第二目标场景类别为所述第二标注场景类别对应的第一目标场景类别。

在一个可选的实施例中,所述方法还包括:

响应于用户的场景素材下载请求,提取所述场景素材下载请求中的场景类别;

查询与所述场景类别对应的多个场景素材;

生成每个所述场景素材的下载链接;

计算每个所述场景素材的素材量;

根据所述素材量对多个所述下载链接进行排序显示。

当用户需要为某项营销活动制定场景素材时,可以在活动素材平台中下载相关的场景素材,避免重新制定场景素材,提高了营销活动的活动效率。

用户可以在活动素材平台提供的用户界面中输入场景类别,来触发场景素材下载请求,计算机设备从场景素材下载请求中提取出场景类别,查询活动素材平台中与提取出的场景类别对应的多个场景素材。

活动素材平台每一个场景类别的场景素材存储在一个文件夹中,同一个文件夹中的场景素材有不同的存储路径,基于存储路径生成每个场景素材的下载链接。

不同的素材的大小不同,计算场景素材的分词的数量可以得到场景素材的素材量,素材量越大,则对应的下载链接在用户界面中的顶端显示,素材量越小,则对应的下载链接在用户界面中的底端显示。在根据素材量对多个下载链接进行排序显示后,还可以在下载链接处显示素材量,以提示用户下载所述下载链接处的场景素材所需耗费的下载资源,从而能够起到节约用户下载资源的目的。

在一个可选的实施例中,所述方法还包括:

接收所述用户对所下载的目标场景素材的反馈;

解析所述反馈得到所述目标场景素材的真实场景类别;

基于所述目标场景素材及对应的真实场景类别更新所述第二随机森林模型得到第三随机森林模型,使得所述第三随机森林模型输出的所述目标场景素材的场景类别与所述真实场景类别相同;

使用所述第三随机森林模型更新其他场景素材的场景类别。

所述活动素材平台提供的用户界面中还可以显示反馈输入框,用以供用户反馈所下载的场景素材的场景类别是否为正确的场景类别。如果所下载的场景素材的场景类别为正确的场景类别,则可以在反馈输入框中输入是。如果所下载的场景素材的场景类别不为正确的场景类别,则可以在反馈输入框中输入该场景素材的真实场景类别。

计算机设备可以记录目标场景素材的真实场景类别,并在真实场景类别的记录次数超过预设次数阈值时,基于所述目标场景素材及对应的真实场景类别对所述第二随机森林模型进行重新训练,并且以重新训练的第二随机森林模型输出的所述目标场景素材的场景类别与所述真实场景类别相同为训练目标来更新第二随机森林模型,从而提高第三随机森林模型的分类效果。最后获取所述第三随机森林模型的第三输出,并获取所述第三输出中其他场景素材的场景类别,作为其他场景素材的最新一次的场景类别。

其他场景素材是指参与更新第二随机森林模型中的除目标场景素材外的场景素材,包括所述多个历史场景素材及后续上传至活动素材平台中的素材。该可选的实施例中,通过接收用户对所下载的场景素材的反馈,并在反馈得到的真实场景类别的记录次数超过预设次数阈值时才对第二随机森林模型进行更新,确保所下载的场景素材的场景类别为真实的场景类别,实现对所下载的场景素材的场景类别的校正,并以此为训练目前更新第二随机森林模型为第三随机森林模型,不断的重复该实施例的过程,实现了对随机森林模型的长期迭代更新,以此不断的提高第三随机森林模型的分类效果。

综上所述,本发明所述的素材分类方法,基于历史场景素材的特征向量及标注场景类别进行有监督的训练第一随机森林模型,对于待分类场景素材,首先通过聚类或者相似度的方式为待分类场景素材给予一个标注场景类别,再基于待分类场景素材及对应的标注场景类别有监督的更新第一随机森林模型为第二随机森林模型,实现了对随机森林模型的迭代更新,提高了第二随机森林模型的分类效果,最后结合所述第一随机森林模型的第一输出及所述第二随机森林模型的第二输出实现了对所述第一标注场景类别的校正;结合所述第二标注场景类别及所述第二随机森林模型的第二输出实现了对所述待分类场景素材的分类。本发明不仅能够对待分类场景素材的准确分类,还能对历史场景素材的标注场景类别进行校正,解决了人工错误标注场景类别的问题。

需要强调的是,为进一步保证上述随机森林模型的私密性和安全性,上述随机森林模型可存储于区块链的节点中。

图2是本发明实施例二提供的素材分类装置的结构图。

在一些实施例中,所述素材分类装置20可以包括多个由计算机程序段所组成的功能模块。所述素材分类装置20中的各个程序段的计算机程序可以存储于计算机设备的存储器中,并由至少一个处理器所执行,以执行(详见图1描述)素材分类的功能。

本实施例中,所述素材分类装置20根据其所执行的功能,可以被划分为多个功能模块。所述功能模块可以包括:第一提取模块201、模型训练模块202、第二提取模块203、模型更新模块204、类别校正模块205、类别计算模块206、链接显示模块207及类别反馈模块208。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段,其存储在存储器中。在本实施例中,关于各模块的功能将在后续的实施例中详述。

所述第一提取模块201,用于获取多个历史场景素材的第一标注场景类别,提取所述多个历史场景素材的第一特征向量。

其中,历史场景素材是指已举办过的营销活动所使用的且已上传至活动素材平台中的素材,每个历史场景素材为一个素材描述文本。

可以使用标注工具标注活动素材平台中的每个历史场景素材的第一标注场景类别,第一标注场景类别用以标识对应的历史场景素材属于哪一种类型的营销活动场景,例如,促销型活动场景,挖掘新用户活动场景,回馈老用户活动场景等。

计算机设备获取活动素材平台中标注有第一标注场景类别的历史场景素材,并提取每个历史场景素材的第一特征向量,从而基于多个第一标注场景类别及多个第一特征向量训练第一随机森林模型,以对后续上传至活动素材平台中的场景素材进行预标注,从而避免人工对场景素材的标注。

在一个可选的实施例中,所述第一提取模块201提取所述多个历史场景素材的第一特征向量包括:

对每个所述历史场景素材进行分词处理,得到多个分词;

使用word2vector提取每个分词的词向量;

基于每个所述历史场景素材的所述多个分词的词向量生成第一特征向量。

计算机设备可以采用结巴分词工具对每个历史场景素材进行分词处理,以将每个历史场景素材分为多个分词。

由于多个分词中包括一些停用词等无意义词,将这些无意义词进行过滤处理后,再使用word2vector提取每个分词的词向量,使用word2vector提取出的每个词向量的维度相同。

不同的历史场景素材中的分词的数量不同,为了避免生成的第一特征向量的维度不同,则将每个历史场景素材中每个分词的词向量中属于同一个维度的元素进行相加,得到的第一特征向量的维度与词向量的维度相同,每个历史场景素材的第一特征向量的维度则保持了一致,便于后续训练随机森林模型,使得随机森林模型能够快速的收敛。

示例性的,假设第一个历史场景素材中包括3个分词,其中,分词A1的词向量为(a11,a12,a13),分词A2的词向量为(a21,a22,a23),分词A3的词向量为(a31,a32,a33),则基于第一个历史场景素材的3个分词的词向量生成的第一特征向量为((a11+a21+a31)/3,(a12+a22+a32)/3,(a13+a23+a33)/3)。

假设第二个历史场景素材中包括2个分词,其中,分词B1的词向量为(b11,b12,b13),分词B2的词向量为(b21,b22,b23),则基于第二个历史场景素材的2个分词的词向量生成的第一特征向量为((b11+b21)/3,(b12+b22)/3,(b13+b23)/3)。

所述模型训练模块202,用于基于多个所述第一标注场景类别及多个所述第一特征向量训练第一随机森林模型。

将每个第一标注场景类别及对应的第一特征向量作为一个数据对,将多个数据对作为数据集,基于所述数据集有监督的训练第一随机森林模型。

随机森林模型的训练过程为现有技术,不再详细阐述。

所述第二提取模块203,用于提取待分类场景素材的第二特征向量,根据多个所述第一特征向量及所述第二特征向量识别所述待分类场景素材的第二标注场景类别。

其中,待分类场景素材是指新上传至活动素材平台中需要进行素材分类的素材。

计算机设备使用结巴分词工具对待分类场景素材进行分词处理,得到多个分词,去掉无意义词之后使用word2vector提取每个分词的词向量;基于待分类场景素材的多个分词的词向量生成第二特征向量。

第二特征向量与第一特征向量具有相同的维度。

直接使用第一随机森林模型虽能够在一定程度上预测待分类场景素材的场景类别,但由于第一随机森林模型中的第一场景类别的标注存在误标,因此,导致第一随机森林模型的分类准确度不高,从而预测待分类场景素材的第二场景类别的准确度也不高。而又由于第一随机森林模型是采用有监督的方式训练的,待分类场景素材没有场景类别,即没有标签,因此,无法直接使用分类的场景素材来迭代更新所述第一随机森林模型,因此,再提取出待分类场景素材的第二特征向量之后,根据多个第一特征向量及第二特征向量先识别待分类场景素材的第二标注场景类别,对待分类场景素材进行场景类别的预标注。

在一个可选的实施例中,所述第二提取模块203根据多个所述第一特征向量及所述第二特征向量识别所述待分类场景素材的第二标注场景类别包括:

计算每个所述第一特征向量与所述第二特征向量之间的相似度;

确定最大的相似度对应的目标第一特征向量;

将所述目标第一特征向量对应的第一标注场景类别确定为所述待分类场景素材的第二标注场景类别。

第一特征向量是历史场景素材的特征表示,第二特征是待分类场景素材的特征表示,通过计算第一特征向量与第二特征向量之间的相似度来计算历史场景素材与待分类场景素材之间的相似度。相似度越大,表明对应的历史场景素材与待分类场景素材越相似,历史场景素材与待分类场景素材越属于同一类。相似度越小,表明对应的历史场景素材与待分类场景素材越不相似,历史场景素材与待分类场景素材越不属于同一类。将最大相似度对应的目标第一特征向量的第一标注场景类别确定为所述待分类场景素材的第二标注场景类别。

在另一个可选的实施例中,所述第二提取模块203根据多个所述第一特征向量及所述第二特征向量识别所述待分类场景素材的第二标注场景类别包括:

对多个所述第一特征向量及所述第二特征向量进行聚类,得到多个特征向量簇;

确定所述第二特征向量所在的目标特征向量簇;

根据所述目标特征向量簇中所述第一特征向量的第一标注场景类别计算所述目标特征向量簇的目标标注场景类别;

将所述目标标注场景类别确定为所述待分类场景素材的第二标注场景类别。

计算机设备可以采用K-means聚类算法对多个所述第一特征向量及所述第二特征向量进行聚类,从而将多个所述第一特征向量及所述第二特征向量分为多个特征向量簇,每个特征向量簇中包括一个或多个特征向量。

通过聚类实现了将具有相同标注场景类别的特征向量聚为同一类,将具有不同标注场景类别的特征向量聚为不同的类。

确定了所述第二特征向量所在的目标特征向量簇,即可根据目标特征向量簇中的第一特征向量的第一标注场景类别来确定第二特征向量的第二标注场景类别。如果目标特征向量簇中的目标第一特征向量对应的目标第一标注场景类别全部相同,则目标第一标注场景类别为目标特征向量簇中的场景类别,目标第一标注场景类别为待分类场景素材的第二标注场景类别。如果目标特征向量簇中的目标第一特征向量对应的目标第一标注场景类别不全部相同,则计算目标第一标注场景类别中每个相同的第一标注场景类别的数量,将数量最大的第一标注场景类别确定为目标特征向量簇中的场景类别,数量最大的第一标注场景类别为待分类场景素材的第二标注场景类别。

所述模型更新模块204,用于基于所述第二场景类别及所述第二特征向量更新所述第一随机森林模型得到第二随机森林模型。

将第二标注场景类别及第二特征向量作为一个新的数据对,将新的数据对加入所述数据集中得到新的数据集,基于所述新的数据集有监督的训练第一随机森林模型,得到第二随机森林模型,实现了对第一随机森林模型的迭代更新。

所述类别校正模块205,用于根据所述第一随机森林模型的第一输出及所述第二随机森林模型的第二输出校正所述第一标注场景类别为第一目标场景类别。

随机森林模型在训练完成后输出每个特征向量的场景类别及场景类别的类别概率。将所述第一随机森林模型的输出称之为第一输出,将所述第二随机森林模型的输出称之为第二输出。

结合所述第一随机森林模型的第一输出及所述第二随机森林模型的第二输出对所述历史场景的所述第一标注场景类别进行校正。

在一个可选的实施例中,所述类别校正模块205根据所述第一随机森林模型的第一输出及所述第二随机森林模型的第二输出校正所述第一标注场景类别为第一目标场景类别包括:

获取所述第一输出中每个历史场景素材的第一待确认场景类别;

获取所述第二输出中每个历史场景素材的第二待确认场景类别;

判断所述第一待确认场景类别的第一类别概率及对应的所述第二待确认场景类别的第二类别概率是否均大于预设类别概率阈值;

当所述第一类别概率及所述第二类别概率均大于所述预设类别概率阈值时,判断所述第一待确认场景类别、所述第二待确认场景类别及所述第一标注场景类别中是否有至少两个相同的场景类别;

当所述第一待确认场景类别、所述第二待确认场景类别及所述第一标注场景类别中有至少两个相同的场景类别时,根据所述相同的场景类别校正所述第一标注场景类别为第一目标场景类别。

当所述第一待确认场景类别的第一类别概率及对应的所述第二待确认场景类别的第二类别概率均大于预设类别概率阈值时,表明第一随机森林模型与第二随机森林模型对同一个历史场景素材的分类准确度均较高。在这种情况下,如果所述第一待确认场景类别、所述第二待确认场景类别及所述第一标注场景类别均相同,则历史场景素材的第一目标场景类别为所述第一标注场景类别。

当所述第一类别概率及所述第二类别概率均小于所述预设类别概率阈值时,比较所述第一类别概率及所述第二类别概率,当所述第一类别概率大于所述第二类别概率时,根据所述第一待确认场景类别校正所述第一标注场景类别为第一目标场景类别,当所述第二类别概率大于所述第一类别概率时,根据所述第二待确认场景类别校正所述第一标注场景类别为第一目标场景类别。

所述类别计算模块206,用于根据所述第二标注场景类别及所述第二随机森林模型的第二输出计算所述待分类场景素材的第二目标场景类别。

通过计算相似度或者聚类的方式确定待分类场景素材的第二标注场景类别可能是错误的,那么可以结合第二标注场景类别和第二随机森林模型的第二输出计算所述待分类场景素材的第二目标场景类别。

如果所述第二标注场景类别与所述第二输出中所述待分类场景素材的场景类别相同,则所述待分类场景素材的第二目标场景类别为所述第二标注场景类别。

如果所述第二标注场景类别与所述第二输出中所述待分类场景素材的场景类别不相同,则当所述第二输出中所述待分类场景素材的场景类别的类别概率大于所述预设概率阈值时,所述待分类场景素材的第二目标场景类别为所述第二输出中所述待分类场景素材的场景类别;当所述第二输出中所述待分类场景素材的场景类别的类别概率小于所述预设概率阈值时,所述待分类场景素材的第二目标场景类别为所述第二标注场景类别对应的第一目标场景类别。

所述链接显示模块207,用于响应于用户的场景素材下载请求,提取所述场景素材下载请求中的场景类别;查询与所述场景类别对应的多个场景素材;生成每个所述场景素材的下载链接;计算每个所述场景素材的素材量;根据所述素材量对多个所述下载链接进行排序显示。

当用户需要为某项营销活动制定场景素材时,可以在活动素材平台中下载相关的场景素材,避免重新制定场景素材,提高了营销活动的活动效率。

用户可以在活动素材平台提供的用户界面中输入场景类别,来触发场景素材下载请求,计算机设备从场景素材下载请求中提取出场景类别,查询活动素材平台中与提取出的场景类别对应的多个场景素材。

活动素材平台每一个场景类别的场景素材存储在一个文件夹中,同一个文件夹中的场景素材有不同的存储路径,基于存储路径生成每个场景素材的下载链接。

不同的素材的大小不同,计算场景素材的分词的数量可以得到场景素材的素材量,素材量越大,则对应的下载链接在用户界面中的顶端显示,素材量越小,则对应的下载链接在用户界面中的底端显示。在根据素材量对多个下载链接进行排序显示后,还可以在下载链接处显示素材量,以提示用户下载所述下载链接处的场景素材所需耗费的下载资源,从而能够起到节约用户下载资源的目的。

所述类别反馈模块208,用于接收所述用户对所下载的目标场景素材的反馈;解析所述反馈得到所述目标场景素材的真实场景类别;基于所述目标场景素材及对应的真实场景类别更新所述第二随机森林模型得到第三随机森林模型,使得所述第三随机森林模型输出的所述目标场景素材的场景类别与所述真实场景类别相同;使用所述第三随机森林模型更新其他场景素材的场景类别。

所述活动素材平台提供的用户界面中还可以显示反馈输入框,用以供用户反馈所下载的场景素材的场景类别是否为正确的场景类别。如果所下载的场景素材的场景类别为正确的场景类别,则可以在反馈输入框中输入是。如果所下载的场景素材的场景类别不为正确的场景类别,则可以在反馈输入框中输入该场景素材的真实场景类别。

计算机设备可以记录目标场景素材的真实场景类别,并在真实场景类别的记录次数超过预设次数阈值时,基于所述目标场景素材及对应的真实场景类别对所述第二随机森林模型进行重新训练,并且以重新训练的第二随机森林模型输出的所述目标场景素材的场景类别与所述真实场景类别相同为训练目标来更新第二随机森林模型,从而提高第三随机森林模型的分类效果。最后获取所述第三随机森林模型的第三输出,并获取所述第三输出中其他场景素材的场景类别,作为其他场景素材的最新一次的场景类别。

其他场景素材是指参与更新第二随机森林模型中的除目标场景素材外的场景素材,包括所述多个历史场景素材及后续上传至活动素材平台中的素材。该可选的实施例中,通过接收用户对所下载的场景素材的反馈,并在反馈得到的真实场景类别的记录次数超过预设次数阈值时才对第二随机森林模型进行更新,确保所下载的场景素材的场景类别为真实的场景类别,实现对所下载的场景素材的场景类别的校正,并以此为训练目前更新第二随机森林模型为第三随机森林模型,不断的重复该实施例的过程,实现了对随机森林模型的长期迭代更新,以此不断的提高第三随机森林模型的分类效果。

综上所述,本发明所述的素材分类装置,基于历史场景素材的特征向量及标注场景类别进行有监督的训练第一随机森林模型,对于待分类场景素材,首先通过聚类或者相似度的方式为待分类场景素材给予一个标注场景类别,再基于待分类场景素材及对应的标注场景类别有监督的更新第一随机森林模型为第二随机森林模型,实现了对随机森林模型的迭代更新,提高了第二随机森林模型的分类效果,最后结合所述第一随机森林模型的第一输出及所述第二随机森林模型的第二输出实现了对所述第一标注场景类别的校正;结合所述第二标注场景类别及所述第二随机森林模型的第二输出实现了对所述待分类场景素材的分类。本发明不仅能够对待分类场景素材的准确分类,还能对历史场景素材的标注场景类别进行校正,解决了人工错误标注场景类别的问题。

需要强调的是,为进一步保证上述随机森林模型的私密性和安全性,上述随机森林模型可存储于区块链的节点中。

参阅图3所示,为本发明实施例三提供的计算机设备的结构示意图。在本发明较佳实施例中,所述计算机设备3包括存储器31、至少一个处理器32、至少一条通信总线33及收发器34。

本领域技术人员应该了解,图3示出的计算机设备的结构并不构成本发明实施例的限定,既可以是总线型结构,也可以是星形结构,所述计算机设备3还可以包括比图示更多或更少的其他硬件或者软件,或者不同的部件布置。

在一些实施例中,所述计算机设备3是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。所述计算机设备3还可包括客户设备,所述客户设备包括但不限于任何一种可与客户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、数码相机等。

需要说明的是,所述计算机设备3仅为举例,其他现有的或今后可能出现的电子产品如可适应于本发明,也应包含在本发明的保护范围以内,并以引用方式包含于此。

在一些实施例中,所述存储器31中存储有计算机程序,所述计算机程序被所述至少一个处理器32执行时实现如所述的素材分类方法中的全部或者部分步骤。所述存储器31包括只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable Read-OnlyMemory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory,OTPROM)、电子擦除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(Compact Disc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

在一些实施例中,所述至少一个处理器32是所述计算机设备3的控制核心(Control Unit),利用各种接口和线路连接整个计算机设备3的各个部件,通过运行或执行存储在所述存储器31内的程序或者模块,以及调用存储在所述存储器31内的数据,以执行计算机设备3的各种功能和处理数据。例如,所述至少一个处理器32执行所述存储器中存储的计算机程序时实现本发明实施例中所述的素材分类方法的全部或者部分步骤;或者实现素材分类装置的全部或者部分功能。所述至少一个处理器32可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。

在一些实施例中,所述至少一条通信总线33被设置为实现所述存储器31以及所述至少一个处理器32等之间的连接通信。

尽管未示出,所述计算机设备3还可以包括给各个部件供电的电源(比如电池),优选的,电源可以通过电源管理装置与所述至少一个处理器32逻辑相连,从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述计算机设备3还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。

上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,计算机设备,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分。

在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,既可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或,单数不排除复数。本发明陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号