公开/公告号CN116630731A
专利类型发明专利
公开/公告日2023-08-22
原文格式PDF
申请/专利权人 腾讯科技(深圳)有限公司;
申请/专利号CN202210121605.0
发明设计人 罗达志;
申请日2022-02-09
分类号G06V10/774(2022.01);G06V10/762(2022.01);
代理机构广州三环专利商标代理有限公司 44202;
代理人陈梅君
地址 518057 广东省深圳市南山区高新区科技中一路腾讯大厦35层
入库时间 2024-01-17 01:23:59
法律状态公告日
法律状态信息
法律状态
2023-09-08
实质审查的生效 IPC(主分类):G06V10/774 专利申请号:2022101216050 申请日:20220209
实质审查的生效
2023-08-22
公开
发明专利申请公布
技术领域
本申请涉及互联网技术领域,具体涉及计算机技术领域,尤其涉及一种模型训练方法、对象识别方法、相关设备及存储介质。
背景技术
随着计算机技术的不断发展,对象识别任务被提出;所谓的对象识别任务是指:识别某一对象是否是需关注的关注对象的任务,此处的对象可以例如是商品、广告、网页、音视频等。目前,通常是通过人工识别的方式来实现该对象识别任务的,由于人工识别通常会出现漏检和误判的情况,因此采用此方式进行对象识别,一方面会导致对象识别的准确性较低,另一方面还会导致对象识别的效率较低。
发明内容
本申请实施例提供了一种模型训练方法、对象识别方法、相关设备及存储介质,可以提升目标对象识别模型的性能,以及提升对象识别的准确性。
在一方面,本申请实施例提供了一种基于策略的模型训练方法,所述方法包括:
获取用于对基准对象识别模型进行训练的多个初始对象的属性描述数据,以及N个对象前置检测策略,N为正整数;其中,一个对象前置检测策略用于指示:一种关注对象类型下的对象的属性描述数据需关联的一个或多个关键词;
根据所述N个对象前置检测策略所指示的各个关键词,分别采用各个初始对象的属性描述数据,对所述N个对象前置检测策略进行策略命中检测;
从所述多个初始对象中,筛选出命中了至少一个对象前置检测策略的属性描述数据所对应的初始对象,作为所述基准对象识别模型的样本对象;
基于各样本对象的属性描述数据所命中的对象前置检测策略所对应的关注对象类型,对所述各样本对象的属性描述数据进行基于对象类型的数据聚类处理,得到多个数据集,一个数据集对应一个关注对象类型;
分别采用每个数据集对所述基准对象识别模型进行模型训练,得到多个关注对象类型下的目标对象识别模型;一个目标对象识别模型用于根据输入的任一对象的属性描述数据,预测所述任一对象属于相应的关注对象类型的概率。
另一方面,本申请实施例提供了一种基于策略的模型训练装置,所述装置包括:
获取单元,用于获取用于对基准对象识别模型进行训练的多个初始对象的属性描述数据,以及N个对象前置检测策略,N为正整数;其中,一个对象前置检测策略用于指示:一种关注对象类型下的对象的属性描述数据需关联的一个或多个关键词;
处理单元,用于根据所述N个对象前置检测策略所指示的各个关键词,分别采用各个初始对象的属性描述数据,对所述N个对象前置检测策略进行策略命中检测;
所述处理单元,还用于从所述多个初始对象中,筛选出命中了至少一个对象前置检测策略的属性描述数据所对应的初始对象,作为所述基准对象识别模型的样本对象;
所述处理单元,还用于基于各样本对象的属性描述数据所命中的对象前置检测策略所对应的关注对象类型,对所述各样本对象的属性描述数据进行基于对象类型的数据聚类处理,得到多个数据集,一个数据集对应一个关注对象类型;
训练单元,用于分别采用每个数据集对所述基准对象识别模型进行模型训练,得到多个关注对象类型下的目标对象识别模型;一个目标对象识别模型用于根据输入的任一对象的属性描述数据,预测所述任一对象属于相应的关注对象类型的概率。
再一方面,本申请实施例提供了一种计算机设备,所述计算机设备包括输入接口和输出接口,所述计算机设备还包括:
处理器,适于实现一条或多条指令;以及,计算机存储介质;
其中,所述计算机存储介质存储有一条或多条指令,所述一条或多条指令适于由所述处理器加载并执行上述所提及的基于策略的模型训练方法。
再一方面,本申请实施例提供了一种计算机存储介质,所述计算机存储介质存储有一条或多条指令,所述一条或多条指令适于由处理器加载并执行上述所提及的基于策略的模型训练方法。
再一方面,本申请实施例提供了一种计算机程序产品,该计算机程序产品包括计算机程序;所述计算机程序被处理器执行时,实现上述所提及的基于策略的模型训练方法。
本申请实施例通过引入基准对象识别模型,并对基准对象识别模型进行模型训练来得到目标对象识别模型,从而通过目标对象识别模型来实现对象识别任务,这样可提升对象识别的效率和准确性。并且在模型训练的过程中,通过设置N个对象前置检测策略,一个对象前置检测策略用于指示一种关注对象类型下的对象的属性描述数据需关联的一个或多个关键词,使得在获取到对基准对象识别模型进行训练的多个初始对象的属性描述数据后,可先根据N个对象前置检测策略所指示的关键词,从多个初始对象的属性描述数据中筛选出与每种关注对象类型相关联的属性描述数据作为基准对象识别模型的样本数据,这样可保证样本数据的准确性,从而提升后续的模型训练效果,还可避免基准对象识别模型因学习一些与关注对象类型无关的属性描述数据,而造成的资源浪费和训练效率低下的问题。进一步的,通过基于各样本对象的属性描述数据所命中的对象前置检测策略所对应的关注对象类型,将各样本对象的属性描述数据聚类成多个数据集,并分别采用每个数据集针对性地对基准对象识别模型进行模型训练;这样可使得基准对象识别模型每次可统一专注地通过学习单个关注对象类型对应的数据集中的属性描述数据,来优化自身的模型参数,这样可进一步提升模型训练效果,使得训练得到的单个目标对象识别模型对相应关注对象类型下的对象具有较强的识别能力,这样可进一步提升对象识别的准确性。
另一方面,本申请实施例提供了一种基于策略和模型的对象识别方法,所述方法包括:
获取待识别的目标对象的目标属性描述数据以及N个对象前置检测策略,N为正整数;一个对象前置检测策略用于指示:一种关注对象类型下的对象的属性描述数据需关联的一个或多个关键词;
根据所述N个对象前置检测策略所指示的各个关键词,采用所述目标属性描述数据对所述N个对象前置检测策略进行策略命中检测;
若所述目标属性描述数据命中至少一个对象前置检测策略,则确定用于对所述目标对象进行类型预测的目标对象识别模型;
调用确定出的目标对象识别模型根据所述目标属性描述数据,对所述目标对象进行类型预测,得到所述目标对象的类型预测结果,并根据所述目标对象的类型预测结果判定所述目标对象是否为关注对象。
另一方面,本申请实施例提供了一种基于策略和模型的对象识别装置,所述装置包括:
获取单元,用于获取待识别的目标对象的目标属性描述数据以及N个对象前置检测策略,N为正整数;一个对象前置检测策略用于指示:一种关注对象类型下的对象的属性描述数据需关联的一个或多个关键词;
识别单元,用于根据所述N个对象前置检测策略所指示的各个关键词,采用所述目标属性描述数据对所述N个对象前置检测策略进行策略命中检测;
所述识别单元,还用于若所述目标属性描述数据命中至少一个对象前置检测策略,则确定用于对所述目标对象进行类型预测的目标对象识别模型;
所述识别单元,还用于调用确定出的目标对象识别模型根据所述目标属性描述数据,对所述目标对象进行类型预测,得到所述目标对象的类型预测结果,并根据所述目标对象的类型预测结果判定所述目标对象是否为关注对象。
再一方面,本申请实施例提供了一种计算机设备,所述计算机设备包括输入接口和输出接口,所述计算机设备还包括:
处理器,适于实现一条或多条指令;以及,计算机存储介质;
其中,所述计算机存储介质存储有一条或多条指令,所述一条或多条指令适于由所述处理器加载并执行上述所提及的基于策略和模型的对象识别方法。
再一方面,本申请实施例提供了一种计算机存储介质,所述计算机存储介质存储有一条或多条指令,所述一条或多条指令适于由处理器加载并执行上述所提及的基于策略和模型的对象识别方法。
再一方面,本申请实施例提供了一种计算机程序产品,该计算机程序产品包括计算机程序;所述计算机程序被处理器执行时,实现上述所提及的基于策略和模型的对象识别方法。
本申请实施例通过设置N个对象前置检测策略,一个对象前置检测策略用于指示一种关注对象类型下的对象的属性描述数据需关联的一个或多个关键词,使得在获取到待识别的目标对象的目标属性描述数据后,可先根据N个对象前置检测策略所指示的关键词,从目标属性描述数据对N个对象前置检测策略进行策略命中检测,以初步识别目标对象是否为关注对象。若目标属性描述数据命中至少一个对象前置检测策略,则可确定目标对象可能是关注对象,此时可确定用于对目标对象进行二次识别的目标对象识别模型,并调用该目标对象识别模型根据目标属性描述数据对目标对象进行类型预测,从而根据预测得到的类型预测结果判定目标对象是否为关注对象。通过策略和模型结合的方式,来对目标对象进行识别,可有效提升对象识别的准确性;并且,整个识别过程无需人为参与,可有效提升对象识别效率。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a是本申请实施例提供的一种基准对象识别模型的结构示意图;
图1b是本申请实施例提供的一种对象识别方案的方案架构示意图;
图1c是本申请实施例提供的另一种对象识别方案的方案架构示意图;
图1d是本申请实施例提供的一种前置过滤策略系统的运行原理示意图;
图2是本申请实施例提供的一种基于策略的模型训练方法的流程示意图;
图3a是本申请另一实施例提供的一种基准对象识别模型的结构示意图;
图3b是本申请另一实施例提供的另一种基准对象识别模型的结构示意图;
图4是本申请实施例提供的一种采用任一数据集对基准对象识别模型进行模型训练的流程示意图;
图5a是本申请实施例提供的一种基于软去重的类型标注的流程示意图;
图5b是本申请实施例提供的一种选取P个无标注样本对象的流程示意图;
图5c是本申请实施例提供的一种构建无标签数据对的流程示意图;
图5d是本申请实施例提供的一种模型训练的流程示意图;
图5e是本申请实施例提供的一种学习率衰减曲线的示意图;
图6是本申请实施例提供的一种基于策略和模型的对象识别方法的流程示意图;
图7是本申请实施例提供的一种自适应的模型优化的流程示意图;
图8是本申请实施例提供的一种基于策略的模型训练装置的结构示意图;
图9是本申请实施例提供的一种基于策略和模型的对象识别装置的结构示意图;
图10是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
在本申请实施例中,后续所提及的对象可以包括但不限于以下几种:商品、广告、网页、音频或视频等,对此不作限定;此处提及的商品可理解成是在电商上进行售卖的物品,所谓的电商是电子商务的简称,其是指在互联网上进行商品交易的相关服务活动。对象可具有x(x为正整数)个属性维度下的属性,本申请实施例将用于描述对象的对象属性的数据可称为属性描述数据;具体的,对象的属性描述数据可包括x个属性维度下的属性描述文本。例如,当对象是商品时,如果商品具有商品名称维度、商品文案维度、商品店铺维度以及商品类别维度等4个属性维度下的属性,那么商品的属性描述数据可包括以下4个属性描述文本:商品名称、商品文案、商品店铺名称以及商品大类(即商品类别);此处的商品文本可包括以下至少一种:商品详情文案和商品图像OCR(Optical Character Recognition,光学字符识别)文本(用字符识别方法将商品图像中的文字翻译成计算机文字后所得到的文本)。例如,当对象是广告时,如果广告具有广告内容维度、广告类型维度、广告公司维度以及广告目标维度等4个属性维度下的属性,那么广告的属性描述数据可包括以下4个属性描述文本:广告内容文本、广告类型、广告公司名称以及广告目标(即广告所推广的物体、活动等)。
不管是哪一种对象,其均可分为多类;其中,根据实际需求确定的需重点关注的那一类对象可称为关注对象。例如当对象为商品时,其可分为违禁商品和合规商品两类;所谓的违禁商品是指相关法规规定不准私自制造、购买、使用、持有、储存、运输进出口的物品,也可理解成是不允许在电商上进行售卖的商品;相反的,合规商品则是指允许在电商上进行售卖的商品。若需重点关注违禁商品这一类,则关注对象便可指违禁商品,若需重点关注合规商品这一类,则关注对象便可指合规商品。又如当对象是广告时,其可分为敏感广告(或禁用广告)和合规广告两类;所谓的敏感广告是指不允许发布的广告,合规广告则是指允许发布的广告。若需重点关注敏感广告这一类,则关注对象便可指敏感广告,若需重点关注合规广告这一类,则关注对象便可指合规广告。又如当对象是视频时,其可分为影视剧视频、小视频(视频时长小于时长阈值的视频)和游戏视频三类;若需重点关注游戏视频,则关注对象便可指游戏视频,若需重点关注小视频,则关注对象便可指小视频。
另外,关注对象可进一步细分成多种类型的对象,基于关注对象进行类型细分所得到的对象类型可称为关注对象类型。例如,若关注对象是违禁商品,则违禁商品又可细分为电子烟、野生动物和火药等三种类型的商品,那么关注对象类型便可包括以下三种:电子烟类型、野生动物类型和火药类型。又如,若关注对象是敏感广告,则敏感广告又可细分为违禁活动宣传广告和不良信息宣传广告等两种类型的广告,那么关注对象类型便可包括以下两种:违禁活动宣传广告类型和不良信息宣传广告类型。又如,若关注对象是小视频,则小视频又可细分为情感小视频、健身小视频和资讯小视频等三种类型的视频,那么关注对象类型便可包括以下三种:情感视频类型、健身视频类型和资讯视频类型。
为了可以高效且准确地识别任一对象是否是关注对象,本申请实施例基于人工智能(Artificial Intelligence,AI)技术,提出了一种基于策略和模型的对象识别方案。所谓的AI技术是指:利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术;其主要通过了解智能的实质,生产出一种新的能以人类智能相似的方式做出反应的智能机器,使得智能机器具有感知、推理与决策等多种功能。相应的,AI技术是一门综合学科,其主要包括计算机视觉技术(Computer Vision,CV)、语音处理技术、自然语言处理技术以及机器学习(Machine Learning,ML)/深度学习等几大方向。
其中,机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是AI的核心,是使计算机设备具有智能的根据途径;所谓的机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科;其专门研究计算机设备怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。相应的,深度学习则是一种利用深层神经网络系统,进行机器学习的技术。具体的,机器学习/深度学习通常可包括人工神经网络、有监督、无监督、半监督等多种技术。所谓的有监督是有监督学习的简称,其是指从标签化训练数据集中推断出函数(如模型参数)的机器学习任务;所谓的无监督是无监督学习的简称,其是指根据类别未知(未被标记)的样本数据解决模式识别工作(如对象识别工作)中的各种问题,推断出函数的机器学习任务;所谓的半监督是半监督学习的简称,其是指同时使用大量的未标记数据以及一些标记数据,来进行模式识别工作,推断出函数的机器学习任务。
本申请实施例所提出的基于策略和模型的对象识别方案主要涉及上述所提及的AI技术中的机器学习/深度学习技术。在具体实现中,该对象识别方案可由一个计算机设备执行,该计算机设备可以是终端或服务器;或者,该对象识别方案可由终端和服务器共同执行。其中,此处所提及的终端可以包括但不限于:智能手机、电脑(如平板电脑、笔记本电脑、台式计算机等)、智能穿戴设备(如智能手表、智能眼镜)、智能语音交互设备、智能家电(如智能电视)、车载终端或飞行器等。此处所提及的服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(ContentDelivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器,等等。进一步的,终端和服务器可位于区块链网络内或区块链网络外,对此不作限定。更进一步的,终端和服务器还可将内部所存储的任一数据上传至区块链网络进行存储,以防止内部所存储的数据被篡改,提升数据安全性。
具体的,该对象识别方案首先可通过一个模型实现框架来构建一个对任一对象进行类型预测的基准对象识别模型,并通过利用深度学习技术中的半监督学习技术或有监督学习技术,采用各种关注对象类型对应的数据集对该基准对象识别模型,进行各种关注对象类型的模型批量化训练,得到每种关注对象类型对应的目标对象识别模型;一个目标对象识别模型可用于根据输入的任一对象的属性描述数据,预测该任一对象属于相应的关注对象类型的概率。应理解的是,任一目标对象识别模型的模型结构和基准对象识别模型的模型结构是相同的,两者的差异在于模型参数不同;即目标对象识别模型可理解成是,被优化了模型参数的基准对象识别模型。
并且,本申请实施例对模型实现框架所涉及的模型构建方式不作限定。例如,在一种实施方式中,该模型实现框架可将基于卷积神经网络的文本分类模型(Text CNN)作为上述所提及的基准对象识别模型;此情况下,可将任一属性描述数据中的各属性描述文本进行文本拼接,将拼接得到的长文本输入值该文本分类模型中进行识别。又如,另一种实施方式中,该模型实现框架可根据对象的属性特点,对上述所提及的基准对象识别模型进行模型结构的定制化处理;如若对象具有多个属性维度下的属性,即属性描述数据包括多个属性维度下的属性描述文本,则定制化的基准对象识别模型可包括每个属性维度对应的特征提取网络,特征联合层(attention层)以及前向网络,如图1a所示。其中,各个特征提取网络用于对相应属性维度下的属性描述文本进行独立的特征提取,得到各属性描述文本的文本特征;特征联合层用于按照注意力机制,对各特征提取网络所输出的文本特征进行特征联合处理,并将处理得到的联合特征输入至前向网络;相应的,前向网络用于根据输入的联合特征进行对象的类型预测处理。通过定制化基准对象识别模型,可使得通过模型内部的各个特征提取网络实现对每个属性维度下的属性描述文本的分析和利用,从而提升对象识别的准确性。也就是说,通过定制化一个多维度多角度的基准对象识别模型,可通过该模型提取出更多的对象多属性的特异性特征,从而通过整合商品多属性的特征并进行联合识别,来提高识别效果。
另外,本申请实施例对模型实现框架所涉及的模型训练方式也不作限定。例如,在一种实施方式中,该模型实现框架可采用遍历式打标签的方式对每个数据集所涉及的各个对象进行类型标注,从而采用每个数据集和相应对象的标注类型标签,利用有监督学习技术训练基准对象识别模型,并对训练得到的各目标对象识别模型进行模型效果校验与模型上线处理。又如,在另一种实施方式中,考虑到对数据集中的各对象均进行类型标注,会容易导致标注效率较低;并且,数据集中可能存在许多高度相似对象的属性描述数据,对这些高度相似的对象重复打标签,这样会给模型贡献无用的冗余信息。基于此,该模型实现框架也可只对每个数据集所涉及的不相似对象进行类型标注,从而采用每个数据集和相应对象的标注类型标签,利用半监督学习技术训练基准对象识别模型,并对训练得到的各目标对象识别模型进行模型效果校验与模型上线处理;这样的处理方式可有效提升标注效率,解决因类型标注标签的获取开销大,而导致无法在对象识别场景中推广深度学习模型的问题。
在通过上述方式上线各个目标对象识别模型后,当需识别某对象是否为关注对象时,该对象识别方案所提供的识别流程主要包括对象前置检测策略的初步识别过滤和目标对象识别模型的二次识别;其中,对象前置检测策略是指用于初步识别任一对象是否是某一关注对象类型下的对象的策略,其可用于指示关注对象类型下的对象的属性描述数据需关联的关键词。也就是说,当识别某对象是否为关注对象时,可先根据采用该对象的属性描述数据对一个或多个对象前置检测策略进行策略命中检测,以初步识别该对象是否为关注对象。若该对象的属性描述数据未命中任何一个对象前置检测策略,则可认为该对象不是需关注的关注对象。若该对象的属性描述数据命中了至少一个对象前置检测策略,则可认为该对象可能是关注对象;此情况下,便可进一步调用与被命中的对象前置检测策略所对应的关注对象类型相对应的目标对象识别模型,根据该对象的属性描述数据预测该对象的对象类型,从而根据预测得到的类型预测结果进一步判定该对象是否是关注对象,并在该对象是关注对象的情况下,确定该对象具体属于哪一种关注对象。
在一种实施方式中,上述所提及的对象前置检测策略可以是由一些关键词构成的词集;或者,是由一些关键词和排除词所构成的词集。在此实施方式中,上述所提及的采用该对象的属性描述数据对一个或多个对象前置检测策略进行策略命中检测这一步骤,本质上可以理解成是简易的关键词的匹配处理;当属性描述数据中包含了某个对象前置检测策略中的关键词,则可认为该对象前置检测策略被命中。此情况下,结合上述提及的采用有监督学习的模型实现框架,本申请所提出对象识别方案的方案架构可示例性地参见图1b所示。在另一种实施方式中,上述所提及的对象前置检测策略可以通过一个前置过滤策略系统(或规则引擎)进行配置,其可包括一条或多条规则,每条规则包括一个或多个关键词和各关键词之间的逻辑关系。在此实施方式中,上述所提及的采用该对象的属性描述数据对一个或多个对象前置检测策略进行策略命中检测这一步骤,本质上可以理解成是规则的匹配处理,每条规则可通过其包括的关键词和相应的逻辑关系,指示需命中的目标关键词;那么当属性描述数据中包含了某个对象前置检测策略中的一条或多条规则所指示的目标关键词,则可认为该对象前置检测策略被命中。此情况下,结合上述提及的采用半监督学习的模型实现框架,本申请所提出对象识别方案的方案架构可示例性地参见图1c所示。
如图1c所示,前置过滤策略系统可以包括:可配置策略子模块、策略匹配子模块和策略检出子模块等模块。其中,①可配置策略子模块用于给运维人员添加对应的关注对象类型和每个关注对象类型对应的对象前置检测策略,其是各类关注对象识别标准的人工输入路径。②策略匹配子模块负责将输入的各对象的属性描述数据,逐一根据已设定好的各个对象前置检测策略进行匹配(即策略命中检测)。将匹配成功的对象的属性描述数据以及被命中的对象前置检测策略等,临时缓存到内存中;并可匹配成功的对象初步作为关注对象,且将相应的对象前置检测策略对应的关注对象类型初步作为该对象的关注对象类型。以输入的属性描述数据包括商品名称、商品详情文案、商品图像OCR文本、商品店铺名称和商品大类为例;参见图1d所示,该策略匹配子模块可将输入的属性描述数据进行多属性匹配和多策略匹配,多属性匹配是指对属性描述数据中的各属性描述文本进行匹配,多策略匹配是指将属性描述数据和设定好的多个对象前置检测策略进行匹配。③策略检出子模块负责对策略匹配子模块所匹配得到的所有数据(如匹配成功的对象属性描述)进行去重,整理汇总等工作,以及最终以规整好的形式将去重后的数据输出到指定的数据库或Excel(一种表格形式的文件)中。且在将任一对象的属性描述数据输入至策略匹配子模块进行匹配,以初步判断该任一对象是否是关注对象后,该策略检出子模块还负责输出该任一对象的初步识别结果,该初步识别结果包括:指示该任一对象是否是关注对象(如违禁商品)的信息,以及初步确定的该任一对象所属的关注对象类型(如违禁商品类型)。
进一步的,针对任一目标对象识别模型,在该目标对象识别模型上线一段时间后,还可收集针对该目标对象识别模型的反馈数据(或称为反馈结果),从而基于反馈数据对该目标对象识别模型进行自适应优化。如图1c所示的闭环的方案架构:可对收集到的反馈数据进行可信度检测,从而筛选出可信的反馈数据,进而基于可信的反馈数据重用模型实现框架以对该目标对象识别模型进行模型参数的再次优化,并验证优化的目标对象识别模型的模型效果是否得到提升。通过此方式,可使得目标对象识别模型具有自适应优化的能力,保证目标对象识别模型可基于反馈数据作出定向优化,进一步提升模型性能,从而提升对象识别的准确性。
基于上述对象识别方案的相关描述,本申请实施例提出一种基于策略的模型训练方法,以对上述方案描述中所涉及的模型训练过程作进一步阐述。该基于策略的模型训练方法可以由上述所提及的计算机设备(如终端或服务器)执行,也可以由终端和服务器共同执行;为便于阐述,后续均以计算机设备执行该基于策略的模型训练方法为例进行说明。请参见图2,该基于策略的模型训练方法可包括以下步骤S201-S205:
S201,获取用于对基准对象识别模型进行训练的多个初始对象的属性描述数据,以及N个对象前置检测策略,N为正整数。
在本申请实施例中,一个对象前置检测策略用于指示:一种关注对象类型下的对象的属性描述数据需关联的一个或多个关键词。在一种实施方式中,每个对象前置检测策略可预先通过采用一个或多个关键词构建得到;此实施方式下,一个对象前置检测策略可以理解成是一个词集,且该词集中包括一种关注对象类型下的对象的属性描述数据需命中的一个或多个关键词。也就是说,此实施方式下的每个对象前置检测策略所指示的关键词和其所包括的关键词是相同的。
另一种实施方式中,每个对象前置检测策略可预先通过一个前置过滤策略系统中的可配置策略子模块进行策略配置得到;本申请实施例所提及的关注对象类型和相应的对象前置检测策略均可由运维人员根据具体任务设定,该前置过滤策略系统提供的策略配置方式包括:
a)支持对对象的每个属性维度下的属性描述文本配置相应的规则,从而将该对象对应的所有规则构成的集合作为一个对象前置检测策略。例如对象为商品时,支持对商品名称、商品文案(商品详情文案+商品图像OCR文本)、商品店铺名称以及商品大类等各属性描述文本,分别配置相应的规则,实现多元化规则配置。当然,应理解的是:该前置过滤系统也可支持对整个属性描述数据配置相应的规则;通过此方式所配置得到的对象前置检测策略中的各规则适用于该属性描述数据中的所有属性描述文本。
b)支持配置的规则可以例如下述表1所示:
表1
在具体使用中,可由运维人员针对每个关注对象类型的对象识别任务,在前置过滤策略系统上配置相应的对象前置检测策略,从而得到N个对象前置检测策略。其中,一个对象前置检测策略可理解是一个规则集,该规则集中包括一种关注对象类型所对应的一条或多条规则;并且,一条规则包括一个或多个关键词以及各关键词之间的逻辑关系(例如表1所示的逻辑关系)。那么可见,此实施方式下的任一对象前置检测策略所指示的关键词包括的是:与所述任一对象前置检测策略中的各条规则中的关键词。
并且,此实施方式下的任一个对象前置检测策略还用于指示:相应的各个关键词之间的逻辑关系。每个对象前置检测策略所指示的关键词和其所指示的关键词之间的逻辑关系,可用于确定相应关注对象类型下的对象的属性描述数据需命中的目标关键词。例如,假设关注对象类型A对应的对象前置检测策略指示了“最佳”和“最优秀”两个关键词,若这两个关键词之间的逻辑关系是或逻辑,则可确定关注对象类型A下的对象的属性描述数据需命中的目标关键词包括:“最佳”和“最优秀”;若这两个关键词之间的逻辑关系是与逻辑且前后两个关键词之间不超过1个字,则可确定关注对象类型A下的对象的属性描述数据需命中的目标关键词包括:“最佳”,以及位于“最佳”之后且与“最佳”间隔1个字的“最优秀”,以此类推。由此可见,通过配置规则来设置对象前置检测策略,可在关键词组合、属性描述文本的匹配和数据检出等层面,带来更多的配置灵活性和丰富性,从而有效提升初步识别的准确性和召回率;此处提及的准确率和召回率是一种评估分类效果的指标,指标值(或分数)越高越好。
S202,根据N个对象前置检测策略所指示的各个关键词,分别采用各个初始对象的属性描述数据,对N个对象前置检测策略进行策略命中检测。
在一种实施方式中,如果对象前置检测策略是由一个或多个关键词构成的词集;那么,步骤S202的具体实施方式可以是:针对任一初始对象的属性描述数据,遍历N个对象前置检测策略;检测该任一初始对象的属性描述数据中是否包括当前遍历的当前对象前置检测策略所指示的关键词,若包括,则确定该任一初始对象的属性描述数据命中了当前对象前置检测策略,若不包括,则确定该任一初始对象的属性描述数据未命中当前对象前置检测策略。
另一种实施方式中,如果对象前置检测策略是由一条或多条构成的规则集,即任一对象前置检测策略不仅用于指示一种关注对象类型下的对象的属性描述数据需关联的一个或多个关键词,还用于指示相应的各个关键词之间的逻辑关系;那么,步骤S202的具体实施方式可以是:针对任一初始对象的属性描述数据,遍历N个对象前置检测策略,确定当前遍历的当前对象前置检测策略;根据当前对象前置检测策略中的各个关键词以及逻辑关系,确定任一初始对象的属性描述数据需命中的目标关键词,并在任一初始对象的属性描述数据中查找目标关键词;若查找到目标关键词,则确定任一初始对象的属性描述数据命中当前对象前置检测策略;若未查找到目标关键词,则继续遍历N个对象前置检测策略,直至N个对象前置检测策略均被遍历。
进一步的,若当前对象前置检测策略中的各规则对不同的属性描述文本有所区分,即当前对象前置检测策略是由分别针对每个属性描述文本所配置的规则构成的,则计算机设备在根据当前对象前置检测策略中的各个关键词以及逻辑关系,确定任一初始对象的属性描述数据需命中的目标关键词时,可以以单个属性描述文本为单位,分别确定任一初始对象的属性描述数据中的各条属性描述文本需命中的目标关键词;那么相应的,在任一初始对象的属性描述数据中查找目标关键词时,计算机设备也可在任一初始对象的属性描述数据中的每个属性描述文本中分别查找其所需命中的目标关键词。
例如, 当前对象前置检测策略包括:针对某关注对象类型的对象的属性描述文本a配置的规则a, 以及和针对该对象的属性描述文本b配置的规则b;那么,计算机设备可分别基于规则a中的关键词和关键词之间的逻辑关系,确定任一初始对象的属性描述文本a所需命中的目标关键词a,基于规则b中的关键词和关键词之间的逻辑关系,确定任一初始对象的属性描述文本b所需命中的目标关键词b,从而在任一初始对象的属性描述文本a中查找目标关键词a,在任一初始对象的属性描述文本b所需命中的目标关键词b,以确定计算机设备是否命中当前对象前置检测策略。
S203,从多个初始对象中, 筛选出命中了至少一个对象前置检测策略的属性描述数据所对应的初始对象,作为基准对象识别模型的样本对象。
S204,基于各样本对象的属性描述数据所命中的对象前置检测策略所对应的关注对象类型,对各样本对象的属性描述数据进行基于对象类型的数据聚类处理,得到多个数据集。
其中,一个数据集对应一个关注对象类型;并且,任一数据集包括:命中了相应关注对象类型对应的对象前置检测策略的各个样本对象的属性描述数据。举例说明:设通过步骤S203筛选出了10个样本对象,且各样本对象的属性描述数据所命中的对象前置检测策略的分布情况可参见下述表2所示:
表2
那么,基于上述10个样本对象中的各样本对象的属性描述数据所命中的对象前置检测策略所对应的关注对象类型,对上述10个样本对象的属性描述数据进行基于对象类型的数据聚类处理,便可得到下述表3所示的3个数据集:
表3
基于上述步骤S201-S204的描述可知,本申请实施例通过预先针对每个关注对象类型的识别子任务,分别设置相应的对象前置检测策略,可以完成每个关注对象类型对应的属性描述数据的初筛,这样可以缩小用于训练基准对象识别模型的属性描述数据的检出范围,以便于后续基准对象识别模型的学习。
S205,分别采用每个数据集对基准对象识别模型进行模型训练,得到多个关注对象类型下的目标对象识别模型;一个目标对象识别模型用于根据输入的任一对象的属性描述数据,预测任一对象属于相应的关注对象类型的概率。
在本申请实施例中,基准对象识别模型可包括:每个属性维度对应的特征提取网络、特征联合层和前向网络;那么相应的,基准对象识别模型的训练原理大致如下:通过其各个特征提取网络进行独立特征提取后,通过特征联合层和前向网络基于各特征提取网络的输出结果进行类型的联合预测和梯度回传训练。进一步的,各个特征提取网络的主体结构可以基于CNN模型实现,也可以基于LSTM(Long Short-Term Memory,长短期记忆)、GRU(Gate Recurrent Unit,一种循环神经网络)或者BERT(Bidirectional EncoderRepresentation from Transformers,预训练的语言表征模型)等模型实现,对此不作限定。下面以各个特征提取网络均可以是将CNN模型作为基础结构来构造得到的为例,对各个特征提取网络的网络结构作示例性说明。
例如,每个特征提取网络可由一个CNN模型构成,该CNN模型通过执行卷积处理来实现特征的提取。又如,考虑到CNN模型通过卷积处理所得到的特征的维度可能较高,那么为便于后续处理,可对CNN模型所得到的特征进行降维处理。在此情况下,每个特征提取网络可由一个CNN模型和一个池化层构成;其中,池化层通过对CNN模型输出的特征进行降采样来实现特征的降维处理。以基准对象识别模型的输入为商品的属性描述数据为例,此情况下的基准对象识别模型的结构示意图可示例性参见图3a所示。又如,为了从各属性描述文本中提取出更强的文本结构特征表达,本申请实施例可采用基于字嵌入和词嵌入的文本底层特征表示法,来实现各属性描述文本的特征提取。在此情况下,每个特征提取网络可包括两个CNN模型和一个池化层;其中,两个CNN模型的输入分别是同一个属性描述文本的字向量和词向量。此情况下的每个特征提取网络可在字和词两个特征尺度上捕捉全量中文汉字和词语信息、避免对象的描述文本(如商品文案)用词不规范而导致的信息丢失的问题,这种多尺度多维度的设计契合任务特性,从而可以获得更好的识别效果。
以基准对象识别模型的输入为商品的属性描述数据为例,基准对象识别模型的结构示意图可示例性参见图3b所示。需要说明的是,此处提及的字向量和词向量均可以是一种Embedding向量,Embedding是一种对词条或文本的稠密向量表示;在具体实现中,需输入至任一特征提取网络的属性描述文本的字向量和词向量,可以采用字词向量模型对该属性描述文本进行向量表示得到;而字词模型可采用字词向量训练方式在互联网数据上训练获得,这种方式获得的字词向量对任务具有更好的适配性。
在步骤S205的具体实现之前,针对任一数据集,需先根据任一数据集对应的关注对象类型在基准对象识别模型中设置至少两个类型标签,且该至少两个类型标签中至少包括用于指示该关注对象类型的类型标签。然后,再通过步骤S205采用任一数据集对设置了类型标签后的基准对象识别模型进行模型训练,以得到相应关注对象类型下的目标对象识别模型;具体的,此步骤可包括但不限于以下几种实施方式:
在一种实施方式中,可获取该任一数据集所涉及的各个样本对象的类型标注标签,从而采用该任一数据集中的各个样本对象的属性描述数据和相应的类型标注标签,对基准对象识别模型进行有监督模型训练,得到该任一数据集对应的关注对象类型下的目标对象识别模型。具体的,可调用基准对象识别模型根据任一数据集中的各个样本对象的属性描述数据,分别对各个样本对象进行类型预测,得到各个样本对象的类型预测结果;任一样本对象的类型预测结果可包括:任一样本对象属于基准对象识别模型中的各个类型标签所指示的对象类型的预测概率。然后,可将每个样本对象的类型预测结果中最大预测概率对应的类型标签,作为每个样本对象的类型预测标签;并基于各个样本对象的类型预测标签和相应的类型标注标签之间的差异,计算基准对象识别模型通过该任一数据集产生的损失值,从而按照减小该损失值的方向优化基准对象识别模型的模型参数,以得到相应的目标对象识别模型。
其中,基准对象识别模型根据任一数据集中的任一样本对象的属性描述数据,对该任一样本对象进行类型预测,得到任一样本对象的类型预测标签的过程可包括:先调用基准对象识别模型中的各个特征提取网络,分别对任一样本对象的属性描述数据中处于相应属性维度下的属性描述文本进行独立的特征提取,得到任一样本对象的各属性描述文本的文本特征;调用特征联合层按照注意力机制,对任一样本对象的各属性描述文本的文本特征进行特征联合处理,得到任一样本对象的联合特征;调用前向网络根据任一样本对象的联合特征,对任一样本对象进行类型预测,得到任一样本对象的类型预测结果。
在另一种实施方式中,可基于任一数据集中的属性描述数据,构建Q个有标签数据以及P个无标签数据对,Q和P均为正整数;一个有标签数据包括:一个有标注样本对象的类型标注标签以及相应的属性描述数据;一个无标签数据对包括:一个无标注样本对象的属性描述数据,以及对属性描述数据进行增广处理得到的增广数据。然后,采用Q个有标签数据以及P个无标签数据对,对基准对象识别模型进行半监督模型训练,得到该任一数据集对应的关注对象类型下的目标对象识别模型。或者,先采用Q个有标签数据对基准对象识别模型进行有监督模型训练,得到初始对象识别模型;然后,采用Q个有标签数据以及P个无标签数据对,对初始对象识别模型进行半监督模型训练,得到该任一数据集对应的关注对象类型下的目标对象识别模型。其中,此处所提及的半监督模型训练的具体训练方式可参见后续图4的相关描述,在此不再赘述。
本申请实施例通过引入基准对象识别模型,并对基准对象识别模型进行模型训练来得到目标对象识别模型,从而通过目标对象识别模型来实现对象识别任务,这样可提升对象识别的效率和准确性。并且在模型训练的过程中,通过设置N个对象前置检测策略,一个对象前置检测策略用于指示一种关注对象类型下的对象的属性描述数据需关联的一个或多个关键词,使得在获取到对基准对象识别模型进行训练的多个初始对象的属性描述数据后,可先根据N个对象前置检测策略所指示的关键词,从多个初始对象的属性描述数据中筛选出与每种关注对象类型相关联的属性描述数据作为基准对象识别模型的样本数据,这样可保证样本数据的准确性,从而提升后续的模型训练效果,还可避免基准对象识别模型因学习一些与关注对象类型无关的属性描述数据,而造成的资源浪费和训练效率低下的问题。进一步的,通过基于各样本对象的属性描述数据所命中的对象前置检测策略所对应的关注对象类型,将各样本对象的属性描述数据聚类成多个数据集,并分别采用每个数据集针对性地对基准对象识别模型进行模型训练;这样可使得基准对象识别模型每次可统一专注地通过学习单个关注对象类型对应的数据集中的属性描述数据,来优化自身的模型参数,这样可进一步提升模型训练效果,使得训练得到的单个目标对象识别模型对相应关注对象类型下的对象具有较强的识别能力,这样可进一步提升对象识别的准确性。
基于上述图2所示的方法实施例的相关描述,下面结合图4所示的流程图对上述图2中的步骤S205的一种实施方式作进一步阐述;应理解的是,在具体实现中,需先根据任一数据集对应的关注对象类型在基准对象识别模型中设置至少两个类型标签,且该至少两个类型标签中至少包括用于指示该关注对象类型的类型标签,然后再执行图4所示的流程。具体的,该步骤S205可包括以下步骤S2051-S2054:
S2051,基于任一数据集中的属性描述数据,构建Q个有标签数据以及P个无标签数据对,Q和P均为正整数。
其中,一个有标签数据包括:一个有标注样本对象的类型标注标签以及相应的属性描述数据;一个无标签数据对包括:一个无标注样本对象的属性描述数据,以及对属性描述数据进行增广处理得到的增广数据。
在一种实施方式中,计算机设备可从任一数据集中随机选取Q个样本对象的属性描述数据以及P个样本对象的属性描述数据。其次,可获取Q个样本对象的类型标注标签,将该Q个样本对象作为Q个有标注样本对象,并采用Q个有标注样本对象的类型标注标签和相应的属性描述数据,构建Q个有标签数据。以及,将P个样本对象均作为无标注样本对象,对每个无标注样本对象的属性描述数据进行数据扰动的增广处理,得到每个无标注样本对象的增广数据;并采用每个无标注样本对象的属性描述数据和相应的增广数据,构建P个无标签数据对。
另一种实施方式中,考虑到任一数据集是通过利用N个对象前置检测策略对多个初始对象的属性描述数据进行初步筛选后得到的,而可能存在某些初始对象并非是关注对象,但其属性描述数据中恰好包括了对象前置检测策略中的某些关键词的情况,此情况下会导致这些初始对象的属性描述数据被误划分至任一数据集中,例如任一数据集对应的关注对象类型为野生动物类型,而某个初始对象的属性描述数据中包括“鳄鱼牌皮鞋”这一属性描述文本,那么由于该属性描述文本中包括了对象前置检测策略1所涉及“鳄鱼”这一关键词,因此该初始对象的属性描述数据便会被划分至任一数据集中。由此可见,任一数据集中可能会存在与相应的关注对象类型无关的属性描述数据,对于这些无关的属性描述数据,可对其对应的样本对象进行少量的类型标注,如标记1000个,存储到对应的数据库中,用于后续模型训练使用。另外,还考虑到在类型的标注过程中,会有部分样本对象的属性描述数据高度类似,对这些样本对象重复标记,并不能给模型训练带来太多新的信息,因此高度相似的样本对象的重复标记是冗余操作,会降低标注的效率。基于此,本申请实施例在构建Q个有标签数据以及P个无标签数据对时,提出了一种基于软去重的标注策略,来实现对不重复的样本对象进行类型标注,从而提升标注的效率,如图5a所示。其中,所谓的软去重可理解成是基于相似度的去重处理。相应的,步骤S2051的具体实施方式可以包括如下步骤s11-s17:
s11,计算机设备可从任一数据集中选取多个样本对象的属性描述数据构建目标训练集。
具体的,可采用任一数据集中的所有样本对象的属性描述数据构建目标训练集。或者,从任一数据集中随机选取多个样本对象的属性描述数据构建目标训练集。又或者,按照预设比例将任一数据集划分成三个子集,将三个子集中的第一个子集作为目标训练集,即采用第一个子集种的各样本对象的属性描述数据构建目标训练集;此情况下,可将第二个子集作为后续模型验证所需的验证集,将第三个子集作为后续模型测试所需的测试集。其中,预设比例可以根据实际需求设置,例如预设比例可以设置为二二六,即可将任一数据集均分为10份,前2份数据构成第一个子集,第3份数据和第4份数据构成第二个子集,后6份数据构成第三个子集。
s12,计算机设备可根据目标训练集中的各样本对象的属性描述数据,对目标训练集中的多个样本对象进行软去重处理,得到Q个样本对象。
首先,计算机设备可根据目标训练集中的各样本对象的属性描述数据,确定各样本对象的对象特征。具体的,由于任一属性描述数据包括多个属性描述文本,而这些属性描述文本中除了存在可唯一描述相应对象的对象属性的属性描述文本外,可能还存在无法唯一描述相应对象的对象属性的属性描述文本;例如,针对商品而言,其属性描述数据中的商品名称和商品文案,通常可唯一描述商品的相关对象属性,因此商品名称和商品文案可作为唯一描述商品的属性描述文本;而商品大类和商品店铺名称通常会对应多个商品,商品大类和商品店铺名称属于无法唯一描述商品的属性描述文本。由于基于具有唯一性的属性描述文本来确定相应对象的对象特征,不仅可提升对象特征的准确性,还可有效减少处理资源;因此,计算机设备针对目标训练集中的任一样本对象,可将任一样本对象的属性描述数据中用于唯一描述任一样本对象的对象属性的属性描述文本,作为该任一样本对象的目标属性描述文本。接着,对目标训练集中的各样本对象的目标属性描述文本进行分词处理,得到各样本对象对应的各文本词;并分别采用各样本对象对应的文本词,构建各样本对象的词频矩阵。然后,计算机设备可分别对各样本对象的词频矩阵进行降维哈希运算(计算低维的哈希值的运算),得到各样本对象的降维哈希值;并将各样本对象的降维哈希值,确定为各样本对象的对象特征。
其中,计算机设备可采用Minhash(最小哈希)函数对各样本对象的词频矩阵进行哈希运算,得到各样本对象的降维哈希值;所谓的Minhash函数可理解成是一种用于计算低维的哈希值的哈希函数,其是局部敏感哈希(Locality Sensitive Hash,LSH)的一种,可用于快速估算两个特征之间的相似度,此处所提及的局部敏感哈希是一种用于处理高维向量的索引方法。当然应理解的是,在其他实施例中,计算机设备也可直接对目标训练集中的各样本对象的属性描述数据进行分词处理,得到各样本对象对应的各文本词,从而执行后续的一系列计算来得到各样本对象的对象特征。还需说明的是,上述只是示例性说明了对象特征的获取方式,并非穷举;例如在其他实施例中,计算机设备也可调用一个特征提取模型对目标训练集中的各样本对象的属性描述数据进行特征提取,得到各样本对象的对象特征。
另外,计算机设备还可构建局部敏感哈希池,该局部敏感哈希池中包括一个或多个特征桶,所谓的特征桶可理解成是用于存储对象特征的内存或数据库。在构建好局部敏感哈希池后,计算机设备可控制各样本对象的对象特征,以流式的方式依次进入局部敏感哈希池中的各特征桶。其中,此处的流式的方式可以理解成:每次控制一个样本对象的对象特征进入的方式。
然后,计算机设备确定当前欲进入局部敏感哈希池的当前样本对象的当前对象特征,并采用局部敏感哈希函数对当前对象特征进行哈希映射,根据哈希映射结果为当前对象特征在局部敏感哈希池中分配目标特征桶。接着,计算机设备可计算当前对象特征和目标特征桶中已存在的各历史对象特征之间的特征相似度,并根据当前对象特征和目标特征桶中已存在的各历史对象特征之间的特征相似度,从各历史对象特征所对应的样本对象中检测当前样本对象的相似样本对象。具体的,针对目标特征桶中的任一历史对象特征,可判断当前对象特征和该任一历史对象特征之间的特征相似度是否大于预设阈值;若大于,则确定任一历史对象特征对应的样本对象是当前样本对象的相似样本对象,若不大于,则确定任一历史对象特征对应的样本对象不是当前样本对象的相似样本对象。若检测到相似样本对象,则控制当前对象特征进入目标特征桶;若未检测到相似样本对象,则控制当前对象特征进入目标特征桶,且将当前样本对象添加至待标注对象集中。
需要说明的是,在检测到相似样本对象的情况下,计算机设备可直接认为当前样本对象无需进行类型标注。或者,考虑到可能存在当前样本对象和某历史对象特征a对应的样本对象a并不相似,但因当前样本对象的属性描述数据和该样本对象a对应的属性描述数据同时包含类似的属性描述文本,而导致当前样本对象的当前对象特征和该样本对象a的历史对象特征a之间的特征相似度大于预设阈值,从而将该样本对象a误判为当前样本对象的相似样本对象的情况,在此情况下,当前样本对象应该被进行类型标注。基于此,为了保证类型标注的准确性,计算机设备在检测到相似样本对象后,还可进一步基于编辑距离或余弦距离或欧式距离等任一种距离计算公式,根据当前样本对象的属性描述数据和相似样本对象的属性描述数据,计算当前样本对象和相似样本对象之间的对象相似度,从而基于该对象相似度进一步判断当前样本对象和该相似样本对象是否相似。若对象相似度小于相似度阈值,则可认为当前样本对象和该相似样本对不相似,此时可将当前样本对象添加至待标注对象集中,以便于后续对当前样本对象进行类型标注,若对象相似度大于或等于相似度阈值,则可认为当前样本对象和该相似样本对确实相似,此时可确定当前样本对象无需进行类型标注。也就是说,在此实施方式下,对于当前样本对象而言,若检测到了当前样本对象的相似样本对象,且相似样本对象和当前样本对象之间的对象相似度大于相似度阈值,则该当前样本对象的当前对象特征存入LSH池中;若未检测到相似样本对象,或相似样本对象和当前样本对象之间的对象相似度不大于相似度阈值,则该当前样本对象的当前对象特征不仅会存入LSH池中,该当前样本对象还会被添加至待标注对象集中。
循环迭代上述过程,直至目标训练集中的各样本对象的对象特征均进入局部敏感哈希池。在各样本对象的对象特征均进入局部敏感哈希池后,便可得到最终的待标注对象集,该待标注对象集中的样本对象即为较不相似的样本对象,其具有更大的标注价值;因此,可将待标注对象集中的样本对象,确定为对多个样本对象进行软去重处理后的Q个样本对象,以便于对待标注对象集中的各样本对象进行类型标注。
s13,计算机设备可获取Q个样本对象的类型标注标签,将Q个样本对象作为Q个有标注样本对象。
s14,采用Q个有标注样本对象的类型标注标签和相应的属性描述数据,构建Q个有标签数据。可选的,Q个有标签数据还可被缓存入数据库中。
s15,计算机设备可从多个样本对象中除Q个样本对象以外的剩余样本对象中,选取P个无标注样本对象。
在一种实施方式中,计算机设备可确定多个样本对象中除Q个样本对象以外的剩余样本对象,并直接将剩余样本对象中的各个样本对象均作为无标注样本对象;此情况下,P的取值等于剩余样本对象中的样本对象的数量。或者,计算机设备也可从剩余样本对象中随机选取P个样本对象作为P个无标注样本对象;此情况下,P的取值可小于剩余样本对象中的样本对象的数量。
另一种实施方式中,考虑到可能存在多个样本中除Q个样本对象以外的剩余样本对象中的各样本对象的类别分布不均衡的情况,而采用类别分布不均衡的样本对象的属性描述数据进行模型训练,容易导致模型的泛化性较低;基于此,为提升后续的模型训练效果,提升训练得到的模型的泛化性,本申请实施例提出了一个基于伪标签进行样本对象的类别均衡化(或称为类别平衡化)的策略,来实现P个无标注样本对象的选取。在此实施方式下,步骤s14的具体实施方式可一并参见图5b所示:
首先,采用Q个有标签数据对基准对象识别模型进行有监督模型训练,得到初始对象识别模型。具体的,可调用基准对象识别模型根据Q个有标签数据中的各个有标注样本对象的属性描述数据,分别对各个有标注样本对象进行类型预测,得到各个有标注样本对象的初始类型预测结果;任一有标注样本对象的初始类型预测结果可包括:任一有标注样本对象属于基准对象识别模型中的各个类型标签所指示的对象类型的预测概率。然后,可将每个有标注样本对象的初始类型预测结果中最大预测概率对应的类型标签,作为每个有标注样本对象的类型预测标签;并基于各个有标注样本对象的类型预测标签和相应的类型标注标签之间的差异,计算基准对象识别模型通过Q个有标签数据产生的目标损失值,从而利用该目标损失值进行梯度回传,以优化基准对象识别模型的模型参数。迭代此过程,当目标损失值无明显下降或迭代次数达到阈值时,停止训练,将此时的基准对象识别模型作为初始对象识别模型(采用M0表示)。其中,目标损失值(H
在上述公式1.1中,i代表数据下标,p
另外,还可确定多个样本对象中除Q个样本对象以外的剩余样本对象,并将剩余样本对象中的各个样本对象均作为候选样本对象。然后,可调用初始对象识别模型根据各个候选样本对象的属性描述数据,对各个候选样本对象进行类型预测,并根据预测得到的各个类型预测结果分别确定各个候选样本对象的类型伪标签。其中,任一候选样本对象的类型预测结果包括:任一候选样本对象属于初始对象识别模型中的各个类型标签所指示的对象类型的预测概率;那么,计算机设备可采用如下方式得到任一候选样本对象的类型伪标签:确定任一候选样本对象的类型预测结果中最大预测概率对应的类型标签;若确定的类型标签为用于指示任一数据集对应的关注对象类型的类型标签,则将白标签作为任一候选样本对象的类型伪标签,否则,则将黑标签作为任一候选样本对象的类型伪标签。其中,白标签用于指示任一候选样本对象属于任一数据集对应的关注对象类型,黑标签用于指示任一候选样本对象不属于任一数据集对应的关注对象类型。
举例说明:设任一数据集对应的关注对象类型为电子烟类型,且初始对象识别模型包括:用于指示电子烟类型的类型标签1,以及用于指示其他类型的类型标签2。那么,若任一候选样本对象的类型预测结果如下:类型标签1对应的预测概率为0.3,类型标签2对应的预测概率为0.7;则由于该类型预测结果中的最大预测概率为0.7,而0.7对应的类型标签不是用于指示电子烟类型的类型标签1,因此可将黑标签作为任一候选样本对象的类型伪标签。若任一候选样本对象的类型预测结果如下:类型标签1对应的预测概率为0.8,类型标签2对应的预测概率为0.2;则由于该类型预测结果中的最大预测概率为0.8,而0.8对应的类型标签是用于指示电子烟类型的类型标签1,因此可将白标签作为任一候选样本对象的类型伪标签。
在得到各个候选样本对象的类型伪标签后,可根据各个候选样本对象的类型伪标签,对各个候选样本对象进行类型均衡化处理,并根据类型均衡化处理结果从全部的候选样本对象中选取P个候选样本对象作为P个无标注样本对象,使得P个无标注样本对象中的黑白样本的数量尽量均衡;其中,白样本是指具有白标签的样本对象,黑样本是指具有黑标签的样本对象。具体的,由于任一候选样本对象的类型伪标签为黑标签或白标签,因此计算机设备在根据各个候选样本对象的类型伪标签,对各个候选样本对象进行类型均衡化处理时,可在全部候选样本对象的类型伪标签中,统计黑标签的数量和白标签的数量。从数量较小的标签对应的候选样本对象中,选取第一数量的候选样本对象,根据下采样策略(如随机选取的策略)从数量较多的标签对应的候选样本对象中,选取第二数量的候选样本对象;例如,若黑标签的数量大于白标签的数量,则可从白标签对应的候选样本对象中,选取第一数量的候选样本对象,根据下采样策略(如随机选取的策略)从黑标签对应的候选样本对象中,选取第二数量的候选样本对象。其中,第二数量大于或等于第一数量,且第二数量和第一数量之间的比值需小于预设比值(如数值2)。然后,将第一数量的候选样本对象和第二数量的候选样本对象,均作为无标注样本对象,此情况下的P值等于第一数量和第二数量的总和。
s16,对每个无标注样本对象的属性描述数据进行数据扰动的增广处理,得到每个无标注样本对象的增广数据。
在一种实施方式中,可通过回译的方式来获取增广数据,所谓的回译是指:将A语言的文本的译文B翻译成A语言的处理方式。基于此,当任一属性描述数据包括多个属性描述文本,且各个属性描述文本是采用第一语言进行表示的文本时,计算机设备在执行步骤s16时,可从第p个无标注样本对象的属性描述数据中,选取至少一个属性描述文本;其中,p∈[1,P]。然后,将每个被选取的属性描述文本,分别翻译成采用第二语言进行表示的文本,得到每个被选取的属性描述文本所对应的翻译结果。接着,将每个被选取的属性描述文本所对应的翻译结果,回译成采用第一语言进行表示的文本,得到每个被选取的属性描述文本的回译结果;从而采用每个被选取的属性描述文本的回译结果,以及第p个无标注样本对象的属性描述数据中未被选取的属性描述文本,构建第p个无标注样本对象的增广数据。
例如参见图5c所示,设第p个无标注样本对象的属性描述数据包括中文的商品名称、商品详情文案和商品图像OCR文本,则计算机设备可先从该属性描述数据中选取商品名称、商品详情文案和商品图像OCR文本等全部属性描述文本,然后调用翻译接口对商品名称、商品详情文案和商品图像OCR文本进行中英翻译,得到商品名称对应的英文、商品详情文案对应的英文以及商品图像OCR文本对应的英文,然后再将这三个英文回译成中文,得到商品名称对应的回译结果、商品详情文案对应的回译结果以及商品图像OCR文本对应的回译结果,这三个回译结果便可构成第p个无标注样本对象的增广数据。
另一种实施方式中,计算机设备可采用同义词替换的方式来获取增广数据,所谓的同义词替换是指:在文本中随机选取n个非停用词,将选取的每个非停用词分别替换为其对应的同义词的处理方式;其中,非停用词是指除停用词以外的词,停用词可包括但不限于英文字符、数字、数学字符、标点符号及使用频率特高的单汉字等。基于此,计算机设备在执行步骤s16时,可从第p个无标注样本对象的属性描述数据中选取至少一个属性描述文本,可将被选取的每个属性描述文本中的一个或多个非停用词,分别替换成对应的同义词,得到至少一个替换后的属性描述文本,采用至少一个替换后的属性描述文本和未被选取的属性描述文本,构建第p个无标注样本对象的增广数据。
另一种实施方式中,计算机设备还可采用随机插入的方式来获取增广数据,所谓的随机插入是指:在文本中任意找一个非停用词,随机选一个它的同义词,插入该文本中的任意位置的处理方式。在此实施方式下,步骤s16的具体实施方式与同义词替换所对应的具体实施方式类似,在此不再赘述;另外,针对任一文本,随机插入这一动作可执行一次或重复多次,对此不作限定。
另一种实施方式中,计算机设备还可采用随机交换的方式来获取增广数据,所谓的随机交换是指:在文本中任意选取两个词进行位置交换的处理方式。在此实施方式下,步骤s16的具体实施方式与同义词替换所对应的具体实施方式类似,在此不再赘述;另外,针对任一文本,随机交换这一动作可执行一次或重复多次,对此不作限定。
需要说明的是,上述只是示例性地列举了几种增广方式,并非穷举。例如,计算机设备还可采用随机删除的方式来获取增广数据,所谓的随机删除是指:在文本中随机删除一个或多个词的处理方式。
s17,采用每个无标注样本对象的属性描述数据和相应的增广数据,构建P个无标签数据对。
S2052,调用基准对象识别模型根据每个有标签数据中的属性描述数据,对相应的有标注样本对象进行类型预测,得到每个有标注样本对象的目标类型预测结果。
由前述可知,任一属性描述数据包括多个属性维度下的属性描述文本,基准对象识别模型包括每个属性维度对应的特征提取网络、特征联合层以及前向网络;那么相应的,步骤S2052的具体实施方式可以是:针对任一有标注样本对象,调用基准对象识别模型中的每个特征提取网络,分别对相应有标签数据中的属性描述数据中的相应属性维度下的属性描述文本进行独立的特征提取,得到各属性描述文本的文本特征。然后,调用特征联合层按照注意力机制,对各属性描述文本的文本特征进行特征联合处理,得到联合特征;接着调用前向网络根据所述联合特征,对任一有标注样本对象进行类型预测,得到任一有标注样本对象的目标类型预测结果。任一有标注样本对象的目标类型预测结果中包括:任一有标注样本对象属于基准对象识别模型中的各个类型标签所指示的对象类型的预测概率。
S2053,调用基准对象识别模型按照类型一致性的预测目标,根据每个无标签数据对中的属性描述数据和相应的增广数据,分别对相应的无标注样本对象进行类型预测,得到每个无标注样本对象的两个类型预测结果。
其中,类型一致性的预测目标是指:基于同一个无标签数据对中的属性描述数据所预测得到的类型预测结果,和基于相应的增广数据所预测得到的类型预测结果应该具有一致的概率分布。类型一致性的预测目标相当于给模型的泛化能力提出了目标,并以大量的无标签数据对来指导模型朝着这个目标前进。在本申请实施例中,可将MSE函数(一种计算两个数据之间对应点误差的平方和的均值的函数)设定为无标签数据对所对应的一致性预测损失函数,使得训练过程以降低该一致性损失函数的值为目标来进行模型参数的优化。
需要说明的是,调用基础对象识别模型根据任一无标签数据对中的属性描述数据进行类型预测的方式,以及根据任一无标签数据对中的增广数据进行类型预测的方式,均与前述步骤S2052的具体实施方式类似,在此不再赘述。
S2054,根据每个有标注样本对象的目标类型预测结果和相应的类型标注标签,以及每个无标注样本对象的两个类型预测结果之间的差异,优化基准对象识别模型的模型参数,以得到任一数据集所对应的关注对象类型下的目标对象识别模型。在具体实现中,步骤S2054可包括以下步骤s21-s24:
s21,计算机设备可根据每个有标注样本对象的目标类型预测结果和相应的类型标注标签,确定基准对象识别模型的有标签损失值。
由前述可知,任一有标注样本对象的目标类型预测结果中包括:任一有标注样本对象属于基准对象识别模型中的各个类型标签所指示的对象类型的预测概率。基于此,在一种实施方式中,计算机设备可根据Q个目标类型预测结果中的各目标类型预测结果中最大预测概率对应的类型标签和相应的有标注样本对象的类型标注标签之间的差异,确定基准对象识别模型的有标签损失值,具体的计算方式可参见前述公式1.1所示,在此不再赘述。
另一种实施方式中,考虑到在采用有标签数据和无标签数据对联合训练的过程中,由于有标签数据较少,模型可能很快对有标签数据过拟合;基于此,本申请实施例为防止模型在训练过程中对有标签数据的快速过拟合,提出了信号缓释的策略。此处信号缓释的实现基本原理是在训练过程中计算有标签损失值时,不计对有标注对象预测过于自信的有标签数据,即不计置信度过高(预测概率过高)的有标注样本的有标签数据,这部分有标签数据的误差无法反向传递,从而避免模型进一步过拟合到这些有标签数据。具体而言,就是在训练的t时刻,设置一个第一阈值ηt,且1/K≤ηt≤1,其中,K是类别数。当基于某个有标签数据计算的最大置信度(即最大预测概率)pθ(y*|x)大于第一阈值ηt,就将该有标签数据移除出计算有标签损失值的过程,而只根据当前批次中的其余有标签数据来计算有标签损失值。
基于此,步骤s21的具体实施方式可以是:遍历预测得到的每个有标注样本对象的目标类型预测结果,若当前遍历的当前目标类型预测结果中的最大预测概率大于第一阈值,则将当前目标类型预测结果确定为缓释信号;在预测得到的Q个目标类型预测结果均被遍历后,采用确定出的各个缓释信号对Q个目标类型预测结果进行信号缓释处理,以将各个缓释信号从所述Q个目标类型预测结果中移除;然后,根据剩余的各目标类型预测结果中最大预测概率对应的类型标签和相应的有标注样本对象的类型标注标签之间的差异,确定基准对象识别模型的有标签损失值。
s22,计算机设备根据每个无标注样本对象的两个类型预测结果之间的差异,确定基准对象识别模型的无标签损失值。
本申请实施例对步骤s21和步骤22的执行顺序不作限定,可先执行步骤s21,再执行步骤s22;也可先执行步骤s22,再执行步骤s21;还可同步执行步骤s21和步骤s22。
在一种实施方式中,计算机设备可采用一致性损失函数,根据每个无标注样本对象的两个类型预测结果进行损失值运算,得到一致性预测损失值(采用U
在上述公式1.2中,i代表数据下标,p
在得到一致性预测损失值后,计算机设备直接将一致性损失值确定为基准对象识别模型的无标签损失值。或者,计算机设备还可采用信息熵损失函数,根据每个无标注样本对象的两个类型预测结果进行损失值运算,得到信息熵损失值,对一致性损失值和信息熵损失值进行整合,得到基准对象识别模型的无标签损失值。其中,一个类型预测结果对应一个概率分布,信息熵损失函数可以例如是KL散度函数,KL散度等价于两个概率分布的信息熵(Shannon entropy)的差值。
另一种实施方式中,考虑到当有标签数据很少时,模型对样本的认知不足,这样可能会使得无标签数据的预测分布比较平坦,从而导致后续在计算整体的模型损失值时,使得模型损失值的主要贡献部分将来自于有标签数据,这与利用无标签数据进行模型训练的思路是相悖的。因此,为了提升模型训练效果,本申请实施例提出了信号锐化的策略,来降低无标签数据的预测分布的平坦性,从而利用比较丰富的预测分布来计算无标签损失值,这样比较有利于模型训练。
基于此,步骤s22的具体实施方式可以是:将预测得到的每个无标注样本对象的两个类型预测结果,分别作为每个无标注样本对象的两个类型信号;然后,按照信号锐化策略,对每个无标注样本对象的两个类型信号进行信号锐化处理,得到信号锐化结果;并根据信号锐化结果,和至少一个无标签样本对象的两个类型信号之间的差异,确定基准对象识别模型的无标签损失值。由前述可知,任一无标注样本对象的一个类型信号中包括:任一无标注样本对象属于基准对象识别模型中的各个类型标签所指示的对象类型的预测概率;基于此,信号锐化策略可包括以下一种或多种:①基于预测概率的掩码处理(或称为基于置信度的掩码处理),②最小化基于增广数据所得到的类型信号的信息熵,等等。其中,基于预测概率的掩码处理是指:对预测效果不好的无标注样本对象(即预测出的最大预测概率小于第二阈值的无标注样本对象),不纳入无标签损失值的计算;最小化基于增广数据对应的所得到的类型信号的信息熵是指:在计算无标签损失值时,加入基于增广数据所得到的类型信号的信息熵的计算,并使得增广数据能够用于一个较低的信息熵。
其中,当信号锐化策略包括:基于预测概率的掩码处理时,计算机设备在按照信号锐化策略,对每个无标注样本对象的两个类型信号进行信号锐化处理,得到信号锐化结果时,可以遍历P个无标注样本对象,若当前遍历的当前无标注样本对象的两个类型信号中,存在至少一个类型信号中的最大预测概率小于第二阈值,则对当前无标注样本对象以及相应的两个类型信号进行掩码处理;在P个无标注样本对象均被遍历后,将已被进行掩码处理的各个无标注样本对象添加至信号锐化结果中。
相应的,在此实施方式下,根据信号锐化结果,和至少一个无标签样本对象的两个类型信号之间的差异,确定基准对象识别模型的无标签损失值的方式可以包括:将P个无标注样本对象中未位于信号锐化结果中的无标注样本对象,均作为有效的无标注样本对象;根据各个有效的无标签样本对象的两个类型信号之间的差异,分别计算各个有效的无标签样本对象对应的类型一致性损失值;基于各个有效的无标签样本对象对应的类型一致性损失值,确定基准对象识别模型的无标签损失值。
其中,当信号锐化策略包括:基于预测概率的掩码处理时,计算机设备在按照信号锐化策略,对每个无标注样本对象的两个类型信号进行信号锐化处理,得到信号锐化结果时,可以针对任一无标注样本对象,从任一无标注样本对象的两个类型信号中,确定出基于任一无标注样本对象的增广数据所预测得到的类型信号;根据确定出的类型信号中的各个类型标签以及相应的预测概率,计算任一无标注样本对象的增广数据的信息熵;将计算得到的任一无标注样本对象的增广数据的信息熵,添加至信号锐化结果中。
相应的,在此实施方式下,根据信号锐化结果,和至少一个无标签样本对象的两个类型信号之间的差异,确定基准对象识别模型的无标签损失值的方式可以包括:根据各个无标签样本对象的两个类型信号之间的差异,分别计算各个无标签样本对象对应的类型一致性损失值;对信号锐化结果中的信息熵以及各个无标签样本对象对应的类型一致性损失值进行求和运算,得到基准对象识别模型的无标签损失值。
需要说明的是,在实际应用中,上述所提及的基于预测概率的掩码处理和最小化基于增广数据所得到的类型信号的信息熵这一两个策略可结合使用;也就是说,信号锐化策略可同时包括:基于预测概率的掩码处理,和最小化基于增广数据所得到的类型信号的信息熵。在此情况下,计算机设备在按照信号锐化策略,对每个无标注样本对象的两个类型信号进行信号锐化处理,得到信号锐化结果时,可以先遍历P个无标注样本对象,若当前遍历的当前无标注样本对象的两个类型信号中,存在至少一个类型信号中的最大预测概率小于第二阈值,则对当前无标注样本对象以及相应的两个类型信号进行掩码处理;在P个无标注样本对象均被遍历后,将已被进行掩码处理的各个无标注样本对象添加至信号锐化结果中。并且,计算每个未被进行掩码处理的无标注对象的增广数据的信息熵;将计算得到的各个信息熵添加至信号锐化结果中;任一未被进行掩码处理的无标注对象的增广数据的信息熵计算方式,可参见上述提及的任一无标注样本对象的增广数据的信息熵计算方式,在此不再赘述。
相应的,在此实施方式下,根据信号锐化结果,和至少一个无标签样本对象的两个类型信号之间的差异,确定基准对象识别模型的无标签损失值的方式可以包括:将P个无标注样本对象中未位于信号锐化结果中的无标注样本对象,均作为有效的无标注样本对象;根据各个有效的无标签样本对象的两个类型信号之间的差异,分别计算各个有效的无标签样本对象对应的类型一致性损失值;对各个有效的无标签样本对象对应的类型一致性损失值和信号锐化结果中的信息熵进行求和运算,得到基准对象识别模型的无标签损失值。
s23,计算机设备可对有标签损失值和无标签损失值进行联合损失值运算,得到基准对象识别模型的模型损失值。
在具体实现中,计算机设备可确定有标签损失值的第一权重,以及无标签损失值的第二权重;然后,可根据第一权重和第二权重,对有标签损失值和无标签损失值进行加权求和,得到模型损失值。其中,本申请实施例对第一权重和第二权重的大小关系不作限定;例如,第一权重可大于第二权重。设第一权重采用λ表示,第二权重设置为1;且设有标签损失值采用H表示,无标签损失值采用U表示,模型损失值采用L(y)表示,则模型损失值的计算公式可参见下述公式1.3所示:
L(y)=U+λH 式1.3
s24,计算机设备可根据模型损失值优化所述基准对象识别模型的模型参数。
在一种实施方式中,计算机设备可根据模型损失值对基准对象识别模型的梯度进行计算,得到基准对象识别模型的回传梯度,并确定基准对象识别模型的历史学习率,该历史学习率是指本次优化基准对象识别模型之前,基准对象识别模型最近使用的学习率;然后,可根据该回传梯度和历史学习率,优化基准对象识别模型的模型参数。
另一种实施方式中,考虑到较少的有标签数据可能会使得模型较早陷入局部极值点,这样不利于模型训练;因此,为了提升模型训练效果,本申请实施例提出了基于学习率衰减策略的模型参数更新方法,如图5d所示。具体的,计算机设备可根据模型损失值对基准对象识别模型的梯度进行计算,得到基准对象识别模型的回传梯度;以及确定基准对象识别模型的历史学习率,并对历史学习率进行规律性地衰减处理,得到目标学习率;然后,根据回传梯度和目标学习率,优化基准对象识别模型的模型参数。其中,计算机设备可采用如下任一种衰减方法对历史学习率进行规律性地衰减处理:CDRLR(Cosine Decay RestartsLearning Rate,余弦循环衰减学习率)、Cyclic(周期性)学习率衰减、或者多项式学习率衰减;参见图5e所示,Cosine循环衰减学习率具有周期性循环的特点,使得学习率进行有规律变化,而学习率的有规律变化有助于模型跳出局部极值点,寻找更优极值点。
需要说明的是,在通过上述步骤优化了基准对象识别模型后,还可对利用预先设定好的测试集,对优化后的基准对象识别模型进行模型效果的测试。如果测试效果超过设定的效果阈值,则可确定测试成功,此时可自动将优化后的基准对象识别模型作为任一数据集对应的关注对象类型下的目标对象识别模型,并对该目标对象识别模型进行上线操作;如果测试不成功,则可由运维人员根据实际情况,判定应该增加训练样本对优化后的基准对象识别模型作进一步优化,还是调整效果阈值,直至测试成功。
另外,上述图4所示的方法实施例中,步骤S2052-S2054均是以基准对象识别模型为例进行说明的;在实际应用中,若在通过步骤S2051确定P个无标注对象时,已对基准对象识别模型进行了有监督模型训练,得到初始对象识别模型,则计算机设备也可以基于初始对象识别模型来执行步骤S2052-S2054。也就是说,此情况下的计算机设备在执行步骤S2052和S2053时,均是调用初始对象识别模型来进行类型预测的,且在执行步骤S2054时,是根据每个有标注样本对象的目标类型预测结果和相应的类型标注标签,以及每个无标注样本对象的两个类型预测结果之间的差异,优化初始对象识别模型的模型参数,以得到任一数据集所对应的关注对象类型下的目标对象识别模型的。
基于上述描述,本申请实施例可具有如下有益效果:①通过对纷繁复杂的样本对象进行软去重,可以准确去除掉高度相似的样本对象,从而保证对软去重处理后的样本对象进行类型标注,这样可减少打标签过程中的冗余工作,有效提高了打标签效率。②通过设计一套半监督学习框架,可在保证模型训练效果的同时,大幅度地降低了模型对有标签数据的依赖,使得在使用少量有标签数据的情况下,也可训练得到模型性能较优的目标对象识别模型。③通过信号锐化、信号缓释以及学习率衰减等各种处理,可在进一步提升模型训练效果的同时,大幅减少模型对有标签数据的依赖。
在另一个实施例中,本申请还提出了一种基于策略和模型的对象识别方法;本申请实施例中,仍以计算机设备执行该基于策略和模型的对象识别方法为例进行说明。请参见图6,该基于策略和模型的对象识别方法可以包括以下步骤S601-S605:
S601,获取待识别的目标对象的目标属性描述数据以及N个对象前置检测策略,N为正整数;一个对象前置检测策略用于指示:一种关注对象类型下的对象的属性描述数据需关联的一个或多个关键词。
S602,根据N个对象前置检测策略所指示的各个关键词,采用目标属性描述数据对N个对象前置检测策略进行策略命中检测。
由于根据N个对象前置检测策略所指示的各个关键词,采用目标属性描述数据对N个对象前置检测策略进行策略命中检测的原理,与根据N个对象前置检测策略所指示的各个关键词,分别采用各个初始对象的属性描述数据,对N个对象前置检测策略进行策略命中检测的原理相同,因此步骤S602的具体实施方式可参见前述申请实施例中的步骤S202的相关描述,在此不再赘述。
S603,若目标属性描述数据命中至少一个对象前置检测策略,则确定用于对目标对象进行类型预测的目标对象识别模型。
在具体实现中,若目标属性描述数据命中至少一个对象前置检测策略,则可将被命中的对象前置检测策略对应的关注对象类型下的目标对象识别模型,确定为用于对目标对象进行类型预测的目标对象识别模型。应理解的是,任一关注对象类型下的目标对象识别模型可采用前述图2所示的方法实施例得到。
S604,调用确定出的目标对象识别模型根据目标属性描述数据,对目标对象进行类型预测,得到目标对象的类型预测结果。
在具体实现中,目标属性描述数据可包括多个属性维度下的目标属性描述文本,确定出的目标对象识别模型包括每个属性维度对应的特征提取网络、特征联合层以及前向网络。相应的,步骤S604的具体实施方式可以如下:调用确定出的目标对象识别模型中的每个特征提取网络,分别对目标属性描述数据中的相应属性维度下的目标属性描述文本进行独立的特征提取,得到各目标属性描述文本的文本特征;调用特征联合层按照注意力机制,对各目标属性描述文本的文本特征进行特征联合处理,得到联合特征;调用前向网络根据所述联合特征,对目标对象进行类型预测,得到目标对象的类型预测结果。其中,目标对象的类型预测结果包括:目标对象属于确定出的目标对象识别模型中的各个类型标签所指示的对象类型的预测概率。
以目标对象为目标商品为例,在执行步骤S604时,计算机设备可调用确定出的目标对象识别模型中的每个特征提取网络,分别对目标商品的目标属性描述数据中的商品名称、商品文案(如商品详情文案+商品图像OCR文本)、商品店铺名称和商品大类进行独立的特征提取,从而调用特征联合层按照注意力机制,对每个特征提取网络输出的文本特征进行特征联合处理,进而调用前向网络根据特征联合层输出的联合特征,对目标商品进行类型预测,得到目标商品的类型预测结果。
S605,根据目标对象的类型预测结果判定目标对象是否为关注对象。
在具体实现中,从目标对象的类型预测结果中,确定出最大预测概率。若确定出的最大预测概率对应的类型标签是用于指示关注对象类型的类型标签,则确定目标对象是关注对象,且目标对象所属的关注对象类型为最大预测概率对应的类型标签所指示的关注对象类型。若确定出的最大预测概率对应的类型标签是用于指示其他对象类型的类型标签,则确定目标对象不是关注对象。
可选的,为了模型能够进行长期优化,本申请实施例还提出了一种基于反馈数据自动学习优化的模型提升机制,以使得目标对象识别模型具有自定义优化的能力,使得目标对象识别模型能够自行进行长期的自适应提升。
基于此,计算机设备还可获取针对确定出的目标对象识别模型的多个反馈结果,一个反馈结果用于指示:确定出的目标对象识别模型基于一个对象的属性描述数据所预测得到的类型预测结果不准确。然后,计算机设备可对多个反馈结果中的各个反馈结果进行可信度检测,以从多个反馈结果中筛选出可信的反馈结果。具体的,计算机设备针对任一反馈结果,可调用确定出的目标对象识别模型根据任一反馈结果对应的属性描述数据,对相应对象进行类型预测,得到相应对象的类型预测结果。若相应对象的类型预测结果中的最大预测概率小于第三阈值,则确定该相应对象为一个误判对象,此时可将任一反馈结果标记为可信的反馈结果;若相应对象的类型预测结果中的最大预测概率大于或等于第三阈值,则将任一反馈结果对应的属性描述数据发送给运维人员进行查验以确定任一反馈结果是否可信,若确定可信,则将任一反馈结果标记为可信的反馈结果,否则,将任一反馈结果标记为不可信的反馈结果。
在筛选出可信的反馈结果后,计算机设备可从可信的反馈结果所对应的属性描述数据中,选取一个或多个对象的属性描述数据。具体的,计算机设备可将可信的反馈结果对应的属性描述数据按照一个比例(如二二六的比例)划分为测试集、验证集和训练集,从而将测试集中的各对象的属性描述数据选取出来。或者,计算机设备也可直接从可信的反馈结果对应的属性描述数据中,随机选取一个或多个对象的属性描述数据。然后,计算机设备可确定被选取的各个对象的类型标注标签,并将被选取的各个对象的类型标注标签和相应的属性描述数据,添加至确定出的目标对象识别模型的有标签数据集中,从而基于添加后的有标签数据集,对确定出的目标对象识别模型进行自适应的模型优化。其中,确定出的目标对象识别模型的有标签数据集是由前述优化得到确定出的目标对象识别模型的过程中,所涉及的Q个有标签数据构成的集合;参见图7所示,计算机设备基于添加后的有标签数据集,对确定出的目标对象识别模型进行自适应的模型优化的方式可以是:基于添加后的有标签数据集,以及前述优化得到确定出的目标对象识别模型的过程中所涉及的P个无标签数据对,再次对确定出的目标对象识别模型进行半监督模型训练,以得到优化后的目标对象识别模型。
进一步的,在得到优化后的目标对象识别模型后,还可对优化后的目标对象识别模型进行模型效果的测试;若优化后的目标对象识别模型的模型效果优于或等于优化前的目标对象识别模型的模型效果,则对优化后的目标对象识别模型进行上线处理;若优化后的目标对象识别模型的模型效果低于(劣于)优化前的目标对象识别模型的模型效果,则不对优化后的目标对象识别模型进行上线处理,并发送消息至运维人员进行查验原因。
本申请实施例通过设置N个对象前置检测策略,一个对象前置检测策略用于指示一种关注对象类型下的对象的属性描述数据需关联的一个或多个关键词,使得在获取到待识别的目标对象的目标属性描述数据后,可先根据N个对象前置检测策略所指示的关键词,从目标属性描述数据对N个对象前置检测策略进行策略命中检测,以初步识别目标对象是否为关注对象。若目标属性描述数据命中至少一个对象前置检测策略,则可确定目标对象可能是关注对象,此时可确定用于对目标对象进行二次识别的目标对象识别模型,并调用该目标对象识别模型根据目标属性描述数据对目标对象进行类型预测,从而根据预测得到的类型预测结果判定目标对象是否为关注对象。通过策略和模型结合的方式,来对目标对象进行识别,可有效提升对象识别的准确性;并且,整个识别过程无需人为参与,可有效提升对象识别效率。由此可见,本申请实施例通过前置策略过滤和多维度多尺度的目标对象识别模型等模块有机组合而成的二级识别框架,满足对关注对象识别的高精度、高召回率检出。
基于上述基于策略的模型训练方法实施例的描述,本申请实施例还公开了一种基于策略的模型训练装置,所述基于策略的模型训练装置可以是运行于计算机设备中的一个计算机程序(包括程序代码)。该基于策略的模型训练装置可以执行图2或图4所示的方法流程。请参见图8,所述基于策略的模型训练装置可以运行如下单元:
获取单元801,用于获取用于对基准对象识别模型进行训练的多个初始对象的属性描述数据,以及N个对象前置检测策略,N为正整数;其中,一个对象前置检测策略用于指示:一种关注对象类型下的对象的属性描述数据需关联的一个或多个关键词;
处理单元802,用于根据所述N个对象前置检测策略所指示的各个关键词,分别采用各个初始对象的属性描述数据,对所述N个对象前置检测策略进行策略命中检测;
所述处理单元802,还用于从所述多个初始对象中,筛选出命中了至少一个对象前置检测策略的属性描述数据所对应的初始对象,作为所述基准对象识别模型的样本对象;
所述处理单元802,还用于基于各样本对象的属性描述数据所命中的对象前置检测策略所对应的关注对象类型,对所述各样本对象的属性描述数据进行基于对象类型的数据聚类处理,得到多个数据集,一个数据集对应一个关注对象类型;
训练单元803,用于分别采用每个数据集对所述基准对象识别模型进行模型训练,得到多个关注对象类型下的目标对象识别模型;一个目标对象识别模型用于根据输入的任一对象的属性描述数据,预测所述任一对象属于相应的关注对象类型的概率。
在一种实施方式中,任一个对象前置检测策略还用于指示:相应的各个关键词之间的逻辑关系;相应的,处理单元802在用于根据所述N个对象前置检测策略所指示的各个关键词,分别采用各个初始对象的属性描述数据,对所述N个对象前置检测策略进行策略命中检测时,可具体用于:
针对任一初始对象的属性描述数据,遍历所述N个对象前置检测策略,确定当前遍历的当前对象前置检测策略;
根据所述当前对象前置检测策略中的各个关键词以及逻辑关系,确定所述任一初始对象的属性描述数据需命中的目标关键词,并在所述任一初始对象的属性描述数据中查找所述目标关键词;
若查找到所述目标关键词,则确定所述任一初始对象的属性描述数据命中所述当前对象前置检测策略;若未查找到所述目标关键词,则继续遍历所述N个对象前置检测策略。
另一种实施方式中,训练单元803在用于分别采用每个数据集对所述基准对象识别模型进行模型训练,得到多个关注对象类型下的目标对象识别模型时,可具体用于:
基于任一数据集中的属性描述数据,构建Q个有标签数据以及P个无标签数据对,Q和P均为正整数;一个有标签数据包括:一个有标注样本对象的类型标注标签以及相应的属性描述数据;一个无标签数据对包括:一个无标注样本对象的属性描述数据,以及对属性描述数据进行增广处理得到的增广数据;
调用所述基准对象识别模型根据每个有标签数据中的属性描述数据,对相应的有标注样本对象进行类型预测,得到每个有标注样本对象的目标类型预测结果;
调用所述基准对象识别模型按照类型一致性的预测目标,根据每个无标签数据对中的属性描述数据和相应的增广数据,分别对相应的无标注样本对象进行类型预测,得到每个无标注样本对象的两个类型预测结果;
根据所述每个有标注样本对象的目标类型预测结果和相应的类型标注标签,以及所述每个无标注样本对象的两个类型预测结果之间的差异,优化所述基准对象识别模型的模型参数,以得到所述任一数据集所对应的关注对象类型下的目标对象识别模型。
另一种实施方式中,训练单元803在用于基于任一数据集中的属性描述数据,构建Q个有标签数据以及P个无标签数据对时,可具体用于:
从任一数据集中选取多个样本对象的属性描述数据构建目标训练集,根据所述目标训练集中的各样本对象的属性描述数据,对所述目标训练集中的多个样本对象进行软去重处理,得到Q个样本对象;
获取所述Q个样本对象的类型标注标签,将所述Q个样本对象作为Q个有标注样本对象;并采用所述Q个有标注样本对象的类型标注标签和相应的属性描述数据,构建Q个有标签数据;
从所述多个样本对象中除所述Q个样本对象以外的剩余样本对象中,选取P个无标注样本对象;并对所述每个无标注样本对象的属性描述数据进行数据扰动的增广处理,得到所述每个无标注样本对象的增广数据;
采用所述每个无标注样本对象的属性描述数据和相应的增广数据,构建P个无标签数据对。
另一种实施方式中,训练单元803在用于根据所述目标训练集中的各样本对象的属性描述数据,对所述目标训练集中的多个样本对象进行软去重处理,得到Q个样本对象时,可具体用于:
根据所述目标训练集中的各样本对象的属性描述数据,确定所述各样本对象的对象特征;
构建局部敏感哈希池,所述局部敏感哈希池中包括一个或多个特征桶;并控制所述各样本对象的对象特征,以流式的方式依次进入所述局部敏感哈希池中的各特征桶;
确定当前欲进入所述局部敏感哈希池的当前样本对象的当前对象特征,并采用局部敏感哈希函数对所述当前对象特征进行哈希映射,根据哈希映射结果为所述当前对象特征在所述局部敏感哈希池中分配目标特征桶;
根据所述当前对象特征和所述目标特征桶中已存在的各历史对象特征之间的特征相似度,从所述各历史对象特征所对应的样本对象中检测所述当前样本对象的相似样本对象;
若检测到所述相似样本对象,则控制所述当前对象特征进入所述目标特征桶;若未检测到所述相似样本对象,则控制所述当前对象特征进入所述目标特征桶,且将所述当前样本对象添加至待标注对象集中;
在所述各样本对象的对象特征均进入所述局部敏感哈希池后,将所述待标注对象集中的样本对象,确定为对所述多个样本对象进行软去重处理后的Q个样本对象。
另一种实施方式中,若检测到所述相似样本对象,则训练单元803还可以用于:
根据所述当前样本对象的属性描述数据和所述相似样本对象的属性描述数据,计算所述当前样本对象和所述相似样本对象之间的对象相似度;
若所述对象相似度小于相似度阈值,则将所述当前样本对象添加至待标注对象集中。
另一种实施方式中,所述任一属性描述数据包括多个属性描述文本;相应的,训练单元803在用于根据所述目标训练集中的各样本对象的属性描述数据,确定所述各样本对象的对象特征时,可具体用于:
针对所述目标训练集中的任一样本对象,将所述任一样本对象的属性描述数据中用于唯一描述所述任一样本对象的对象属性的属性描述文本,作为所述任一样本对象的目标属性描述文本;
对所述目标训练集中的各样本对象的目标属性描述文本进行分词处理,得到所述各样本对象对应的各文本词;并分别采用所述各样本对象对应的文本词,构建所述各样本对象的词频矩阵;
分别对所述各样本对象的词频矩阵进行降维哈希运算,得到所述各样本对象的降维哈希值;并将所述各样本对象的降维哈希值,确定为所述各样本对象的对象特征。
另一种实施方式中,训练单元803在用于从所述多个样本对象中除所述Q个样本对象以外的剩余样本对象中,选取P个无标注样本对象时,可具体用于:
采用所述Q个有标签数据对所述基准对象识别模型进行有监督模型训练,得到初始对象识别模型;
确定所述多个样本对象中除所述Q个样本对象以外的剩余样本对象,并将所述剩余样本对象中的各个样本对象均作为候选样本对象;
调用所述初始对象识别模型根据各个候选样本对象的属性描述数据,对所述各个候选样本对象进行类型预测,并根据预测得到的各个类型预测结果分别确定所述各个候选样本对象的类型伪标签;
根据所述各个候选样本对象的类型伪标签,对所述各个候选样本对象进行类型均衡化处理,并根据类型均衡化处理结果从全部的候选样本对象中选取P个候选样本对象作为P个无标注样本对象。
另一种实施方式中,所述任一属性描述数据中的各个属性描述文本是采用第一语言进行表示的文本;相应的,训练单元803在用于对所述每个无标注样本对象的属性描述数据进行数据扰动的增广处理,得到所述每个无标注样本对象的增广数据时,可具体用于:
从第p个无标注样本对象的属性描述数据中,选取至少一个属性描述文本;其中,p∈[1,P];
将每个被选取的属性描述文本,分别翻译成采用第二语言进行表示的文本,得到所述每个被选取的属性描述文本所对应的翻译结果;
将所述每个被选取的属性描述文本所对应的翻译结果,回译成采用所述第一语言进行表示的文本,得到所述每个被选取的属性描述文本的回译结果;
采用所述每个被选取的属性描述文本的回译结果,以及所述第p个无标注样本对象的属性描述数据中未被选取的属性描述文本,构建所述第p个无标注样本对象的增广数据。
另一种实施方式中,训练单元803在用于根据所述每个有标注样本对象的目标类型预测结果和相应的类型标注标签,以及所述每个无标注样本对象的两个类型预测结果之间的差异,优化所述基准对象识别模型的模型参数时,可具体用于:
根据所述每个有标注样本对象的目标类型预测结果和相应的类型标注标签,确定所述基准对象识别模型的有标签损失值;
根据所述每个无标注样本对象的两个类型预测结果之间的差异,确定所述基准对象识别模型的无标签损失值;
对所述有标签损失值和所述无标签损失值进行联合损失值运算,得到所述基准对象识别模型的模型损失值,并根据所述模型损失值优化所述基准对象识别模型的模型参数。
另一种实施方式中,训练单元803在用于根据所述模型损失值优化所述基准对象识别模型的模型参数时,可具体用于:
根据所述模型损失值对所述基准对象识别模型的梯度进行回传计算,得到所述基准对象识别模型的回传梯度;
确定所述基准对象识别模型的历史学习率,并对所述历史学习率进行规律性地衰减处理,得到目标学习率;
根据所述回传梯度和所述目标学习率,优化所述基准对象识别模型的模型参数。
另一种实施方式中,所述基准对象识别模型包括至少两个类型标签,任一有标注样本对象的目标类型预测结果中包括:任一有标注样本对象属于所述基准对象识别模型中的各个类型标签所指示的对象类型的预测概率;相应的,训练单元803在用于根据所述每个有标注样本对象的目标类型预测结果和相应的类型标注标签,确定所述基准对象识别模型的有标签损失值时,可具体用于:
遍历预测得到的每个有标注样本对象的目标类型预测结果,若当前遍历的当前目标类型预测结果中的最大预测概率大于第一阈值,则将所述当前目标类型预测结果确定为缓释信号;
在预测得到的Q个目标类型预测结果均被遍历后,采用确定出的各个缓释信号对所述Q个目标类型预测结果进行信号缓释处理,以将所述各个缓释信号从所述Q个目标类型预测结果中移除;
根据剩余的各目标类型预测结果中最大预测概率对应的类型标签和相应的有标注样本对象的类型标注标签之间的差异,确定所述基准对象识别模型的有标签损失值。
另一种实施方式中,训练单元803在用于根据所述每个无标注样本对象的两个类型预测结果之间的差异,确定所述基准对象识别模型的无标签损失值时,可具体用于:
将预测得到的每个无标注样本对象的两个类型预测结果,分别作为所述每个无标注样本对象的两个类型信号;
按照信号锐化策略,对所述每个无标注样本对象的两个类型信号进行信号锐化处理,得到信号锐化结果;
根据所述信号锐化结果,和至少一个无标签样本对象的两个类型信号之间的差异,确定所述基准对象识别模型的无标签损失值。
另一种实施方式中,所述基准对象识别模型包括至少两个类型标签,任一无标注样本对象的一个类型信号中包括:所述任一无标注样本对象属于所述基准对象识别模型中的各个类型标签所指示的对象类型的预测概率;所述信号锐化策略包括:基于预测概率的掩码处理;
相应的,训练单元803在用于按照信号锐化策略,对所述每个无标注样本对象的两个类型信号进行信号锐化处理,得到信号锐化结果时,可具体用于:
遍历P个无标注样本对象,若当前遍历的当前无标注样本对象的两个类型信号中,存在至少一个类型信号中的最大预测概率小于第二阈值,则对所述当前无标注样本对象以及相应的两个类型信号进行掩码处理;
在所述P个无标注样本对象均被遍历后,将已被进行掩码处理的各个无标注样本对象添加至信号锐化结果中。
另一种实施方式中,训练单元803在用于根据所述信号锐化结果,和至少一个无标签样本对象的两个类型信号之间的差异,确定所述基准对象识别模型的无标签损失值时,可具体用于:
将所述P个无标注样本对象中未位于所述信号锐化结果中的无标注样本对象,均作为有效的无标注样本对象;
根据各个有效的无标签样本对象的两个类型信号之间的差异,分别计算所述各个有效的无标签样本对象对应的类型一致性损失值;
基于所述各个有效的无标签样本对象对应的类型一致性损失值,确定所述基准对象识别模型的无标签损失值。
另一种实施方式中,所述基准对象识别模型包括至少两个类型标签,任一无标注样本对象的一个类型信号中包括:所述任一无标注样本对象属于所述基准对象识别模型中的各个类型标签所指示的对象类型的预测概率;所述信号锐化策略包括:最小化基于增广数据所得到的类型信号的信息熵;
相应的,训练单元803在用于按照信号锐化策略,对所述每个无标注样本对象的两个类型信号进行信号锐化处理,得到信号锐化结果时,可具体用于:
针对任一无标注样本对象,从所述任一无标注样本对象的两个类型信号中,确定出基于所述任一无标注样本对象的增广数据所预测得到的类型信号;
根据确定出的类型信号中的各个类型标签以及相应的预测概率,计算所述任一无标注样本对象的增广数据的信息熵;
将计算得到的所述任一无标注样本对象的增广数据的信息熵,添加至信号锐化结果中。
另一种实施方式中,训练单元803在用于根据所述信号锐化结果,和至少一个无标签样本对象的两个类型信号之间的差异,确定所述基准对象识别模型的无标签损失值时,可具体用于:
根据各个无标签样本对象的两个类型信号之间的差异,分别计算所述各个无标签样本对象对应的类型一致性损失值;
对所述信号锐化结果中的信息熵以及所述各个无标签样本对象对应的类型一致性损失值进行求和运算,得到所述基准对象识别模型的无标签损失值。
另一种实施方式中,任一属性描述数据包括多个属性维度下的属性描述文本,所述基准对象识别模型包括每个属性维度对应的特征提取网络、特征联合层以及前向网络;相应的,训练单元803在用于调用所述基准对象识别模型根据每个有标签数据中的属性描述数据,对相应的有标注样本对象进行类型预测,得到每个有标注样本对象的目标类型预测结果时,可具体用于:
针对任一有标注样本对象,调用所述基准对象识别模型中的每个特征提取网络,分别对相应有标签数据中的属性描述数据中的相应属性维度下的属性描述文本进行独立的特征提取,得到各属性描述文本的文本特征;
调用所述特征联合层按照注意力机制,对所述各属性描述文本的文本特征进行特征联合处理,得到联合特征;
调用所述前向网络根据所述联合特征,对所述任一有标注样本对象进行类型预测,得到所述任一有标注样本对象的目标类型预测结果。
根据本申请的另一个实施例,图8所示的基于策略的模型训练装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成,这可以实现同样的操作,而不影响本申请的实施例的技术效果的实现。上述单元是基于逻辑功能划分的,在实际应用中,一个单元的功能也可以由多个单元来实现,或者多个单元的功能由一个单元实现。在本申请的其它实施例中,基于图像处理装置也可以包括其它单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由多个单元协作实现。
根据本申请的另一个实施例,可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图2或图4中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图8中所示的基于策略的模型训练装置设备,以及来实现本申请实施例的基于策略的模型训练方法。所述计算机程序可以记载于例如计算机可读记录介质上,并通过计算机可读记录介质装载于上述计算设备中,并在其中运行。
本申请实施例通过引入基准对象识别模型,并对基准对象识别模型进行模型训练来得到目标对象识别模型,从而通过目标对象识别模型来实现对象识别任务,这样可提升对象识别的效率和准确性。并且在模型训练的过程中,通过设置N个对象前置检测策略,一个对象前置检测策略用于指示一种关注对象类型下的对象的属性描述数据需关联的一个或多个关键词,使得在获取到对基准对象识别模型进行训练的多个初始对象的属性描述数据后,可先根据N个对象前置检测策略所指示的关键词,从多个初始对象的属性描述数据中筛选出与每种关注对象类型相关联的属性描述数据作为基准对象识别模型的样本数据,这样可保证样本数据的准确性,从而提升后续的模型训练效果,还可避免基准对象识别模型因学习一些与关注对象类型无关的属性描述数据,而造成的资源浪费和训练效率低下的问题。进一步的,通过基于各样本对象的属性描述数据所命中的对象前置检测策略所对应的关注对象类型,将各样本对象的属性描述数据聚类成多个数据集,并分别采用每个数据集针对性地对基准对象识别模型进行模型训练;这样可使得基准对象识别模型每次可统一专注地通过学习单个关注对象类型对应的数据集中的属性描述数据,来优化自身的模型参数,这样可进一步提升模型训练效果,使得训练得到的单个目标对象识别模型对相应关注对象类型下的对象具有较强的识别能力,这样可进一步提升对象识别的准确性。
基于上述基于策略和模型的对象识别方法实施例的描述,本申请实施例还公开了一种基于策略和模型的对象识别装置,所述基于策略和模型的对象识别装置可以是运行于计算机设备中的一个计算机程序(包括程序代码)。该基于策略的模型训练装置可以执行图6所示的方法流程。请参见图9,所述基于策略和模型的对象识别装置可以运行如下单元:
获取单元901,用于获取待识别的目标对象的目标属性描述数据以及N个对象前置检测策略,N为正整数;一个对象前置检测策略用于指示:一种关注对象类型下的对象的属性描述数据需关联的一个或多个关键词;
识别单元902,用于根据所述N个对象前置检测策略所指示的各个关键词,采用所述目标属性描述数据对所述N个对象前置检测策略进行策略命中检测;
所述识别单元902,还用于若所述目标属性描述数据命中至少一个对象前置检测策略,则确定用于对所述目标对象进行类型预测的目标对象识别模型;
所述识别单元902,还用于调用确定出的目标对象识别模型根据所述目标属性描述数据,对所述目标对象进行类型预测,得到所述目标对象的类型预测结果,并根据所述目标对象的类型预测结果判定所述目标对象是否为关注对象。
在一种实施方式中,识别单元902还可用于:
获取针对所述确定出的目标对象识别模型的多个反馈结果,一个反馈结果用于指示:所述确定出的目标对象识别模型基于一个对象的属性描述数据所预测得到的类型预测结果不准确;
对所述多个反馈结果中的各个反馈结果进行可信度检测,以从所述多个反馈结果中筛选出可信的反馈结果;
从所述可信的反馈结果所对应的属性描述数据中,选取一个或多个对象的属性描述数据,并确定被选取的各个对象的类型标注标签;
将被选取的各个对象的类型标注标签和相应的属性描述数据,添加至所述确定出的目标对象识别模型的有标签数据集中;并基于添加后的有标签数据集,对所述确定出的目标对象识别模型进行自适应的模型优化。
根据本申请的另一个实施例,图9所示的基于策略和模型的对象识别装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成,这可以实现同样的操作,而不影响本申请的实施例的技术效果的实现。上述单元是基于逻辑功能划分的,在实际应用中,一个单元的功能也可以由多个单元来实现,或者多个单元的功能由一个单元实现。在本申请的其它实施例中,基于策略和模型的对象识别装置也可以包括其它单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由多个单元协作实现。
根据本申请的另一个实施例,可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图6中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图9中所示的基于策略和模型的对象识别装置设备,以及来实现本申请实施例的基于策略和模型的对象识别方法。所述计算机程序可以记载于例如计算机可读记录介质上,并通过计算机可读记录介质装载于上述计算设备中,并在其中运行。
本申请实施例通过设置N个对象前置检测策略,一个对象前置检测策略用于指示一种关注对象类型下的对象的属性描述数据需关联的一个或多个关键词,使得在获取到待识别的目标对象的目标属性描述数据后,可先根据N个对象前置检测策略所指示的关键词,从目标属性描述数据对N个对象前置检测策略进行策略命中检测,以初步识别目标对象是否为关注对象。若目标属性描述数据命中至少一个对象前置检测策略,则可确定目标对象可能是关注对象,此时可确定用于对目标对象进行二次识别的目标对象识别模型,并调用该目标对象识别模型根据目标属性描述数据对目标对象进行类型预测,从而根据预测得到的类型预测结果判定目标对象是否为关注对象。通过策略和模型结合的方式,来对目标对象进行识别,可有效提升对象识别的准确性;并且,整个识别过程无需人为参与,可有效提升对象识别效率。
基于上述方法实施例以及装置实施例的描述,本申请实施例还提供一种计算机设备。请参见图10,该计算机设备至少包括处理器1001、输入接口1002、输出接口1003以及计算机存储介质1004。其中,计算机设备内的处理器1001、输入接口1002、输出接口1003以及计算机存储介质1004可通过总线或其他方式连接。计算机存储介质1004可以存储在计算机设备的存储器中,所述计算机存储介质1004用于存储计算机程序,所述计算机程序包括程序指令,所述处理器1001用于执行所述计算机存储介质1004存储的程序指令。
其中,处理器1001(或称CPU(Central Processing Unit,中央处理器))是计算机设备的计算核心以及控制核心,其适于实现一条或多条指令,具体适于加载并执行一条或多条指令从而实现相应方法流程或相应功能。在一个实施例中,本申请实施例所述的处理器1001可以用于执行上述图2或图4所示的方法流程;另一个实施例中,本申请实施例所述的处理器1001可以用于执行上述图6所示的方法流程。
本申请实施例还提供了一种计算机存储介质(Memory),所述计算机存储介质是计算机设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机存储介质既可以包括计算机设备中的内置存储介质,当然也可以包括计算机设备所支持的扩展存储介质。计算机存储介质提供存储空间,该存储空间存储了计算机设备的操作系统。并且,在该存储空间中还存放了适于被处理器加载并执行的一条或多条的指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机存储介质可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器;可选的,还可以是至少一个位于远离前述处理器的计算机存储介质。
在一个实施例中,可由处理器加载并执行计算机存储介质中存放的一条或多条指令,以实现上述有关图2或图4所示的方法实施例中的方法的相应步骤;具体实现中,计算机存储介质中的一条或多条指令可由处理器加载并执行如下步骤:
获取用于对基准对象识别模型进行训练的多个初始对象的属性描述数据,以及N个对象前置检测策略,N为正整数;其中,一个对象前置检测策略用于指示:一种关注对象类型下的对象的属性描述数据需关联的一个或多个关键词;
根据所述N个对象前置检测策略所指示的各个关键词,分别采用各个初始对象的属性描述数据,对所述N个对象前置检测策略进行策略命中检测;
从所述多个初始对象中,筛选出命中了至少一个对象前置检测策略的属性描述数据所对应的初始对象,作为所述基准对象识别模型的样本对象;
基于各样本对象的属性描述数据所命中的对象前置检测策略所对应的关注对象类型,对所述各样本对象的属性描述数据进行基于对象类型的数据聚类处理,得到多个数据集,一个数据集对应一个关注对象类型;
分别采用每个数据集对所述基准对象识别模型进行模型训练,得到多个关注对象类型下的目标对象识别模型;一个目标对象识别模型用于根据输入的任一对象的属性描述数据,预测所述任一对象属于相应的关注对象类型的概率。
在一种实施方式中,任一个对象前置检测策略还用于指示:相应的各个关键词之间的逻辑关系;相应的,在根据所述N个对象前置检测策略所指示的各个关键词,分别采用各个初始对象的属性描述数据,对所述N个对象前置检测策略进行策略命中检测时,所述一条或多条指令可由处理器加载并具体执行:
针对任一初始对象的属性描述数据,遍历所述N个对象前置检测策略,确定当前遍历的当前对象前置检测策略;
根据所述当前对象前置检测策略中的各个关键词以及逻辑关系,确定所述任一初始对象的属性描述数据需命中的目标关键词,并在所述任一初始对象的属性描述数据中查找所述目标关键词;
若查找到所述目标关键词,则确定所述任一初始对象的属性描述数据命中所述当前对象前置检测策略;若未查找到所述目标关键词,则继续遍历所述N个对象前置检测策略。
另一种实施方式中,在分别采用每个数据集对所述基准对象识别模型进行模型训练,得到多个关注对象类型下的目标对象识别模型时,所述一条或多条指令可由处理器加载并具体执行:
基于任一数据集中的属性描述数据,构建Q个有标签数据以及P个无标签数据对,Q和P均为正整数;一个有标签数据包括:一个有标注样本对象的类型标注标签以及相应的属性描述数据;一个无标签数据对包括:一个无标注样本对象的属性描述数据,以及对属性描述数据进行增广处理得到的增广数据;
调用所述基准对象识别模型根据每个有标签数据中的属性描述数据,对相应的有标注样本对象进行类型预测,得到每个有标注样本对象的目标类型预测结果;
调用所述基准对象识别模型按照类型一致性的预测目标,根据每个无标签数据对中的属性描述数据和相应的增广数据,分别对相应的无标注样本对象进行类型预测,得到每个无标注样本对象的两个类型预测结果;
根据所述每个有标注样本对象的目标类型预测结果和相应的类型标注标签,以及所述每个无标注样本对象的两个类型预测结果之间的差异,优化所述基准对象识别模型的模型参数,以得到所述任一数据集所对应的关注对象类型下的目标对象识别模型。
另一种实施方式中,在基于任一数据集中的属性描述数据,构建Q个有标签数据以及P个无标签数据对时,所述一条或多条指令可由处理器加载并具体执行:
从任一数据集中选取多个样本对象的属性描述数据构建目标训练集,根据所述目标训练集中的各样本对象的属性描述数据,对所述目标训练集中的多个样本对象进行软去重处理,得到Q个样本对象;
获取所述Q个样本对象的类型标注标签,将所述Q个样本对象作为Q个有标注样本对象;并采用所述Q个有标注样本对象的类型标注标签和相应的属性描述数据,构建Q个有标签数据;
从所述多个样本对象中除所述Q个样本对象以外的剩余样本对象中,选取P个无标注样本对象;并对所述每个无标注样本对象的属性描述数据进行数据扰动的增广处理,得到所述每个无标注样本对象的增广数据;
采用所述每个无标注样本对象的属性描述数据和相应的增广数据,构建P个无标签数据对。
另一种实施方式中,在根据所述目标训练集中的各样本对象的属性描述数据,对所述目标训练集中的多个样本对象进行软去重处理,得到Q个样本对象时,所述一条或多条指令可由处理器加载并具体执行:
根据所述目标训练集中的各样本对象的属性描述数据,确定所述各样本对象的对象特征;
构建局部敏感哈希池,所述局部敏感哈希池中包括一个或多个特征桶;并控制所述各样本对象的对象特征,以流式的方式依次进入所述局部敏感哈希池中的各特征桶;
确定当前欲进入所述局部敏感哈希池的当前样本对象的当前对象特征,并采用局部敏感哈希函数对所述当前对象特征进行哈希映射,根据哈希映射结果为所述当前对象特征在所述局部敏感哈希池中分配目标特征桶;
根据所述当前对象特征和所述目标特征桶中已存在的各历史对象特征之间的特征相似度,从所述各历史对象特征所对应的样本对象中检测所述当前样本对象的相似样本对象;
若检测到所述相似样本对象,则控制所述当前对象特征进入所述目标特征桶;若未检测到所述相似样本对象,则控制所述当前对象特征进入所述目标特征桶,且将所述当前样本对象添加至待标注对象集中;
在所述各样本对象的对象特征均进入所述局部敏感哈希池后,将所述待标注对象集中的样本对象,确定为对所述多个样本对象进行软去重处理后的Q个样本对象。
另一种实施方式中,若检测到所述相似样本对象,则所述一条或多条指令可由处理器加载并具体执行:
根据所述当前样本对象的属性描述数据和所述相似样本对象的属性描述数据,计算所述当前样本对象和所述相似样本对象之间的对象相似度;
若所述对象相似度小于相似度阈值,则将所述当前样本对象添加至待标注对象集中。
另一种实施方式中,所述任一属性描述数据包括多个属性描述文本;相应的,在根据所述目标训练集中的各样本对象的属性描述数据,确定所述各样本对象的对象特征时,所述一条或多条指令可由处理器加载并具体执行:
针对所述目标训练集中的任一样本对象,将所述任一样本对象的属性描述数据中用于唯一描述所述任一样本对象的对象属性的属性描述文本,作为所述任一样本对象的目标属性描述文本;
对所述目标训练集中的各样本对象的目标属性描述文本进行分词处理,得到所述各样本对象对应的各文本词;并分别采用所述各样本对象对应的文本词,构建所述各样本对象的词频矩阵;
分别对所述各样本对象的词频矩阵进行降维哈希运算,得到所述各样本对象的降维哈希值;并将所述各样本对象的降维哈希值,确定为所述各样本对象的对象特征。
另一种实施方式中,在从所述多个样本对象中除所述Q个样本对象以外的剩余样本对象中,选取P个无标注样本对象时,所述一条或多条指令可由处理器加载并具体执行:
采用所述Q个有标签数据对所述基准对象识别模型进行有监督模型训练,得到初始对象识别模型;
确定所述多个样本对象中除所述Q个样本对象以外的剩余样本对象,并将所述剩余样本对象中的各个样本对象均作为候选样本对象;
调用所述初始对象识别模型根据各个候选样本对象的属性描述数据,对所述各个候选样本对象进行类型预测,并根据预测得到的各个类型预测结果分别确定所述各个候选样本对象的类型伪标签;
根据所述各个候选样本对象的类型伪标签,对所述各个候选样本对象进行类型均衡化处理,并根据类型均衡化处理结果从全部的候选样本对象中选取P个候选样本对象作为P个无标注样本对象。
另一种实施方式中,所述任一属性描述数据中的各个属性描述文本是采用第一语言进行表示的文本;相应的,在对所述每个无标注样本对象的属性描述数据进行数据扰动的增广处理,得到所述每个无标注样本对象的增广数据时,所述一条或多条指令可由处理器加载并具体执行:
从第p个无标注样本对象的属性描述数据中,选取至少一个属性描述文本;其中,p∈[1,P];
将每个被选取的属性描述文本,分别翻译成采用第二语言进行表示的文本,得到所述每个被选取的属性描述文本所对应的翻译结果;
将所述每个被选取的属性描述文本所对应的翻译结果,回译成采用所述第一语言进行表示的文本,得到所述每个被选取的属性描述文本的回译结果;
采用所述每个被选取的属性描述文本的回译结果,以及所述第p个无标注样本对象的属性描述数据中未被选取的属性描述文本,构建所述第p个无标注样本对象的增广数据。
另一种实施方式中,在根据所述每个有标注样本对象的目标类型预测结果和相应的类型标注标签,以及所述每个无标注样本对象的两个类型预测结果之间的差异,优化所述基准对象识别模型的模型参数时,所述一条或多条指令可由处理器加载并具体执行:
根据所述每个有标注样本对象的目标类型预测结果和相应的类型标注标签,确定所述基准对象识别模型的有标签损失值;
根据所述每个无标注样本对象的两个类型预测结果之间的差异,确定所述基准对象识别模型的无标签损失值;
对所述有标签损失值和所述无标签损失值进行联合损失值运算,得到所述基准对象识别模型的模型损失值,并根据所述模型损失值优化所述基准对象识别模型的模型参数。
另一种实施方式中,在根据所述模型损失值优化所述基准对象识别模型的模型参数时,所述一条或多条指令可由处理器加载并具体执行:
根据所述模型损失值对所述基准对象识别模型的梯度进行回传计算,得到所述基准对象识别模型的回传梯度;
确定所述基准对象识别模型的历史学习率,并对所述历史学习率进行规律性地衰减处理,得到目标学习率;
根据所述回传梯度和所述目标学习率,优化所述基准对象识别模型的模型参数。
另一种实施方式中,所述基准对象识别模型包括至少两个类型标签,任一有标注样本对象的目标类型预测结果中包括:任一有标注样本对象属于所述基准对象识别模型中的各个类型标签所指示的对象类型的预测概率;相应的,在根据所述每个有标注样本对象的目标类型预测结果和相应的类型标注标签,确定所述基准对象识别模型的有标签损失值时,所述一条或多条指令可由处理器加载并具体执行:
遍历预测得到的每个有标注样本对象的目标类型预测结果,若当前遍历的当前目标类型预测结果中的最大预测概率大于第一阈值,则将所述当前目标类型预测结果确定为缓释信号;
在预测得到的Q个目标类型预测结果均被遍历后,采用确定出的各个缓释信号对所述Q个目标类型预测结果进行信号缓释处理,以将所述各个缓释信号从所述Q个目标类型预测结果中移除;
根据剩余的各目标类型预测结果中最大预测概率对应的类型标签和相应的有标注样本对象的类型标注标签之间的差异,确定所述基准对象识别模型的有标签损失值。
另一种实施方式中,在根据所述每个无标注样本对象的两个类型预测结果之间的差异,确定所述基准对象识别模型的无标签损失值时,所述一条或多条指令可由处理器加载并具体执行:
将预测得到的每个无标注样本对象的两个类型预测结果,分别作为所述每个无标注样本对象的两个类型信号;
按照信号锐化策略,对所述每个无标注样本对象的两个类型信号进行信号锐化处理,得到信号锐化结果;
根据所述信号锐化结果,和至少一个无标签样本对象的两个类型信号之间的差异,确定所述基准对象识别模型的无标签损失值。
另一种实施方式中,所述基准对象识别模型包括至少两个类型标签,任一无标注样本对象的一个类型信号中包括:所述任一无标注样本对象属于所述基准对象识别模型中的各个类型标签所指示的对象类型的预测概率;所述信号锐化策略包括:基于预测概率的掩码处理;
相应的,在按照信号锐化策略,对所述每个无标注样本对象的两个类型信号进行信号锐化处理,得到信号锐化结果时,所述一条或多条指令可由处理器加载并具体执行:
遍历P个无标注样本对象,若当前遍历的当前无标注样本对象的两个类型信号中,存在至少一个类型信号中的最大预测概率小于第二阈值,则对所述当前无标注样本对象以及相应的两个类型信号进行掩码处理;
在所述P个无标注样本对象均被遍历后,将已被进行掩码处理的各个无标注样本对象添加至信号锐化结果中。
另一种实施方式中,在根据所述信号锐化结果,和至少一个无标签样本对象的两个类型信号之间的差异,确定所述基准对象识别模型的无标签损失值时,所述一条或多条指令可由处理器加载并具体执行:
将所述P个无标注样本对象中未位于所述信号锐化结果中的无标注样本对象,均作为有效的无标注样本对象;
根据各个有效的无标签样本对象的两个类型信号之间的差异,分别计算所述各个有效的无标签样本对象对应的类型一致性损失值;
基于所述各个有效的无标签样本对象对应的类型一致性损失值,确定所述基准对象识别模型的无标签损失值。
另一种实施方式中,所述基准对象识别模型包括至少两个类型标签,任一无标注样本对象的一个类型信号中包括:所述任一无标注样本对象属于所述基准对象识别模型中的各个类型标签所指示的对象类型的预测概率;所述信号锐化策略包括:最小化基于增广数据所得到的类型信号的信息熵;
相应的,在按照信号锐化策略,对所述每个无标注样本对象的两个类型信号进行信号锐化处理,得到信号锐化结果时,所述一条或多条指令可由处理器加载并具体执行:
针对任一无标注样本对象,从所述任一无标注样本对象的两个类型信号中,确定出基于所述任一无标注样本对象的增广数据所预测得到的类型信号;
根据确定出的类型信号中的各个类型标签以及相应的预测概率,计算所述任一无标注样本对象的增广数据的信息熵;
将计算得到的所述任一无标注样本对象的增广数据的信息熵,添加至信号锐化结果中。
另一种实施方式中,在根据所述信号锐化结果,和至少一个无标签样本对象的两个类型信号之间的差异,确定所述基准对象识别模型的无标签损失值时,所述一条或多条指令可由处理器加载并具体执行:
根据各个无标签样本对象的两个类型信号之间的差异,分别计算所述各个无标签样本对象对应的类型一致性损失值;
对所述信号锐化结果中的信息熵以及所述各个无标签样本对象对应的类型一致性损失值进行求和运算,得到所述基准对象识别模型的无标签损失值。
在另一个实施例中,可由处理器加载并执行计算机存储介质中存放的一条或多条指令,以实现上述有关图6所示的方法实施例中的方法的相应步骤;具体实现中,计算机存储介质中的一条或多条指令可以由处理器加载并执行如下步骤:
获取待识别的目标对象的目标属性描述数据以及N个对象前置检测策略,N为正整数;一个对象前置检测策略用于指示:一种关注对象类型下的对象的属性描述数据需关联的一个或多个关键词;
根据所述N个对象前置检测策略所指示的各个关键词,采用所述目标属性描述数据对所述N个对象前置检测策略进行策略命中检测;
若所述目标属性描述数据命中至少一个对象前置检测策略,则确定用于对所述目标对象进行类型预测的目标对象识别模型;
调用确定出的目标对象识别模型根据所述目标属性描述数据,对所述目标对象进行类型预测,得到所述目标对象的类型预测结果,并根据所述目标对象的类型预测结果判定所述目标对象是否为关注对象。
在一种实施方式中,所述一条或多条指令可由处理器加载并具体执行:
获取针对所述确定出的目标对象识别模型的多个反馈结果,一个反馈结果用于指示:所述确定出的目标对象识别模型基于一个对象的属性描述数据所预测得到的类型预测结果不准确;
对所述多个反馈结果中的各个反馈结果进行可信度检测,以从所述多个反馈结果中筛选出可信的反馈结果;
从所述可信的反馈结果所对应的属性描述数据中,选取一个或多个对象的属性描述数据,并确定被选取的各个对象的类型标注标签;
将被选取的各个对象的类型标注标签和相应的属性描述数据,添加至所述确定出的目标对象识别模型的有标签数据集中;并基于添加后的有标签数据集,对所述确定出的目标对象识别模型进行自适应的模型优化。
本申请实施例可有效提升模型训练效果,使得训练得到的单个目标对象识别模型对相应关注对象类型下的对象具有较强的识别能力,这样可进一步提升对象识别的准确性。另外,通过策略和模型结合的方式来对目标对象进行类型识别,可有效提升对象识别的准确性;并且,整个识别过程无需人为参与,可有效提升对象识别效率。
需要说明的是,根据本申请的一个方面,还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述图2、图4或图6所示的方法实施例方面的各种可选方式中提供的方法。
并且,应理解的是,以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。
机译: 图像识别方法,识别模型训练方法,相关设备和存储介质
机译: 人脸识别方法和设备,分类模型训练方法和设备,存储介质和计算机设备
机译: 图像识别方法和设备,识别模型训练方法和设备,以及存储介质