法律状态公告日
法律状态信息
法律状态
2022-08-23
实质审查的生效 IPC(主分类):G06K 9/62 专利申请号:2022105747472 申请日:20220525
实质审查的生效
2022-08-05
公开
发明专利申请公布
技术领域
本发明涉及一种多标记数据分类方法,具体是一种面向噪声标记的多标记分类方法,属于弱监督分类技术领域。
背景技术
在多标记学习中,一个示例会关联多个正确的语义标记,学习系统的目标是利用多标记数据集构造输入空间(特征空间)到输出空间(标记空间)的映射关系,用于预测未见示例的一组正确标记集合。在传统的多标记学习任务中最关键的假设在于多标记数据集中每个示例均被赋予其正确的语义标记集合,然而现实生活中,精确地给每个示例赋予标记是很困难的。在很多任务中,可能会出现标记错误、标记缺失或标记冗余等情况,导致多标记数据集中标记信息包含噪声,而研究此类多标记数据集的框架统称为含噪多标记学习框架。
本发明研究的是其中标记冗余的含噪多标记学习任务,每个示例会关联一组候选标记集合,示例的真实标记未知但隐藏于候选标记集合中。学习系统的目标是在已知的弱监督信息下学习输入空间到输出空间的映射关系,用于预测未见示例的一组正确标记集合。为了解决数据集中含有噪声的问题,常使用消歧的方法先对数据集进行消歧操作,再进行多标记分类模型训练,此类方法的重点在于如何对数据集进行消歧,这将直接影响学习模型的分类性能。
已有的消歧方法中常利用标记相关性或元学习等方法对含噪数据集进行消歧,这些方法重点关注的是输出空间(标记空间)的信息,而没有关注到输入空间(特征空间)。
发明内容
为解决上述问题,本发明公开了基于类属特征构造的含噪多标记分类方法。
将候选标记中存在噪声标记问题转换成与标记对应的正样本集合中存在噪声样本问题,利用标记的类属特征信息实现对样本的消歧操作。在已消歧数据集上再利用类属特征构建预测模型,提高多标记分类模型的性能。
本发明重点关注输入空间的特征信息,为每个类别构建其对应特征的内部结构信息,并利用特征的内部结构信息对置信度值小的样本进行类别校正,从而完成含噪数据集消歧操作。该方法包括以下步骤:(1)用户在保证完全获得真实标记的前提下收集多标记数据(不可避免会含有噪声);(2)利用特征空间的内部结构信息对含噪标记进行消歧;(3)基于已消歧的数据集,为每个标记构建类属特征映射;(4)根据每个标记的类属特征映射构建二分类数据集,并训练二分类模型;(5)根据训练得到的分类模型对未见示例进行预测,得到每个类别的分类结果;(6)如果用户对预测结果满意,则结束,否则转到步骤(2),对原始标记重新进行消歧。
本发明进一步优选,所述步骤(2)利用特征空间的内部结构信息对含噪标记进行消歧,具体包括:
假设
对每个标记y
1)将样本划分为正样本集合
2)利用k-means算法分别将
3)训练一个二分类模型得到样本的置信度排序,选择一定数量置信度值较小的样本组成待确定伪正样本子集U
4)计算样本x
本发明进一步优选,步骤(3)基于已消歧的数据集,为每个标记构建类属特征映射,具体包括:
(3.1)根据步骤(2)
得到已消歧的数据集D′={(x
(3.2)在数据集D′上为每个标记y
(3.3)利用k-means算法分别将
(3.4)计算样本与2m
本发明进一步优选,所述步骤(4)根据每个标记的类属特征映射构建二分类数据集,并训练二分类模型,具体包括:
对每个标记y
在二分类数据集D′
本发明的有益效果:
1、方法分为两个阶段,第一阶段中为每个标记构建其正负样本集合,并计算正负样本集合的聚类中心用来表示该标记对应特征的内部结构信息,之后利用特征的内部结构信息对置信度值小的样本进行类别校正;第二阶段中为每个标记分别构建类属特征映射,将数据集转换成该标记对应的二分类数据集并学得二分类模型,对未知示例需先进行类属特征映射,再利用分类模型预测其标记集合。基于这种方法进行学习和训练,可以提高多标记分类模型的有效性、稳定性和鲁棒性。
2、已有的含噪多标记分类方法中研究者们常利用输出空间的标记相关性信息对噪声标记进行消歧,而忽略了输入空间的特征信息。本发明通过聚类的方式得到特征的内部结构信息对含噪数据集进行消歧,为每个类别生成更具代表性的特征信息,在一定程度上降低了噪声标记的影响。
附图说明
图1是文档分类装置的工作流程图;
图2是本发明方法的流程图;
图3是候选标记消歧阶段的流程图;
图4是预测模型构建阶段的流程图。
具体实施方式
下面结合附图和具体实施方式,进一步阐明本发明,应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。需要说明的是,下面描述中使用的词语“前”、“后”、“左”、“右”、“上”和“下”指的是附图中的方向,词语“内”和“外”分别指的是朝向或远离特定部件几何中心的方向。
如图1所示,以文档分类的过程为例。文档存储设备中包含了大量有歧义的主题文档,每个文档被标记为了多个主题,其中只有少部分主题属于此文档的真实主题,且真实主题个数未知。在对文档真实主题进行判断时,用户首先从全部有歧义的文档中选择N篇样例文档提交给文档分类器(计算机模型)处理。此时需要对待分类的文档提取特征,这一步一般使用一些针对中文文本的特征降维技术,例如词频(Term Frequency,记为TF)、词频-逆文档词频(Term Frequency-Inverse Document Frequency,记为TF-IDF)等。提取完文档的特征后,本发明提出的文档分类器第一阶段中根据每个主题对应的特征空间内部结构信息对有歧义的文档进行消歧。第二阶段基于已消歧的主题文档库,为每个主题构建类属特征映射,根据每个主题的类属特征映射构建与该主题对应的二分类数据集,并训练生成二分类模型。得到最终的分类模型后,当有未知主题的文档需要预测时,以同样的方式抽取特征,再用此分类模型预测并返回分类结果。如图1所示。如果用户对所得结果不满意,可以从文档库中选取更多的样例文档反馈给文档分类装置。
本发明涉及的方法如图2所示。步骤10是起始动作。假设用户提交的样例文档集合D={(x
图3给出了步骤11的详细描述,利用各标记对应的特征空间内部结构信息对有歧义文档集合进行消歧。步骤1100是起始动作。步骤1101至步骤1113构成循环体,循环的每一轮中针对第k个标记进行消歧操作。其中步骤1103至步骤1112构成循环体,循环的每一轮选出一定数量置信度低的样本进行类别校正。具体来说,步骤1105中将标记y
步骤1106至步骤1108中利用k-means算法分别将
步骤1109中训练一个二分类模型用来得到样本的置信度排序,选择一定数量置信度值较小的样本组成待确定伪正样本子集U
步骤1111中使用步骤1110中计算的距离判断该样本是否为噪声样本,若是则校正该样本类别,如式(4)所示。
当所有类别完成消歧操作后,即将进入步骤1114的结束状态。
图4给出步骤12的详细描述,基于步骤12得到的已消歧文档集合D′={(x
步骤1204至步骤1206中利用k-means算法分别将
步骤1208中根据标记y
步骤1209中基于上述二分类数据集D′
本发明给出了一种基于类属特征构造的含噪多标记分类方法,该方法分为两个阶段,第一阶段中为每个标记构建其正负样本集合,并计算正负样本集合的聚类中心用来表示该标记对应特征的内部结构信息,之后利用特征的内部结构信息对置信度值小的样本进行类别校正;第二阶段中为每个标记分别构建类属特征映射,将数据集转换成该标记对应的二分类数据集并学得二分类模型,对未知示例需先进行类属特征映射,再利用分类模型预测其标记集合。基于这种方法进行学习和训练,可以提高多标记分类模型的有效性、稳定性和鲁棒性。
本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段,还包括由以上技术特征任意组合所组成的技术方案。
机译: 例如的图像构造方法油气藏,涉及计算分类物理性质的概率定律,并通过依法随机选择构造图像来确定分类属性的值
机译: 对分类属于尺寸特征组的物品(尤其是铆钉,螺栓等)的方法和机器进行了改进。
机译: 基于面部纹理信息构造分类器的方法和装置以及使用面部纹理信息的统计特征识别面部的方法和装置