公开/公告号CN118313257A
专利类型发明专利
公开/公告日2024-07-09
原文格式PDF
申请/专利权人 浙江工商大学;
申请/专利号CN202410455999.2
发明设计人
申请日2024-04-16
分类号G06F30/27;G06F17/18;G06N5/04;G06F111/08;
代理机构杭州奥创知识产权代理有限公司;
代理人王佳健
地址 310018 浙江省杭州市下沙高教园区学正街18号
入库时间 2024-07-23 01:35:12
技术领域
本发明属于众包领域中的任务真值推理技术领域,具体涉及一种基于非独立特征的众包标注结果汇聚方法及装置。
背景技术
随着机器学习和神经网络的发展,监督学习任务通常需要大量带标签的数据训练实例来生成理想的模型。为了获得大量的标签数据,研究人员让领域内的专家来帮助自己标注数据,但是而专家资源通常很昂贵并且是有限的,并且收集足够的标签是耗时的。随着Amazon Mechanical Turk、CrowdFlower等众包平台的出现及发展,提供了一种更容易获取标记的方式,见图1,通过将标注任务分配给网络上容易访问的非专家,众包可以快速地收集大量的监督信息,在自然语言处理、医学诊断、图像识别和命名实体识等领域得到广泛的应用。
尽管众包在这些领域提供了显著的效率和成本优势,但也存在挑战,众包平台中的工作人员并非专家。他们中的大多数人没有深厚的专业知识,可能存在偏见。即使这些工人竭尽全力认真完成任务,他们仍然可能犯错误,往往得到的数据准确率达不到研究人员的要求。为了解决众包中非专家工作者的不确定性,通常每个对象都由多个不确定的工作者重复标记,然后通过真值推理算法估计每个对象的集成标签,真值推理算法希望推理得到的集成标签是对象的未知真实标签。如何从众多结果中剔除无用信息和错误信息,最终汇聚或推理出可信结果是非常具有挑战性的问题,因此众包真值推理具有很大的研究空间和现实意义。
发明内容
针对众包系统中工人受到主观和客观影响,导致提交的答案质量参差不齐,通过结果汇聚算法推断任务的真实类别准确率不高的问题,本发明提供了一种基于非独立特征的众包标注结果汇聚方法及装置。
本发明的第一方面,提供了基于非独立特征的众包标注结果汇聚方法,该方法包括如下步骤:
从众包平台收集带有任务类别标注和任务特征标注的众包数据集;
建立任务模型,包括在已知观测数据的情况下建立工人对任务类别和任务特征标注的条件概率以及任务类别与非独立任务特征之间的关系;
建立目标函数,即在参数θ下极大化观测数据L的对数似然函数lnp(L|Θ);
使用EM算法极大化对数似然函数求解模型参数。
本发明的第二方面,提供了基于非独立特征的众包标注结果汇聚装置,包括:
众包数据集收集模块,用于从众包平台收集带有任务类别标注和任务特征标注的众包数据集;
任务模型建立模块,用于建立任务模型,包括在已知观测数据的情况下建立工人对任务类别和任务特征标注的条件概率以及任务类别与非独立任务特征之间的关系;
目标函数建立模块,用于建立目标函数,即在参数θ下极大化观测数据L的对数似然函数lnp(L|Θ);
求解模块,用于使用EM算法极大化对数似然函数求解模型参数。
本发明的有益效果:
本发明通过在模型中引入任务特征,利用来自这些任务特征的附加信息来提高推理汇聚方法的性能。本发明不仅对真实标签和工人标注的标签之间的关系进行了建模,还对真实标签与任务特征之间的关系也进行了建模,为了充分利用任务特征之间存在的某些联系,本发明假设任务特征之间是非独立的。
附图说明
图1为众包平台工作流程图;
图2为本申请实施例的主要思想图;
图3为本申请实施例的实现逻辑图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明的具体实施方式进行详细说明。这些优选实施方式的示例在附图中进行了例示。附图中所示和根据附图描述的本发明的实施方式仅仅是示例性的,并且本发明并不限于这些实施方式。
在此,还需要说明的是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的结构和/或处理步骤,而省略了与本发明关系不大的其他细节
如图2和图3所示,本申请实施例提供了基于非独立特征的众包标注结果汇聚方法,包含以下步骤:
步骤(1)、将待标注数据集中的图片以及设计的问题(包括类别问题和特征问题)发布在众包平台上,平台将任务分发给众包工人,众包工人完成标注并将结果提交给平台,从众包平台收集带有任务类别标注和任务特征标注的众包数据集;
例如,选取鸟类数据集,将鸟的图片发布在众包平台上,设计的类别问题是图中的鸟是长尾鹦鹉、夜莺还是麻雀等,特征问题是图中的鸟的身体是什么颜色、鸟喙是什么形状、有没有鸟冠等,让众包工人回答这些类别问题和特征问题,见图2。
步骤(2)、收集到众包数据集之后,建立任务模型,主要包括在已知观测数据(任务类别标签和特征标签)的情况下建立工人对任务类别和任务特征标注的条件概率以及任务类别与非独立任务特征之间的关系。
步骤(3)、建立目标函数,即在参数θ下极大化观测数据L的对数似然函数lnp(L|Θ),其中参数θ包括工人标注任务类别和任务特征的能力以及任务类别与非独立任务特征组合之间的关系矩阵。
步骤(4)、使用EM算法极大化对数似然函数求解模型参数,模型参数包括工人标注任务类别的能力、工人标注任务特征的能力以及任务类别和非独立任务特征组合之间的关系矩阵。
在某一实施例中,所述步骤(2)中包含以下步骤:
(2-1)工人对任务类别和任务特征标注的条件概率公式如下:
其中z
(2-2)由于特征之间不独立,先假设任务类别标签共有K种,任务特征共有u种,集合e
建立任务类别与任务特征之间关系模型如下:
其中C
本步骤三主要解决在任务特征非独立时,如何构建众包工人对任务类别标注的概率模型以及任务类别与任务特征之间所有可能组成的有序对之间的关系模型。本步骤通过将单一工人对任务不同种类的任务特征标注能力看成该工人固有能力属性,构建工人标注结果的概率分布模型。通过计算笛卡尔积获得各种特征之间组成的所有可能的有序对,建立任务类别与每种特征组成的有序对之间的关系模型,解决了在任务特征非独立时工人对任务特征以及任务类别和每种特征组成的有序对之间关系模型的建立。
在某一实施例中,所述步骤(3)中包含以下步骤:
(3-1)基于步骤2中建立的工人对任务类别和任务特征标注模型以及任务类别与任务特征之间关系模型,假设众包工人之间是独立的和任务特征之间非独立的情况下,建立目标函数如下:
本步骤三主要根据步骤二中工人对任务类别和任务特征标注模型以及任务类别与任务特征之间关系模型构建目标函数。
在某一实施例中,所述步骤(4)中包含以下步骤:
(4-1)用EM算法求解目标函数。E步:计算在已知观测数据L的情况下,任务i属于类别c
(4-2)M步:基于上一个E步中获得的任务集合的真实任务类别集Z的后验概率,最大化辅助函数Q,Q函数计算如下式所示:
(4-3)将E步得出的结果带入Q函数,使用拉格朗日乘子法求解模型参数,即每位工人标注任务类别的能力、工人标注任务特征的能力以及任务类别和任务特征之间的关系矩阵,得到的参数如下:
不断更新迭代直到参数收敛,最后得到每位工人标注任务类别的能力、工人标注任务特征的能力以及任务类别和任务特征之间的关系矩阵,最后利用最大后验概率,完成众包标注结果汇聚,即:
本步骤四主要解决如何求解目标函数,本发明通过使用EM算法不断更新迭代模型参数,直至参数收敛,最后计算得到任务类别标签与任务特征标签,完成众包标注结果汇聚。为每个任务类别标注添加额外任务特征标注,利用任务特征信息改善结果汇聚标签质量问题。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的众包标注结果汇聚方法的众包标注结果汇聚装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个众包标注结果汇聚装置实施例中的具体限定可以参见上文中对于众包标注结果汇聚方法的限定,在此不再赘述。
在一个实施例中,提供了一种众包标注结果汇聚装置,包括:
众包数据集收集模块,用于从众包平台收集带有任务类别标注和任务特征标注的众包数据集;
任务模型建立模块,用于建立任务模型,包括在已知观测数据的情况下建立工人对任务类别和任务特征标注的条件概率以及任务类别与任务特征之间的关系;
目标函数建立模块,用于建立目标函数,即在参数θ下极大化观测数据L的对数似然函数lnp(L|Θ);
求解模块,用于使用EM算法极大化对数似然函数求解模型参数。
此外,需要说明的是,在本说明书中,“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
机译: 基于数据挖掘和众包的数据标注方法和系统
机译: 根据基于众包的项目的特征,提供基于AI的教学制作服务的方法和装置
机译: 基于正交非负矩阵分解建立基础矩阵的用户方法的特征识别装置及基于正交半监督非负矩阵分解建立基础矩阵的用户方法的特征识别装置