基于联邦学习的跨源数据错误检测方法

陈璐; 郭宇翔; 葛丛丛; 郑白桦; 高云君

首页> 中文期刊> 《软件学报》 >基于联邦学习的跨源数据错误检测方法

基于联邦学习的跨源数据错误检测方法

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

随着海量数据的涌现和不断积累,数据治理成为提高数据质量、最大化数据价值的重要手段.其中,数据错误检测是提高数据质量的关键步骤,近年来引起了学术界及工业界的广泛关注.目前,绝大多数错误检测方法只适用于单数据源场景.然而在现实场景中,数据往往不集中存储与管理.不同来源且高度相关的数据能够提升错误检测的精度.但由于数据隐私安全问题,跨源数据往往不允许集中共享.鉴于此,提出了一种基于联邦学习的跨源数据错误检测方法 FeLeDetect,以在数据隐私保证的前提下,利用跨源数据信息提高错误检测精度.为了充分捕获每一个数据源的数据特征,首先提出一种基于图的错误检测模型GEDM,并在此基础上设计了一种联邦协同训练算法FCTA,以支持在各方数据不出本地的前提下,利用跨源数据协同训练GEDM.此外,为了降低联邦训练的通信开销和人工标注成本,还提出了一系列优化方法.最后,在3个真实数据集上进行了大量的实验.实验结果表明:(1)相较于5种现有最先进的错误检测方法,GEDM在本地场景和集中场景下,错误检测结果的F1分数平均提高了10.3%和25.2%;(2) FeLeDetect错误检测结果的F1分数较本地场景下GEDM的结果平均提升了23.2%.

著录项

来源
《软件学报》 |2023年第3期|1126-1147|共22页
作者
陈璐; 郭宇翔; 葛丛丛; 郑白桦; 高云君;
展开▼
作者单位

浙江大学计算机科学与技术学院;

华为云计算公司数据智能创新Lab;

School of Computing and Information Systems Management University;

展开▼
原文格式 PDF
正文语种 chi
中图分类程序设计、软件工程;
关键词
数据治理; 数据质量; 错误检测; 联邦学习;

相似文献

中文文献
外文文献
专利

1. 基于数据增强和多任务特征学习的中文语法错误检测方法 [J] . 谢海华 ,陈志优 ,程静 . 中文信息学报 . 2022,第12期
2. 基于联邦学习的多源异构数据融合算法 [J] . 莫慧凌 ,郑海峰 ,高敏 . 计算机研究与发展 . 2022,第2期
3. 基于云计算的多源异构大数据跨源调度方法 [J] . . 电子设计工程 . 2019,第002期
4. 基于时空网格的多源大数据跨源调度方法 [J] . 李玮瑶 . 信息记录材料 . 2019,第012期
5. 基于联邦UKF的多源测控数据融合处理方法 [J] . 陈洪 ,惠争虎 ,郑昊鹏 . 飞行器测控学报 . 2013,第001期
6. 基于航空旅客隐私数据保护的联邦学习算法应用模型研究 [C] . 郭睿 ,陈涛 ,刘志强 . 2020互联网安全与治理论坛 . 2020

基于联邦学习的跨源数据错误检测方法

摘要

著录项

相似文献

相关主题

期刊订阅