基于多视角的多类型错误全面检测方法

彭锦峰; 申德荣; 寇月; 聂铁铮

首页> 中文期刊> 《软件学报》 >基于多视角的多类型错误全面检测方法

基于多视角的多类型错误全面检测方法

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

随着信息化社会的发展,数据的规模越发庞大,数据的种类也越发丰富.时至今日,数据已经成为国家和企业的重要战略资源,是科学化管理的重要保障.然而,随着社会生活产生的数据日益丰富,大量的脏数据也随之而来,数据质量问题油然而生.如何准确而全面地检测出数据集中所包含的错误数据,一直是数据科学中的痛点问题.尽管已有许多传统方法被广泛用于各行各业,如基于约束与统计的检测方法,但这些方法通常需要丰富的先验知识与昂贵的人力和时间成本.受限于此,这些方法往往难以准确而全面地检测数据.近年来,许多新型错误检测方法利用深度学习技术,通过时序推断、文本解析等方式取得了更好检测效果,但它们通常只适用于特定的领域或特定的错误类型,面对现实生活中的复杂情况,泛用性不足.基于上述情况,结合传统方法与深度学习技术的优点,提出了一个基于多视角的多类型错误全面检测模型CEDM.首先,从模式的角度,结合现有约束条件,在属性、单元和元组层面进行多维度的统计分析,构建出基础检测规则;然后,通过词嵌入捕获数据语义,从语义的角度分析属性相关性、单元关联性与元组相似性,进而基于语义关系,从多个维度上更新、扩展基础规则;最终,联合多个视角对多种类型的错误进行全面检测.在多个真实数据集与合成数据集上进行了实验,结果表明,该方法优于现有的错误检测方法,并且能够适用于多种错误类型与多种领域,具有更高的泛用性.

著录项

来源
《软件学报》 |2023年第3期|1049-1064|共16页
作者
彭锦峰; 申德荣; 寇月; 聂铁铮;
展开▼
作者单位

东北大学计算机科学与工程学院;

展开▼
原文格式 PDF
正文语种 chi
中图分类程序设计、软件工程;
关键词
数据质量; 错误检测; 多视角; 数据语义;

相似文献

中文文献
外文文献
专利

1. 基于高中英语作文错误类型分析的教学方法 [J] . 袁卉 . 作文教学研究 . 2015,第006期
2. 基于高中英语作文错误类型分析的教学方法 [J] . 党素艳 . 教学研究 . 2010,第005期
3. 基于错误损失视角的梯形模糊多属性群决策方法 [J] . 黄灏然 ,蔡肯 ,贝海坚 . 统计与决策 . 2019,第6期
4. 中介语视角下的大学英语写作语际错误类型分析 [J] . 高先丽 . 河北能源职业技术学院学报 . 2019,第2期
5. 基于联邦学习的跨源数据错误检测方法 [J] . 陈璐 ,郭宇翔 ,葛丛丛 . 软件学报 . 2023,第3期
6. 一种基于关联分析与N-Gram的错误参数检测方法 [C] . Chao Li ,李超 ,Hui Liu . 第十六届全国软件与应用学术会议 . 2017

基于多视角的多类型错误全面检测方法

摘要

著录项

相似文献

相关主题

期刊订阅