首页> 中文期刊> 《现代计算机:上半月版》 >面向健康大数据的数据清洗技术

面向健康大数据的数据清洗技术

         

摘要

提出一套完整的健康大数据清洗方案。首先剔除原始数据集中的重复数据,然后,对数据集进行完整性、有效性及一致性验证,最后,使用基于密度的改进孤立点检测算法剔除局部孤立点及全局孤立点。为验证所提方案的有效性,使用Tri-training算法在健康大数据集上进相关实验。实验表明,所提数据清洗方案能够同时识别局部孤立点和全局孤立点,从而显著提高后续数据分类模型的性能。

著录项

  • 来源
    《现代计算机:上半月版》 |2017年第6期|P.21-25|共5页
  • 作者单位

    [1]电子科技大学计算机科学与工程学院 成都611731 [2]东莞成电金盘软件技术有限公司 东莞523808 [3]四川大学华西妇产儿童医院 成都611731 [4]电子科技大学广东电子信息工程研究院 东莞523808;

    [1]电子科技大学计算机科学与工程学院 成都611731 [2]东莞成电金盘软件技术有限公司 东莞523808 [3]四川大学华西妇产儿童医院 成都611731 [4]电子科技大学广东电子信息工程研究院 东莞523808;

    [1]电子科技大学计算机科学与工程学院 成都611731 [2]东莞成电金盘软件技术有限公司 东莞523808 [3]四川大学华西妇产儿童医院 成都611731 [4]电子科技大学广东电子信息工程研究院 东莞523808;

    [1]电子科技大学计算机科学与工程学院 成都611731 [2]东莞成电金盘软件技术有限公司 东莞523808 [3]四川大学华西妇产儿童医院 成都611731 [4]电子科技大学广东电子信息工程研究院 东莞523808;

    [1]电子科技大学计算机科学与工程学院 成都611731 [2]东莞成电金盘软件技术有限公司 东莞523808 [3]四川大学华西妇产儿童医院 成都611731 [4]电子科技大学广东电子信息工程研究院 东莞523808;

    [1]电子科技大学计算机科学与工程学院 成都611731 [2]东莞成电金盘软件技术有限公司 东莞523808 [3]四川大学华西妇产儿童医院 成都611731 [4]电子科技大学广东电子信息工程研究院 东莞523808;

  • 原文格式 PDF
  • 正文语种 chi
  • 中图分类 TP311.13;
  • 关键词

    健康大数据; 数据清洗; 孤立点检测;

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号