您现在的位置: 首页> 研究主题> 数据清洗

数据清洗

数据清洗的相关文献在2000年到2023年内共计1593篇,主要集中在自动化技术、计算机技术、电工技术、无线电电子学、电信技术 等领域,其中期刊论文778篇、会议论文43篇、专利文献811666篇;相关期刊426种,包括电脑知识与技术、计算机工程、计算机工程与设计等; 相关会议39种,包括第33届中国数据库学术会议(NDBC2016 )、第十五届海峡两岸智能运输系统学术研讨会、2014年第五届全国知识组织与知识链接学术交流会等;数据清洗的相关文献由4270位作者贡献,包括曹建军、王宏志、于戈等。

数据清洗—发文量

期刊论文>

论文:778 占比:0.10%

会议论文>

论文:43 占比:0.01%

专利文献>

论文:811666 占比:99.90%

总计:812487篇

数据清洗—发文趋势图

  • 期刊论文
  • 会议论文
  • 专利文献

搜索

排序:

年份

作者

    • 王堃; 张立中; 冯国礼; 刘家琦
    • 摘要: 构建水电站信息设备异常智能监测系统能够有效整合海量的离散数据资源,实时跟踪水电站设备运行状态。由于水电站运行模块众多,数据纷杂繁复,研究开发了智能水电站一体化监测数据平台。考虑水电站设备运动状态和健康状态,研究构建了基于状态和性能的水电站信息设备异常自动报警系统。使用函数阈值确定设备动态状态的动态阈值,利用网格阈值确定设备健康状态的动态阈值。利用相似影响因子趋势分析和类比分析步骤,完成设备异常趋势预警和提示型报警。应用结果表明,该系统在调速油系统漏油监测和水电站机组稳定性巡检中,能够及时发现设备异常,并向工作人员发出警告。该结果证明了设计的运行监测系统的实用性,能为大型水电站设备状态监测提供技术支持。
    • 赵莉; 孙娜; 李丽萍; 崔杰
    • 摘要: 为提高数据质量及使数据能够适用于数据分析及数据挖掘算法,获取的数据需要进行数据清洗,讨论了缺失值的处理方法,及使用python编程语言实现拉格朗日函数对数据集的清洗,并给出清洗前后线图用于对比分析。
    • 孙国君
    • 摘要: 目的为了实现医疗器械信息的静态管理和动态管理,设计一种基于数据驱动模型的医疗器械信息综合管理系统。方法系统的信息采集层利用AXIe高速数据采集传输接口,采集和存储医疗器械信息后,将采集到的信息传送至数据驱动层;数据驱动层利用驱动引擎、挖掘引擎和基于误差反馈的数据清洗方法,清洗接收到的信息并将其存储至数据仓库中;应用管理层整合数据仓库中的信息,依据用户的需求利用相应的接口获取所需的相关服务,查询、调整以及更新医疗器械信息。结果测试结果表明,该系统DB指数均在0.35以下,写入带宽标准均低于0.004 Mbps,序列插补平均相对误差均在0.4以下,具备良好的信息聚类效果、远程写入性能以及更新、修改、调用等操作功能。结论可实现信息的静态管理和动态管理,能够为医疗器械信息管理领域进一步发展奠定坚实的基础。
    • 龚成清; 何文华
    • 摘要: 随着人工智能技术的发展,机器学习的应用日益广泛,针对机器学习的攻击也相伴而生.数据投毒攻击是针对机器学习的一种攻击方式,它通过污染数据使得机器学习得到错误的结果,从而带来安全隐患.针对校园人脸识别的数据投毒攻击,通过孤立森林算法对人脸图像进行清洗,加快过滤被污染的数据样本;针对单个谱聚类算法的不足,结合多谱聚类评估算法对训练样本进行客观评分,提高算法的鲁棒性;通过线性拟合得到数据清洗和算法鲁棒性的最优平衡点,最优化单个谱聚类算法的性能.使用本校人脸识别系统中的1500张人脸图像进行了仿真实验,实验表明,算法快速有效.
    • 陈虎; 孙彦丛
    • 摘要: DT(Data Technology,数据技术)时代下,数据正成为企业的核心资产。财务作为企业天然的数据中心,能够应用数据科学和数字技术解锁海量数据中的价值,推动企业变革,助力企业发展创新。本文结合DT时代的企业发展和财务管理特点提出财务数据价值链概念,其由业务、数据和技术三大核心要素构成,分为业务需求分析和数据采集、清洗、探索、算法、可视化六个基本步骤,财务部门通过构建数据价值链挖掘数据价值,赋能企业决策创新,并探究在此过程中财务部门将经历的一系列变革和实践中应用财务数据价值链需要考虑的因素,以期为财务的未来发展提供参考。
    • 陈鑫龙; 马荣贵; 梁红涛; 廖飞钦
    • 摘要: 以路面高程激光点云为研究对象,提出一种基于法向量距离的路面坑槽提取方法.首先对路面高程点云数据进行数据清洗;其次采用自适应最优邻域的PCA方法估算路面点云数据的法向量,通过计算路面点云中采样点到其局部二次曲面的切平面的法向距离作为法向量距离;以法向量距离描述采样点的三维空间特征,并通过阈值分割自动提取路面坑槽点云集合,通过Mean-Shift聚类算法分割路面坑槽点云集合得到多个坑槽点集;最后针对每个坑槽点集,采用Alpha Shape算法提取坑槽边界点,对坑槽边界点进行三次样条插值拟合得到坑槽轮廓,据此计算坑槽尺寸(长度、宽度、深度)、面积信息.以规则坑槽模型点云数据与真实路面点云数据进行实验,本文方法提取坑槽的深度的相对误差的均值分别为2.7%,4.7%,提取坑槽面积的相对误差的均值分别为6.8%,4.3%.实验结果表明本文方法可以精确提取路面坑槽边界点及其尺寸信息,且对于不规则形状坑槽的识别及提取具有较强的抗干扰性.
    • 叶宽; 杨博; 朱戎; 谢欢; 赵蕾
    • 摘要: 为在电网应用环境中实现对异常传输电子量的精确化处理,提出基于深度学习的电力系统异常数据自动捕获方法。联合Caffe深度学习框架,清洗各类型电力数据资源,通过异常检测标签编码的方式,实现基于深度学习的电力系统异常数据检测。在此基础上,设置多层次的自动化协议栈架构,借助异常数据拷贝计划,建立必要的数据捕获映射条件,实现基于深度学习的电力系统异常数据自动捕获方法的顺利应用。对比实验结果表明,与机器学习型捕获手段相比,深度学习捕获法在单位时间内所能处理的异常传输电子数量值更大,而所需的消耗等待时间却相对更短,符合精确化处理异常传输电子量的实际应用需求。
    • 郭春丽; 纪树峰; 林源; 黄海松; 王俐良
    • 摘要: 中医药经过数千年的发展,积累了大量的各种类型的数据。很多研究人员利用大数据技术,对方剂或药品数据预处理后,使用相关算法挖掘和探寻疾病诊疗规律,为新药研制、疾病诊治、医学科研提供科学的依据。但随着方剂规模的增大,人工预处理的方式效率低且易出错。因此,文章提出一种基于Aho_Corasick算法的清洗方法,将药物作为模式串,对方剂或药品的药物信息进行识别,规范统一方剂中的药物名称,为后续挖掘工作提供高质量的数据。实验结果显示,准确率达到95%以上,数据清洗效果明显。
    • 刘云波; 熊文平; 鲁志强
    • 摘要: 地名地址数据是“天地图”的重要组成部分,其精度要求高、覆盖范围大、内容涵盖广。为确保地名地址数据的权威性、准确性和及时性,必须实现地名地址数据持续、快速在线动态更新。据此,文章提出并设计了一个地名地址数据库动态更新流程,应用数据清洗、一体化采集系统、词向量分析、提取增减量数据包等关键技术,保证项目作业成果数据的权威准确、现势性强,目的是为政府部门和社会公众提供更加准确、详实的地名地址服务,以满足“智慧城市”多样化应用的需求。
    • 李贲; 王闯胜
    • 摘要: 本文对能源数据清洗的作用以及几种方法进行探究,使能源数据质量支持深入分析和挖掘。使得能源管理系统的制造商以及能源使用方,对能源大数据分析和深入探究所用到的数据源是准确、有效的。
  • 查看更多

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号