数据清洗
数据清洗的相关文献在2000年到2023年内共计1593篇,主要集中在自动化技术、计算机技术、电工技术、无线电电子学、电信技术
等领域,其中期刊论文778篇、会议论文43篇、专利文献811666篇;相关期刊426种,包括电脑知识与技术、计算机工程、计算机工程与设计等;
相关会议39种,包括第33届中国数据库学术会议(NDBC2016 )、第十五届海峡两岸智能运输系统学术研讨会、2014年第五届全国知识组织与知识链接学术交流会等;数据清洗的相关文献由4270位作者贡献,包括曹建军、王宏志、于戈等。
数据清洗—发文量
专利文献>
论文:811666篇
占比:99.90%
总计:812487篇
数据清洗
-研究学者
- 曹建军
- 王宏志
- 于戈
- 刁兴春
- 张亮
- 张伟
- 高宏
- 刘军
- 刘波
- 李刚
- 盛戈皞
- 聂铁铮
- 丁小欧
- 刘洋
- 张勇
- 张旭
- 李建中
- 李莉
- 杨光
- 杨祎
- 潘竞旭
- 谢宇
- 赵敏
- 陈刚
- 陈勇
- 陈玉峰
- 刘永前
- 刘涛
- 刘磊
- 叶鸥
- 周傲英
- 周冲成
- 唐雪飞
- 孙棣华
- 张磊
- 彭琮
- 李强
- 李明
- 李超
- 李鹏
- 沈小军
- 王浩
- 申德荣
- 董逸生
- 赵勇
- 郑奇斌
- 郭志红
- 陈科
- 韩爽
- 黄勇
-
-
王堃;
张立中;
冯国礼;
刘家琦
-
-
摘要:
构建水电站信息设备异常智能监测系统能够有效整合海量的离散数据资源,实时跟踪水电站设备运行状态。由于水电站运行模块众多,数据纷杂繁复,研究开发了智能水电站一体化监测数据平台。考虑水电站设备运动状态和健康状态,研究构建了基于状态和性能的水电站信息设备异常自动报警系统。使用函数阈值确定设备动态状态的动态阈值,利用网格阈值确定设备健康状态的动态阈值。利用相似影响因子趋势分析和类比分析步骤,完成设备异常趋势预警和提示型报警。应用结果表明,该系统在调速油系统漏油监测和水电站机组稳定性巡检中,能够及时发现设备异常,并向工作人员发出警告。该结果证明了设计的运行监测系统的实用性,能为大型水电站设备状态监测提供技术支持。
-
-
赵莉;
孙娜;
李丽萍;
崔杰
-
-
摘要:
为提高数据质量及使数据能够适用于数据分析及数据挖掘算法,获取的数据需要进行数据清洗,讨论了缺失值的处理方法,及使用python编程语言实现拉格朗日函数对数据集的清洗,并给出清洗前后线图用于对比分析。
-
-
孙国君
-
-
摘要:
目的为了实现医疗器械信息的静态管理和动态管理,设计一种基于数据驱动模型的医疗器械信息综合管理系统。方法系统的信息采集层利用AXIe高速数据采集传输接口,采集和存储医疗器械信息后,将采集到的信息传送至数据驱动层;数据驱动层利用驱动引擎、挖掘引擎和基于误差反馈的数据清洗方法,清洗接收到的信息并将其存储至数据仓库中;应用管理层整合数据仓库中的信息,依据用户的需求利用相应的接口获取所需的相关服务,查询、调整以及更新医疗器械信息。结果测试结果表明,该系统DB指数均在0.35以下,写入带宽标准均低于0.004 Mbps,序列插补平均相对误差均在0.4以下,具备良好的信息聚类效果、远程写入性能以及更新、修改、调用等操作功能。结论可实现信息的静态管理和动态管理,能够为医疗器械信息管理领域进一步发展奠定坚实的基础。
-
-
龚成清;
何文华
-
-
摘要:
随着人工智能技术的发展,机器学习的应用日益广泛,针对机器学习的攻击也相伴而生.数据投毒攻击是针对机器学习的一种攻击方式,它通过污染数据使得机器学习得到错误的结果,从而带来安全隐患.针对校园人脸识别的数据投毒攻击,通过孤立森林算法对人脸图像进行清洗,加快过滤被污染的数据样本;针对单个谱聚类算法的不足,结合多谱聚类评估算法对训练样本进行客观评分,提高算法的鲁棒性;通过线性拟合得到数据清洗和算法鲁棒性的最优平衡点,最优化单个谱聚类算法的性能.使用本校人脸识别系统中的1500张人脸图像进行了仿真实验,实验表明,算法快速有效.
-
-
陈虎;
孙彦丛
-
-
摘要:
DT(Data Technology,数据技术)时代下,数据正成为企业的核心资产。财务作为企业天然的数据中心,能够应用数据科学和数字技术解锁海量数据中的价值,推动企业变革,助力企业发展创新。本文结合DT时代的企业发展和财务管理特点提出财务数据价值链概念,其由业务、数据和技术三大核心要素构成,分为业务需求分析和数据采集、清洗、探索、算法、可视化六个基本步骤,财务部门通过构建数据价值链挖掘数据价值,赋能企业决策创新,并探究在此过程中财务部门将经历的一系列变革和实践中应用财务数据价值链需要考虑的因素,以期为财务的未来发展提供参考。
-
-
陈鑫龙;
马荣贵;
梁红涛;
廖飞钦
-
-
摘要:
以路面高程激光点云为研究对象,提出一种基于法向量距离的路面坑槽提取方法.首先对路面高程点云数据进行数据清洗;其次采用自适应最优邻域的PCA方法估算路面点云数据的法向量,通过计算路面点云中采样点到其局部二次曲面的切平面的法向距离作为法向量距离;以法向量距离描述采样点的三维空间特征,并通过阈值分割自动提取路面坑槽点云集合,通过Mean-Shift聚类算法分割路面坑槽点云集合得到多个坑槽点集;最后针对每个坑槽点集,采用Alpha Shape算法提取坑槽边界点,对坑槽边界点进行三次样条插值拟合得到坑槽轮廓,据此计算坑槽尺寸(长度、宽度、深度)、面积信息.以规则坑槽模型点云数据与真实路面点云数据进行实验,本文方法提取坑槽的深度的相对误差的均值分别为2.7%,4.7%,提取坑槽面积的相对误差的均值分别为6.8%,4.3%.实验结果表明本文方法可以精确提取路面坑槽边界点及其尺寸信息,且对于不规则形状坑槽的识别及提取具有较强的抗干扰性.
-
-
叶宽;
杨博;
朱戎;
谢欢;
赵蕾
-
-
摘要:
为在电网应用环境中实现对异常传输电子量的精确化处理,提出基于深度学习的电力系统异常数据自动捕获方法。联合Caffe深度学习框架,清洗各类型电力数据资源,通过异常检测标签编码的方式,实现基于深度学习的电力系统异常数据检测。在此基础上,设置多层次的自动化协议栈架构,借助异常数据拷贝计划,建立必要的数据捕获映射条件,实现基于深度学习的电力系统异常数据自动捕获方法的顺利应用。对比实验结果表明,与机器学习型捕获手段相比,深度学习捕获法在单位时间内所能处理的异常传输电子数量值更大,而所需的消耗等待时间却相对更短,符合精确化处理异常传输电子量的实际应用需求。
-
-
郭春丽;
纪树峰;
林源;
黄海松;
王俐良
-
-
摘要:
中医药经过数千年的发展,积累了大量的各种类型的数据。很多研究人员利用大数据技术,对方剂或药品数据预处理后,使用相关算法挖掘和探寻疾病诊疗规律,为新药研制、疾病诊治、医学科研提供科学的依据。但随着方剂规模的增大,人工预处理的方式效率低且易出错。因此,文章提出一种基于Aho_Corasick算法的清洗方法,将药物作为模式串,对方剂或药品的药物信息进行识别,规范统一方剂中的药物名称,为后续挖掘工作提供高质量的数据。实验结果显示,准确率达到95%以上,数据清洗效果明显。
-
-
刘云波;
熊文平;
鲁志强
-
-
摘要:
地名地址数据是“天地图”的重要组成部分,其精度要求高、覆盖范围大、内容涵盖广。为确保地名地址数据的权威性、准确性和及时性,必须实现地名地址数据持续、快速在线动态更新。据此,文章提出并设计了一个地名地址数据库动态更新流程,应用数据清洗、一体化采集系统、词向量分析、提取增减量数据包等关键技术,保证项目作业成果数据的权威准确、现势性强,目的是为政府部门和社会公众提供更加准确、详实的地名地址服务,以满足“智慧城市”多样化应用的需求。
-
-
-
陈旺;
张云翼;
林佳瑞
- 《第六届全国BIM学术会议》
| 2020年
-
摘要:
建筑能耗预测和建筑节能调控与用能优化具有重要意义.然而,目前有关建筑能耗预测方法只针对特定的数据类型,省略数据清洗过程,且往往实现过程较为复杂,可借鉴性较差.本研究提出一个预测建筑能耗的完整流程,详细论述了流程的四个步骤:确定主要影响因素、脏数据识别与标记、数据清洗、模型构建与对比,并对比了流程中可以采用的几种大数据清洗方法和预测模型构建方法.最后通过一个案例研究验证了该流程的科学性与有效性.
-
-
周世恒
- 《第十一届全国地质档案资料学术研讨会》
| 2018年
-
摘要:
高质量的油气资源数据库是支撑勘探开发工作顺利进行的重要保证.在资源整合过程中由于数据采集源头的多样性与异构性,系统中不可避免地会存在大量"脏数据"(Dirty Data).本文分析了信息系统中产生脏数据的原因,研究了消除脏数据的解决方案.设计了数据清洗基本流程、清洗策略及其算法,并在勘探动态库资源整合工作获得了较好的应用.
-
-
-
-
马鸿超;
张坤丽;
赵悦淑;
昝红英;
庄雷
- 《第十六届全国计算语言学学术会议暨第五届基于自然标注大数据的自然语言处理国际学术研讨会》
| 2017年
-
摘要:
中文产科电子病历中蕴含着大量的医疗知识和健康信息,针对电子病历的信息抽取及辅助诊断对提高人口的生育健康水平具有重要意义.电子病历中首次病程记录的入院诊断是根据主诉、辅助检查、查体等信息得出的,通常情况下诊断中包含正常诊断、病理诊断及并发症,非单一结果,因此该文将辅助诊断问题转化为多标记分类任务.在对产科电子病历首次病程记录进行数据清洗和结构化的基础上,规范化诊断结论,将LDA所抽取的文本特征与病历中的数字特征采用向量拼接的方法融合为新的特征,按诊断结果出现的频次不同形成不同的多标记集,根据首次病程中部分信息进行辅助诊断,采用RAkEL、MLkNN、CC和BP-MLL方法进行多标记分类.实验结果表明采用融合特征的多标记分类方法能够提升中文产科电子病历辅助诊断的效果.
-
-
王彦侨
- 《第五届全国文献编目工作研讨会》
| 2017年
-
摘要:
伴随互联网、物联网、云计算和智能阅读终端的不断发展与普及,图书馆界已进入大数据时代.联合目录汇集图书馆和其他文献机构的书目信息、名称规范信息、主题规范信息、馆藏信息等,是图书馆非常重要的数据资源.在大数据时代,联合目录的建设不再单纯依靠成员馆单条上传数据,而是包含批量提交、数据收割、自动采集等多种方式,对质量控制提出更高要求.在大数据时代,联合目录的质量管理可以借鉴大数据的思维和方法,多途径检查,多方位控制,将人工审核与数据清洗有机结合起来。需要不断探索书目共享模式,研究数据采集和处理方法,提高系统的工作效率、准确度和通用性,最大限度地提高数据质量,为用户服务奠定基础。
-
-
-
- 《第33届中国数据库学术会议(NDBC2016 )》
| 2016年
-
摘要:
原始RFID数据流存在大量不确定性数据,必须先清洗才能进一步处理,离群点检测是RFID数据清洗的一种有效手段.本文用改进的点概率数据模型描述不确定RFID数据流,利用小波密度估计的多尺度和多粒度的特点,采用自适应小波密度阈值判断当前滑动窗口内的RFID数据元组是否为离群点,并对不确定RFID数据流中离群点检测的过程进行讨论.仿真实验结果表明,与已有的基于核密度估计算法相比,对于不确定性RFID数据流的数据清洗效率与精度有显著提高.
-
-