数据缺失
数据缺失的相关文献在1996年到2023年内共计415篇,主要集中在自动化技术、计算机技术、电工技术、统计学
等领域,其中期刊论文240篇、会议论文12篇、专利文献547066篇;相关期刊195种,包括集团经济研究、统计研究、中国电子商务等;
相关会议10种,包括第13届全国博士生学术年会——物联网专题、中国农业工程学会2013年学术年会、2012年重庆市电机工程学会学术会议等;数据缺失的相关文献由1119位作者贡献,包括冯宁、徐元、赵钦君等。
数据缺失—发文量
专利文献>
论文:547066篇
占比:99.95%
总计:547318篇
数据缺失
-研究学者
- 冯宁
- 徐元
- 赵钦君
- 部丽丽
- 姜同敏
- 孙富强
- 范晔
- 张勇
- 田霆
- 何静花
- 李晓阳
- 杨慧超
- 王滨
- 王金龙
- 申涛
- 程金
- 赵志文
- 韩春艳
- 丁汉
- 冯心欣
- 刘次华
- 刘金海
- 吴昊
- 唐秀川
- 孙川
- 张化光
- 张磊
- 李丽
- 李扬
- 杨挺
- 杨祎
- 汪刚
- 王静
- 袁烨
- 赵洪山
- 陈月仪
- 马大中
- T.斯托克哈默
- 丁伟锋
- 丁国如
- 仝翠芝
- 任国春
- 任有刚
- 任杰
- 伏洪兵
- 何周泽
- 何静
- 何领朝
- 佘长超
- 余业祥
-
-
李静;
贾玉洁
-
-
摘要:
缺失数据是指数据集中存在未观测到的值。以往研究中很少涉及到对不完整离散数据的统计过程监控问题,为了对缺失数据进行监控,采用4种插值方法来处理缺失数据集,分别是均值插补(MS)、线性回归插补(RG)、随机线性回归插补(SRG)和多重插补(MI)。在仿真中,考虑在5种不同的缺失率下控制图的整体发出失控信号概率,从而比较基于4种插值方法的T^(2)控制图在第一阶段的监控性能。研究结果发现,缺失率较低时线性插补的表现最好,缺失率适中及较高时均值插补的效果最佳。
-
-
刘永裕;
巩晓婷;
方炜杰;
傅仰耿
-
-
摘要:
数据驱动的扩展置信规则库专家系统能够处理含有定量数据或定性知识的不确定性问题.该方法已被广泛地研究和应用,但仍缺乏在不完整数据问题上的研究.鉴于此,针对不完整数据集上的问题,提出一种新的扩展置信规则库专家系统推理方法.首先提出基于析取范式的扩展规则结构,并通过实验讨论了在新的规则结构下,置信规则前提属性参考值个数对推理方法的影响;然后提出通过不完整数据生成具有不完整置信规则,并构成析取范式置信规则库的方法,同时引入衰减因子修正不完整规则权重,使不完整规则可以更合理地参与信息融合过程;最后,选取若干个公共数据集对所提方法进行验证.与其他方法的实验对比显示,新方法在完整数据集上有良好表现的同时,对具有不同缺失程度和缺失模式的数据集表现出更好更稳定的推理效果.
-
-
万军
-
-
摘要:
目的解决大气环境试验站的气象数据报表存在数据缺失、数据超过边界、数据内部不一致、数据时间不一致等问题,采用数据质量审核技术找出缺失、可疑或错误的数据,对科研人员进行警示,使其能够追根溯源,分析存在问题的原因。方法参照相关规程和标准,建立环境因素数据质量审核算法和审核流程,并使用计算机语言编程固化流程和算法,利用多线程算法对数据进行扫描,实现大批量气象数据的并行审核。结果利用Python语言设计了环境因素质量控制软件,通过该软件的应用证明了该方法合理、有效,能够快速、准确地标注气象数据报表中存在质量问题的数据。利用软件统计了存在问题数据的数量和正确率。结论通过加载数据测试,证明了环境因素数据质量审核方法和审核流程合理有效,利用设计的审核软件实现了气象数据报表快速审核,提高了审核效率,减少了科研人员的劳动强度,为进一步填补、修正和利用数据奠定了基础。
-
-
李幔;
马元婧
-
-
摘要:
近年来,空气质量监测微子站监测逐渐成为了空气质量监测网络的重要组成部分.随着经济的不断发展,城市化进程的不断加快,站点的冗余以及代表性降低的问题逐渐显现.由于空气质量监测微子站抵抗突发环境因素能力较弱,极易导致监测数据缺失,不仅会大大增加数据分析的复杂性与难度,还会导致优化布点结果的偏差.本文针对以上问题,提出了一种将BiLSTM神经网络结合聚类的点位优化方法,在应用BiLSTM神经网络补全缺失数据的基础上,应用凝聚层次聚类法对修复后的数据进行聚类.在实现用尽可能少而准确的点位反馈空气质量水平的基础上,大大提升聚类准确度.最后,本文使用沈阳市位于浑南区的18个空气质量监测微子站的监测数据进行实验验证.结果表明,相比于一般的聚类算法,本文提出的算法性能有一定提升,为空气质量监测点位优化提供了一种新方法.
-
-
阮一鸣;
杨建斌
-
-
摘要:
针对分布数据缺失情形下的最优传输问题,给出其基本理论以及优化模型,同时考虑到模型的较大稀疏性,基于熵正则化思想提出了一种数据缺失情形下的最优传输的熵正则化算法,最后将其应用于运输问题和图像检索领域,并给出相应的实例,验证了本文算法及其对提出问题的有效性.
-
-
华南;
马春萍;
朱彦霞;
刘惠萍;
曹彦;
王飞;
张利鹏
-
-
摘要:
本研究针对大数据分析预处理的缺失数据值填补问题及解决方案进行了探讨,提出了一种用于缺失值填充的插补算法。该算法在MissForest算法基础上融合K折交叉验证的思想,通过在不同缺失率下的插补试验与分析表明:该算法的填补误差小于传统的CNN插补算法,运行时间复杂度优于基础的MissForest算法,具有较强的泛化能力。
-
-
陈中林;
杨翠丽;
乔俊飞
-
-
摘要:
针对传统模型对含数据缺失的非完整时间序列预测精度不高的问题,利用长短期记忆(LSTM)神经网络强大的时序建模能力,提出一种带时间门的长短期记忆(TG-LSTM)神经网络.首先,提出一种能同时对输入值在线估计和输出值实时预测的TG-LSTM单元结构;其次,基于TG-LSTM结构设计一种网络的前向传播算法,实现输入填补和输出预测同步进行;然后,建立TG-LSTM神经网络的学习算法来对输入填补和输出预测任务整体训练;最后,通过在Mackey-glass基准数据集,月平均气温数据集和污水处理出水氨氮预测中的实验结果表明:与传统方法相比,TG-LSTM神经网络模型能以更高精度对非完整时间序列进行填补和预测.
-
-
郭昆鹏;
祁柏林;
刘首正;
冯晓宇
-
-
摘要:
随着我国环境监测体系的进一步发展,环境监管已经建成了以标准监测站为主,微型监测站为辅的环境监测体系.但是微型监测站的数据采集过程中由于一些不可控的因素所导致的数据缺失是不可避免的,而这些数据缺失对分析和挖掘这些监测数据造成了一定的影响.本文针对这种空气质量监测数据的缺失问题提出了一种融合双向GRU的数据缺失补充算法.该算法采用1个正向的GRU网络和1个反向的GRU网络并且使用集成学习的思想来分析缺失数据前向和后向的特征,从而获得缺失数据的补充数据.文章使用沈阳市位于不同区域的3个微型监测站的监测数据进行实验,实验表明,融合双向GRU的空气质量监测数据缺失补充算法相比于传统的均值补差法和单向的GRU插值法具备更好的缺失数据补充效果.
-
-
殷雨晨;
陈兆荣
-
-
摘要:
将Monte Carlo EM算法应用到存在缺失数据的多元正态分布数据中,给出了其均值向量的估计公式,并利用R语言进行了不同样本量下的随机模拟,最后将模拟结果与传统均值插补方法进行了对比,结果表明MCEM算法估计效果相比于传统均值插补方法更好.
-
-
张宁
-
-
摘要:
机器学习中数据缺失很普遍,导致数据缺失的因素通常有人为失误、数据处理软件的缺陷、获取数据的传感器错误等。数据缺失会导致机器学习的性能下降,因此缺失值的填补对机器学习任务变得格外重要。针对数据缺失问题,该文提出一种新颖的缺失数据填补方法,构建了一个生成对抗填补网络(简称GAIN)。GAIN主要包括生成器和判别器两个部分,其中生成器(G)用来观察真实数据的每一部分,然后根据观察的结果填补缺失数据的部分,输出一个填补后完整的向量;判别器(D)接受一个完整的向量,来判别哪一部分数据是真实的,哪一部分是被填补的。在4个UCI机器学习标准数据集和石油行业钻井液数据集间进行了实验,验证了GAIN方法的有效性,能提升机器学习任务的性能。
-
-
WAN De-huan;
万德焕
- 《第13届全国博士生学术年会——物联网专题》
| 2015年
-
摘要:
电离层F2层的临界频率(foF2)决定了高频(High Frequency)通信链路最佳通信频率这一最重要参数.所以foF2的缺失可能会对高频通信产生严重的影响.为避免较差的高频通信时段,本文利用美国NOAA和澳大利亚IPS提供的foF2实测数据,研究全球低纬地区foF2数据缺失的分布以及产生缺失的相关原因.结果表明:(1)foF2缺失是一个夜间现象,白天的缺失远比晚上少,并且亚洲区域的缺失表现为夏季的6或7月份的缺失最多、春秋季月份缺失较多、冬季月份则较少;美洲则刚好相反.(2)从一个太阳周期变化上看,foF2的缺失与太阳黑子数有着相反的变化规律,即太阳黑子数越高foF2的数据缺失越少,反之则越高.(3)foF2晚上时段的缺失在午夜前和午夜后的分布有明显不同,且亚洲比美洲明显,表现为夏季时段,午夜后的缺失占据主导,明显比午夜前的多;而在春秋季节,则表现为午夜前的缺失占据主导,明显大于午夜后的.这就说高频通信在上述存在较多缺失的时段可能更易受影响.此外,通过分析我们发现造成晚间foF2缺失的直接原因是扩展F层的出现,并且不同类型的扩展F层造成的缺失分布也会不一样.统计表明,晚间foF2缺失与扩展F层的相关系数高达0.93.本文第一次从数据缺失上,对全球低纬地区foF2实测数据进行研究,得到比较完整的缺失分布特征,并给出了产生缺失的原因,可能对后面的相关研究和HF通信有一定的参考意义.
-
-
-
-
-
-
- 《第九届中国计算机学会服务计算学术会议(NCSC2018)》
-
摘要:
电网电能质量监测过程中,由于种种原因会导致采集的数据存在缺失.针对电网电能质量数据缺失的问题,提出基于相关分析的缺失数据填充方法.该方法首先进行相关分析,通过归一化互信息计算指标间的相关性,然后选择其中最强相关性的指标进行回归分析,并采用自动分段回归的方式得到预测模型,进行缺失数据填充.实验结果表明这种方法平均误差百分比与平均值填充相比提高了20%,平均误差百分比不超过8%,具有较好的准确性.
-
-
-
-