您现在的位置: 首页> 研究主题> 缺失值

缺失值

缺失值的相关文献在1992年到2023年内共计316篇,主要集中在自动化技术、计算机技术、经济计划与管理、预防医学、卫生学 等领域,其中期刊论文149篇、会议论文6篇、专利文献31266篇;相关期刊103种,包括人天科学研究、统计与信息论坛、商场现代化等; 相关会议6种,包括第33届中国数据库学术会议(NDBC2016 )、第六届全国地理信息科学博士生学术论坛、2008第四届海峡两岸应用统计学术研讨会等;缺失值的相关文献由917位作者贡献,包括周浩、胡炳谦、韩俊等。

缺失值—发文量

期刊论文>

论文:149 占比:0.47%

会议论文>

论文:6 占比:0.02%

专利文献>

论文:31266 占比:99.51%

总计:31421篇

缺失值—发文趋势图

缺失值

-研究学者

  • 周浩
  • 胡炳谦
  • 韩俊
  • 顾一峰
  • 马千里
  • 张立勇
  • 杨建文
  • 杨永利
  • 苏晔
  • 赵富强
  • 期刊论文
  • 会议论文
  • 专利文献

搜索

排序:

年份

    • 王有帅; 陈梅; 陈艺丹
    • 摘要: 近年来,重工业的快速发展加剧了空气质量下降,环境治理变得尤为重要.然而,在国内外现有的空气质量评估系统大多形式单一、准确度低、评估范围有限,并不能较精确的以多样化的形式展示空气质量情况.本文设计实现了一套集数据收集、标准化处理及空气质量评估为一体的空气质量评估系统.该系统采用网络爬虫从空气质量监测网站获取数据,并对数据进行抽取、清洗、单位转化、污染物分类及多种标准化方法处理,提高空气质量的评估精确度.系统评估方式多样,有按时、日、月、监测站位置及污染物种类等,解决了大多数空气质量评估系统形式单一和评估不准确的问题.该系统可以为用户提供实时的空气质量情况,还可以为大气污染相关科研人员提供准确的数据预处理结果.系统运行稳定可靠,界面友好,功能丰富,能满足空气信息综合管理评估的需求.
    • 汪广明; 何滔; 熊玺; 卢玉龙; 王明涛
    • 摘要: 为准确估计多传感数据流中的缺失值,提出了一种改进循环神经网络模型。所设计的改进循环神经网络由插值模块和插补模块组成,其中插值模块是在数据流内捕获传感数据之间的时间相关性;插补模块则是基于全连接神经元层在不同数据流之间捕获传感数据值之间的时间相关性。循环神经网络模型还使用Dropout方法进行多重插补以进一步提高估计准确度。基于真实电力设备传感数据的实验,结果表明:所设计改进循环神经网络能够实现缺失传感数据的准确估计。
    • 朱荣慧; 许金芳; 王睿; 吴骋
    • 摘要: 在医学研究数据采集与获取过程中,经常会碰到缺失值。例如,创新药开发临床试验中,导致缺失值的原因可能有受试者失访、或受试者由于不良事件、对干预措施的不耐受或缺乏疗效等原因中途退出试验[1]。缺失值不仅会给统计分析和结果解释带来挑战,而且可能会对临床试验结果造成偏倚,使其代表性和真实性受到影响[2]。对于缺失值处理的问题,欧洲药品管理局于2010年发布了《确证性临床试验中缺失数据处理指南》[3]。
    • 李广盛; 郑建立; 车霞静
    • 摘要: 多维时序序列是指一组按照时间发生先后顺序进行排列的数据点序列,广泛存在于天文、医疗、交通等领域。囿于收集技术较差,或是序列的物理性质所致,时序序列记录中往往存在较多的缺失值和大量的不规则采样,使得时序序列的稀疏性大大增加。最终导致许多深度学习的时序序列分类算法等无法正常工作,出现算法效果差、算法训练时间过长等问题。面对这些问题,目前常用的做法是简单删减或是利用专家知识做重采样,前者会导致数据规模变小,后者使得算法成本增加。本文利用时序序列的时间戳数据构建了一种半自动化的预处理方法。在公共数据集MIMIC-Ⅲ、Physionet和肾移植数据集上的实验表明本文提出的方法在基本不损失算法效果的同时,能够有效降低数据稀疏规模,并且平均能够节约42.1%的算法训练时间。
    • 李霞; 马茜; 白梅; 王习特; 李冠宇; 宁博
    • 摘要: 随着数据来源的不断丰富,数据的获取变得愈发容易,但质量难以得到保证,从而导致缺失值在真实数据集中普遍存在且难以避免,缺失值填补也就成为数据质量管理领域的经典问题之一。目前,大多数的缺失值填补算法均是针对静态数据提出的,并不适用于高速到达的动态数据流,且现有算法大多未同时考虑数据的稀疏性和异构性问题。基于此,文中提出了一种新的基于独立模型的在线缺失值填补算法RIIM。该算法同时考虑了数据的稀疏性和异构性问题,并结合近邻填补和回归填补的基本思想对缺失值进行有效填补。首先,针对数据的动态实时性,提出了高效的填补模型增量更新算法;其次,针对数据近邻查找时间代价高以及近邻个数难以确定的问题,提出了最优近邻自适应周期性更新策略;最后基于真实数据集通过大量实验验证了所提算法的有效性。
    • 毛文杰; 戴家佳; 秦前伟
    • 摘要: HIV通过损害人体内的CD4细胞,减弱人的抵抗力而导致感染艾滋病。未感染的人每毫升血液大约含有1100个CD4细胞,所以可以通过测量患者的CD4细胞数对病情的好坏程度进行一定的评估。本文使用复合分位数回归方法对来自多中心艾滋病队列研究的数据进行分析,在响应变量与部分协变量同时缺失的情况下,我们提出了部分线性变系数模型的加权B样条复合分位数回归估计来描述整个时期CD4百分率变化的情况,并得到加权B样条复合分位数回归估计具有Horvitz-Thompson性质。同时,我们将所提出的估计方法与自适应LASSO惩罚方法相结合,得到患者的吸烟状态以及HIV感染时的年龄对HIV感染后患者的CD4百分率的影响不显著。
    • 李国; 袁闻; 王怀超
    • 摘要: 针对用溯源法主动对数据记录进行真实值填补成本较高的问题,结合多任务学习与主动学习的优势,提出一种深度多任务主动学习网络,将缺失数据填补任务与常旅客价值分类任务同时进行训练。此外,考虑到生产大数据环境,提出一种基于Spark的主动填补运行机制,使得深度多任务网络模型能在大数据环境下高效运行。实验表明,模型在不损失数据填补和分类性能的前提下,模型可有效降低所需训练数据的规模,进而减少训练模型所需时间以及人工标记样本所耗费的人力成本。
    • 赵淑珍; 金东镇; 李慧慧; 赖梦园; 黄若谷; 毛广运
    • 摘要: 目的:评估不同缺失值处理方法在不同缺失模式、缺失机制及缺失比例下双臂优效临床试验中的统计性能,筛选出相应的最优缺失值处理方式。方法:使用SAS 9.4软件分别生成不同缺失模式(单调缺失或任意缺失)、缺失机制(完全随机缺失或随机缺失)以及不同缺失比例(0%~5%、5%~10%、10%~15%)的纵向模拟数据集,基于各模拟数据集分别使用不同缺失值处理策略进行疗效估计,并分别与完整数据集比较,以评价不同缺失值处理方式的统计性能。结果:当缺失比例5%时,不论缺失机制以及缺失模式,不同协方差矩阵结构的MMRM以及多重填补不同次数后协方差分析所得效应估计值与真实值之间仍最接近,且前者较后者更为稳定。而单一填补方式以及模式混合模型(PMM)随着缺失比例增加,其效应估计的误差也增加,尤其是单调缺失,当缺失比例为10%~15%时其误差最大。结论:不同缺失比例(0%~5%、5%~10%、10%~15%),缺失模式(单调缺失或任意缺失)以及缺失机制(完全随机缺失或随机缺失)下,MMRM误差最小,提示MMRM是处理双臂优效性临床试验中纵向定量数据缺失的首选方案。
    • 任子昱; 刘景霞
    • 摘要: 风电机组的运行参数尤其是功率数据具有极其重要的价值,然而在数据采集、传输和记录的过程中存在各种原因会导致数据缺失。为此,提出了一种基于相似性度量的风功率数据填补方法。该方法利用数据特征,使用欧式距离、动态时间弯曲距离和最大公共子序列等相似性度量方法,寻找最相似的等长序列填补缺失值,并与均值插值、多点三次样条插值和自回归滑动平均模型等方法进行对比,结果表明了该方法的有效性和优越性。
    • 刘曙; 张博; 闵红; 安雅睿; 朱志秀; 李晨
    • 摘要: 铁矿石是钢铁工业的重要原材料,我国是铁矿石进口需求型国家,是世界铁矿石消费第一大国.海关对进口铁矿石检验的主要目标是预防进口铁矿石中涉及安全、卫生、环保、欺诈等方面的风险.对进口铁矿石产地及品牌进行符合性验证,可以快速筛选掺杂、掺假、以次充好,支撑进口铁矿石的风险管理,保障贸易便利化.在前期研究基础上进行应用拓展,研究对象为澳大利亚、南非、巴西、哈萨克斯坦、印度5个国家、21个品牌的422份进口铁矿石样品.考察了波长色散-X射线荧光光谱无标样分析方法的准确度,对于测量过程中未检出的元素含量,选择了用检测限替代缺失值.对于测量过程中的异常值,使用基于剩余方差的F检验进行异常值的剔除,皮尔巴拉混合块、纽曼混合块铁矿、纽曼混合粉铁矿各有一组数据计算得出的F统计量大于F检验临界值(a=0.01),因此将这3组数据剔除.采用逐步判别法筛选出Fe,O,Si,Ca,Al,Mn,Ti,Mg,P,Na,Cr,K,Sr,S,Zn,V,Cu,Ba,Ni,Mo,Pb共21个元素的含量作为产地识别模型的特征变量,建立四维Fisher判别模型,实现了对铁矿石产地的识别;采用逐步判别法筛选出Fe,O,Si,Ca,Al,Mn,Ti,Mg,P,Na,Cr,K,Sr,S,Zr,Zn,V,Cu,Ba,Cl,Ni,Mo和Pb共23种元素含量作为品牌识别模型的特征变量,建立二十维Fisher判别模型,实现对21种品牌铁矿石的识别.考察了特征元素对分类识别模型的贡献,并分析了误判品牌铁矿石的元素特征.总结出进口铁矿石产地及品牌判别分析模型的整体数据处理流程.
  • 查看更多

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号