数据分布
数据分布的相关文献在1985年到2023年内共计654篇,主要集中在自动化技术、计算机技术、无线电电子学、电信技术、经济计划与管理
等领域,其中期刊论文307篇、会议论文31篇、专利文献630004篇;相关期刊198种,包括计算机工程、计算机工程与科学、计算机工程与设计等;
相关会议29种,包括第十六届中国科协年会、中国地球物理学会第二十九届年会、2011年全国高性能计算学术年会(HPC china2011)等;数据分布的相关文献由1405位作者贡献,包括徐金秀、韩林、赵荣彩等。
数据分布—发文量
专利文献>
论文:630004篇
占比:99.95%
总计:630342篇
数据分布
-研究学者
- 徐金秀
- 韩林
- 赵荣彩
- 王于同
- 吕纪竹
- 吴润秀
- 王芳
- 程耀东
- 董春丽
- 赵志峰
- 不公告发明人
- 何沛中
- 冯丹
- 唐新春
- 张勤
- 张天刚
- 张鑫
- 斯科特·科恩
- 杨军
- 杨学军
- 毗瑟挐·马武拉姆
- 甄天桥
- 程永红
- 谢长生
- 赵宇
- 邸鹏
- 郭克榕
- 陈楠
- 马修·沃斯
- A.科克
- A.阿利
- L.斯特里拉马萨马
- 于辉
- 何正嘉
- 刘忠宝
- 刘艳
- 刘颖
- 吴忠杰
- 吴昊
- 吴林
- 吴水秀
- 吴绍春
- 吴耿锋
- 周方晓
- 孙辉
- 张伟
- 张卫
- 张周锁
- 张平
- 张靖
-
-
王晓华;
曹轶;
王华维;
艾志玮;
张哲;
吴付坤
-
-
摘要:
在科学计算的效应场数值模拟中,变量数据的数值分布通常极不均匀,且存在大量背景噪声.针对传统数据到颜色的可视化线性映射难以获得清晰的物理特征的问题,提出一个基于颜色控制点自动调优的颜色映射框架.首先基于信息熵和高斯混合分布自动去除背景数据,然后基于累积分布函数自动调整颜色控制点位置,再基于分段亮度参数增强颜色表感知辨识性,最终生成自适应数据分布特征的颜色映射.采用爆轰冲击波、电磁辐射和高功率微波3类典型效应场模拟数据的实验结果表明,相比线性映射方法,所提框架能够获得具有高质量细节特征的可视结果,颜色辨识性可提升一个数量级,该框架是有效的.
-
-
鲁晨阳;
邓苏;
马武彬;
吴亚辉;
周浩浩
-
-
摘要:
联邦学习(Federated Learning)是为了解决机器学习中以隐私保护为前提的数据碎片化和隔离问题。各客户端节点在本地训练数据,将训练的模型参数信息上传到中央服务器,由参数服务器聚合参数信息以达到共同训练的目的。由于现实环境中,各节点数据之间的分布往往不一致,通过分析非独立同分布数据对联邦学习准确率的影响,来证明传统联邦学习方法得到的模型精度较低。因此,采用多样化抽样策略模拟数据倾斜度分布,提出了基于DBSCAN(Density-Based Spatial Clustering of Applications with Noise)聚类的集群联邦学习算法(DBSCAN Based Cluster Federated Learning,DCFL),解决了联邦学习中不同节点的数据非独立同分布降低了学习准确率的问题。在Mnist和Cifar-10标准数据集上进行了实验,相比传统的联邦学习算法,基于DBSCAN聚类的集群联邦学习算法对模型的准确率有较大的提升。
-
-
汪静;
钱晓东
-
-
摘要:
针对区块链环境中海量高维的数据使得推荐性能低下的问题,通过对局部敏感哈希算法的优化,降低其在近邻搜索过程中带来的额外计算和存储开销。利用数据分布的主成分减少传统LSH中不良捕获的投影方向,同时对投影向量权重进行量化,以减少哈希表和哈希函数的使用;通过对哈希桶的间隔进行调整,并且根据冲突次数的大小进一步细化查询结果集,以显著降低距离计算的时间开销;最后采用加权平均策略进行评分预测并产生推荐列表。实验表明:与其他算法相比,优化后的LSH仅需要少量的哈希表和哈希函数就可以获得较为精确的近邻搜索结果,且搜索效率有很大的提高。优化后的LSH可以很好地应对区块链中数据特点所造成的问题,缓解高维大规模数据对推荐性能的影响,在一定程度上提高了推荐质量和效率。
-
-
陈恩红;
李宇峰;
邹权
-
-
摘要:
近年来,随着学术界与工业界在机器学习和人工智能领域越来越多的投入和关注,相关技术获得飞速发展,机器学习已经被应用到社会生活的方方面面,并产生巨大社会价值.机器学习模型主要依赖大量高质量数据的封闭训练,随着机器学习模型付诸于开放场景,例如,数据分布的变化、数据特征的变化、数据标记的偏差、任务目标的变化、恶意样本的攻击、设备能力的受限等,其往往面临模型失效、性能不佳等风险隐患.基于此,研究人员亟需探索开放场景下的鲁棒机器学习模型.具体而言,包括分布变化的机器学习、弱监督学习、模型复用、表示学习、强化学习、对抗学习、迁移学习以及更多实际领域问题中的应用等.为此,我们组织了面向开放场景的的鲁棒机器学习专刊.
-
-
崔俊富;
陈金伟;
苗建军
-
-
摘要:
收敛性广泛存在于各个领域,经济增长存在收敛性是经济增长理论最重要的论断之一。对经济增长收敛性进行统计检验一般采用截面数据或时间序列数据建立计量模型来验证,但是收敛性计量模型检验存在以过于简单的模型模拟复杂经济运行,研究假定不符合实际等固有缺陷,不能全面准确反映收敛性的全部内涵,而且计量模型容易受到异常值的影响。文章从收敛性的基本概念出发,利用数据分布思想进行经济增长收敛性判断,可以非常全面地反映影响经济增长的各种因素,有效避免了研究假定的各种缺陷,从而得出更加准确的结论。
-
-
管锦寒;
杨健;
陈俊钰;
李璐
-
-
摘要:
该模型首先采用合成少数类过采样技术编辑的最近邻来平衡训练数据分布,然后通过集成学习算法XGBoost预测心脏病。为了验证模型效果,本文采用心脏病患者真实医疗数据,利用专家咨询法提取特征,并通过混淆矩阵进行模型评估。与4类基线算法相比,所提模型在AUC、Accuracy、Recall和F-Score指标的评测下均表现良好。实验结果显示,所提模型能够为心脏病预测提供更精准、更智能的辅助参考,同时可以在一定程度上提高诊断的效率和心脏病预测的准确率。
-
-
中国生物医学工程学会体外循环分会;
赵举;
黑飞龙;
侯晓彤
-
-
摘要:
中国生物医学工程学会体外循环分会(Chinese Society of Extra-Corporeal Circulation,ChSECC)每年对上一年度全国开展心脏手术的各单位心脏外科手术和体外循环数量、不同病种及地区的手术情况进行相关调查并汇总分析。ChSECC已经连续11年开展这项调查工作,每年均以白皮书的形式公开发布相关调查结果。目的在于让从业人员及时了解和掌握中国心血管外科及体外循环的基本状况和发展趋势,从而为相关专业学科的未来发展、相关产业战略规划以及政务政策制定等方面提供参考信息。现就2021年度我国(含香港特别行政区)心血管外科手术及体外循环数据的调查结果报告如下。
-
-
王宏乐;
王兴林;
李文波;
叶全洲;
林涌海;
谢辉;
邓烈
-
-
摘要:
【目的】通过调节训练集内实验室场景图片与田间场景图片的分布,提高深度学习模型的准确度,以减少植物病害识别深度学习模型对田间场景数据的依赖。【方法】通过调节训练集内实验室场景图片和田间场景图片的分布,使用ResNeSt-50、VGG-16、ResNet-50等3种神经网络结构分别对训练得到的深度学习模型进行测试和比较,从而优化植物病害识别模型。【结果】在由一定数量的植物病害图像组成的训练集内,调节其中不同场景图片的分布会对模型的准确率产生影响。当训练集内的田间场景图片分布达30%时,模型准确率提升18%以上。在100%实验室场景图片的训练集内添加30%田间场景图片,可提升模型准确率17%以上;在100%田间场景图片的训练集内添加实验室场景图片,模型准确率随图片数量增加而提升,提升幅度为2%~4%。【结论】该方法适用于农业复杂环境下高准确度病害识别模型的快速建立,可减少深度学习模型对田间场景数据的依赖,缩短模型建立初期的田间数据采集周期,降低田间数据采集成本,促进人工智能技术在无人农场及智慧农业中更有效地运用。
-
-
张合欢;
陈致君;
杨顶
-
-
摘要:
单一的迁移学习存在无法有效的将知识迁移到目标领域的问题,且迁移过程中易出现负迁移现象,在此背景下,提出了基于混合式迁移学习的文本分类方法。该方法首先利用样本之间的距离作为权衡样本相似性的标准进行样本迁移以扩充目标领域样本,然后利用模型迁移建立带有数据分布自适应的文本分类深度网络结构,最后用扩充后的目标领域数据集来训练网络。实验中使用不同的预训练模型来验证方法的有效性,其中,MT2CERNIE的准确率达到0.884、召回率达到0.890、F1分数达到0.878,具有最佳的预测性能。结果表明,所提方法能够在一定程度上解决标注样本不足、出现负迁移现象等问题。
-
-
聂秀山;
林熙明
-
-
摘要:
概念漂移检测是提高决策模型精度与性能的核心技术,能够高效快速地帮助基于流数据驱动的信息处理系统和决策支持系统适应新的分布或属性,已成为近年来的研究热点。文章介绍了流数据产生的原因、特点以及流数据概念漂移的定义和性质,针对概念漂移的重要环节——漂移检测,从基本框架、算法分类、数据集等方面进行了详细阐述,总结了漂移检测方法,并展望了将来可能的研究方向。
-
-
-
-
-
-
邱定;
张激;
王金华;
王盼盼;
游飞
- 《2017年西南三省一市(贵州、重庆、四川、云南)自动化与仪器仪表学术年会》
| 2017年
-
摘要:
针对Rocchio算法分类效果不理想,限定于对可划分空间地分类,和KNN对K值的选取过于依赖这些缺陷,提出了一个通过为整个分类空间建立不止一个代表的方法,并且根据数据集的具体数据分布,为整个分类空间建立不同个数的分类代表.有效解决了Rocchio线性地划分实例空间的造成数据划分不合理的问题,由构造的代表和每个类泛化的实例创建的分类模型有效提高了分类效率,而且解决了分类准确度依赖人工给定K值的问题,提高了分类的准确度.通过在20-newsgroup和Reuters-21578两个数据集上的实验,实验结果显示新的算法远优于Rocchio和KNN分类算法,与选择的基准比较算法SVM相比效果略优.
-
-
KONG Jianxin;
孔建新;
MA Zhongcai;
马忠才
- 《第十六届中国科协年会》
| 2014年
-
摘要:
冶金行业分析化验的检测数据是指导生产全过程的必要手段.其数据并非服从正态分布,而是服从不对称的偏斜分布.正态分布是理论分布,偏斜分布是实际分布.在冶金生产过程中理论分布应用比较广泛,而实际分布应用就目前讲则是一个空白.从生产实际出发利用检测数据建立实际分布的数学模型,并与理论分布相结合以便揭示和认识统计对象的本质特征和数据的分布规律.其目的是为生产过程进行全面质量管理有效应用统计技术提供科学的依据.
-
-
-
-