大规模数据
大规模数据的相关文献在1993年到2022年内共计293篇,主要集中在自动化技术、计算机技术、无线电电子学、电信技术、工业经济
等领域,其中期刊论文158篇、会议论文8篇、专利文献564096篇;相关期刊113种,包括数字通信世界、计算机仿真、计算机科学等;
相关会议7种,包括2015全国高性能计算学术年会、第32届中国数据库学术会议、中华医学会第十九次全国医学信息学术会议等;大规模数据的相关文献由703位作者贡献,包括张立新、王士同、王磊等。
大规模数据—发文量
专利文献>
论文:564096篇
占比:99.97%
总计:564262篇
大规模数据
-研究学者
- 张立新
- 王士同
- 王磊
- 田玲
- 罗光春
- 詹剑锋
- 付兴旺
- 吴楠
- 周宇
- 王恩东
- 陈庆奎
- 韦鹏
- 丁博
- 丁杰
- 于鯤
- 付红军
- 任子晖
- 任艳多
- 何德鉴
- 何敬开
- 公俊卫
- 关毅
- 冀俊忠
- 冯良炳
- 刘万奇
- 刘东升
- 刘光明
- 刘创辉
- 刘忠宝
- 刘惠
- 刘政良
- 刘泽燊
- 刘畅
- 刘艳阳
- 刘解放
- 刘金铎
- 刘颖婷
- 史佩昌
- 史殿习
- 吕杰
- 吕铁
- 吴志湛
- 周傲英
- 周烈强
- 周爱华
- 周越
- 唐华
- 图占乐
- 姚云鹏
- 姜龙泉
-
-
侯竞夫
-
-
摘要:
1959年,计算机科学家E.W.Dijkstra提出了Dijkstra算法。Dijkstra算法是一种解决单源最短路径问题的贪心算法,其作用主要表现在解决有向图中的最短路径问题方面。但随着科学技术的发展,Dijkstra算法的应用领域得到了极大的扩展,“最短路径”也被赋予了全新的含义,不再单单指空间中的最短距离,同样也可以用来研究各种时间、经济、能量消耗问题。但是,随着研究问题的复杂化以及所研究数据规模的逐渐扩大,传统的串行Dijkstra算法计算量大、时间复杂度较高的问题也逐渐体现出来,影响着Dijkstra算法在诸多问题中的表现。而并行化计算不仅在计算大规模数据时表现优异,也非常契合Dijkstra算法的算法思想。
-
-
潘莹丽;
刘飞;
刘展;
赵晓洛
-
-
摘要:
大规模数据是需要新处理模式才能具有更强的洞察力和决策力的海量、高增长率和多样化的信息资产。分析海量数据的工作异常复杂,主要面临两个挑战:数据的难存储性和偏态性。基于此,文章主要研究以下两个问题:(1)将数据进行分布式存储,减轻单台机器的存储负担,采用尾期望回归分析偏态数据。(2)基于尾期望回归构造全局损失函数的一个交互有效的梯度增强型损失函数,为解决该损失函数的优化问题,提出修正的ADMM算法。模拟研究表明,在有限次主从机器之间交互次数下,提出的分布式计算方法得到的估计误差递减并趋于全局最优方法得到的估计误差。基于全国健康访谈调查(NHIS)数据的实证研究表明,提出的分布式计算方法对国民体重具有良好的预测性能。
-
-
-
-
摘要:
四月1日中国科大在国产超算平台填补大气数值模拟空白。中国科学技术大学科研人员在新一代神威超级计算机上,首次实现了长达7天的全球3公里空间分辨率大气物理-化学全耦合数值模拟试验。该项研究工作基于新一代中国国产神威超算平台,在大规模数据读写速度、运行时效性等多个方面填补了中外大气数值模拟的空白,全面展现了新一代中国国产超级计算机软硬件系统的可靠性、稳定性和可用性,以及在其上构建全球高分辨率大气模拟系统的重大应用前景。
-
-
石美丽
-
-
摘要:
在信息化炙热的时代,对大量及大规模数据进行压缩往往是研究事物的第一步,而主成分分析作为信息压缩的重要手段之一,在模式识别、推荐系统、图像及视频处理等方面发挥着重要作用。本文在以方差代表信息量的基础上,分别构造了向量、矩阵、张量情形下的主成分,并分析了其特征向量在对应Hilbert空间的正交展开过程。且进一步讨论了三种情形下样本PCA的过程,探究重构过程中矩阵SVD和张量Tucker分解与矩阵PCA和张量PCA的关系。
-
-
周欣
-
-
摘要:
传粉昆虫的数量和多样性危机是一个亟待重视的问题。当然,作为科学家,要想确切得出传粉昆虫在大尺度范围下降的绝对性结论,需要通过严谨而大量的重复实验,积累具有统计学意义的大规模数据,然后严格分析,这是一个困难而漫长的过程。但是从保护生物学的角度来看,面对一个潜在的重大危机,我们宁可采取更谨慎的方式去预防,或者是减小它发生的可能性或者速度。
-
-
刘知远;
林衍凯;
孙茂松
-
-
摘要:
语义表示是自然语言处理的基础,我们需要将原始文本数据中的有用信息转换为计算机能够理解的语义表示,才能实现各种自然语言处理应用。表示学习旨在从大规模数据中自动学习数据的语义特征表示,并支持机器学习进一步用于数据训练和预测。以深度学习为代表的表示学习技术,能够灵活地建立对大规模文本、音频、图像、视频等无结构数据的语义表示,显著提升语音识别、图像处理和自然语言处理的性能,近年来引发了人工智能的新浪潮。本书是第一本完整介绍自然语言处理表示学习技术的著作。书中全面介绍表示学习技术在自然语言处理领域的最新进展,对相关理论、方法和应用进行了深入介绍,并展望了未来的重要研究方向。
-
-
-
-
摘要:
2020年12月,国家发展改革委、中央网信办、工业和信息化部、国家能源局等四部门联合印发《关于加快构建全国一体化大数据中心协同创新体系的指导意见》(发改高技[2020]1922号),明确指出"加强全国一体化大数据中心顶层设计,对深化政企协同、行业协同、区域协同以及全面支撑各行业数字化升级和产业数字化转型具有重要意义";2021年5月,四部门又联合印发了《全国一体化大数据中心协同创新体系算力枢纽实施方案》(发改高技[2021]709号),国家发展改革委相关负责人就文件出台背景指出,随着各行业数字化转型升级进度加快,特别是5G、人工智能、物联网等新技术的快速普及应用,全社会数据总量爆发式增长,数据存储、计算、传输和应用的需求大幅提升,数据中心已成为支撑各行业"上云用数赋智"的重要新型基础设施。本期专题"国家数据中心"聚焦全国一体化大数据中心建设,旨在探讨全国一体化大数据中心顶层设计、数据资源储备体系、超大规模数据要素市场体系以及粤港澳地方大数据中心建设等关键问题。
-
-
-
-
摘要:
大数据时代奔涌而来,AI、云计算、大数据、物联网等需求不断增长,数据中心将变得更大、更复杂。作为数据中心的动力心脏,供配电系统需要更加可靠的UPS来保障数据中心的不间断运行。先控电气作为专业的UPS系统供应商,根据大型数据中心的业务需求定制“绿色电源解决方案”。在可靠运行的前提下,还能实现节能降耗、快速部署、随需扩容等功能。
-
-
朴承哲
-
-
摘要:
为了提高大规模非结构化数据的分布式存储能力,提出基于空间网格聚类的大规模非结构化数据分布式存储方法.构建大规模非结构化数据多维空间分布式融合模型,采用模糊中心权重聚类的方法进行数据的线性加权控制处理,通过样本扩展和密度融合的方法提取数据特征,采用选择随机性特征分析方法实现对数据特征空间划分,并利用空间网格聚类方法实现大规模非结构化数据分布式存储.仿真结果表明,该方法的执行时间较短,数据聚类准确性较高.该方法有效提高了大规模非结构化数据分布式存储性能,实际应用效果好.
-
-
-
Shang Hongjia;
尚宏佳;
Zhou Ping;
周萍;
Yang Qing;
杨青;
Li You;
李优;
Qian Junyan;
钱俊彦;
Zhang Jingwei;
张敬伟
- 《第32届中国数据库学术会议》
| 2015年
-
摘要:
连接聚集查询是大规模数据分析的核心操作算子之一,多核处理器为大规模数据的连接聚集查询操作提供了优化空间但同时也存在很大挑战.本文主要针对多核处理器集群环境,研究MapReduce框架下大规模数据连接聚集查询的优化算法.首先,基于传统MapReduce框架设计并实现了Map端的单线程连接聚集查询算法,基于实验分析指出MapReduce和多核处理器融合提升性能的必要性;其次,针对处理器的多核架构,设计并实现了Map端的多线程连接聚集查询算法,找出了MapReduce和多核处理器融合的性能瓶颈;进而,提出了Map端对输入分片无竞争读取的多线程连接聚集查询算法,该算法让MapReduce充分利用了多核处理器的性能优势.实验结果表明,提出的算法在大规模数据的连接聚集查询处理上充分发挥了硬件优势,具有较好的时间性能和可扩展性.
-
-
Li Ruilin;
李瑞琳;
Zhao Yonghua;
赵永华;
Huang Xiaolei
- 《2015全国高性能计算学术年会》
| 2015年
-
摘要:
谱聚类算法由于其可识别非凸数据分布、可有效避免局部最优解、不受数据点维数限制等优点,在许多领域得到广泛应用.然而,随着数据量的增大和数据维数的增多,在保证聚类准确性的前提下,尽可能降低计算时间将变得非常必要.此外,影响谱聚类算法聚类质量的因素除数据集本身外,还与所采用的求解距离矩阵的方法、相似性矩阵的尺度参数、Laplacian矩阵形式等多种因素相关,针对以上问题,首先对于大规模数据问题,将MPI(Message Passing Interface)并行编程模型应用于谱聚类算法,然后利用t-最近邻方法对谱聚类算法中较大维数的Laplacian矩阵进行近似转化,同时将局部尺度(local scaling)参数对算法中的尺度参数进行自动调节.基于上述分析,提出了一种谱聚类并行实现算法,即稀疏化局部尺度并行谱聚类算法(SLSPSC,Sparse Local Scaling Parallel Spectral Clustering),并在4个数据集上进行了测试,并与现有的并行谱聚类算法(PSC,Parallel Spectral Clustering)在运行时间和聚类质量两方面做了比较分析.实验结果显示:该算法降低了求解Laplacian矩阵的总时间,同时部分数据集聚类质量得到较大提高.
-
-
QIAN Lei;
钱磊;
LI Xiang;
李祥;
WU Dong;
吴东;
XIE Xianghui
- 《2015全国高性能计算学术年会》
| 2015年
-
摘要:
排序是计算机科学中一个古老而经典的问题,在数据处理、网络安全等很多领域都有重要的应用.近年来,大数据浪潮席卷全球,一些数据密集型应用对排序性能的要求也越来越高.面对上述需求,结合当前对大规模系统性能影响越来越大的功耗墙问题,提出了一种基于蚁群计算平台的层次化排序结构,利用全流水的插入排序得到小规模有序序列,通过共享存储的First-In-First-Out(FIFO)结构、消除控制依赖的归并树和多节点流水线实现多级归并得到系统级有序结果.与CPU、GPU平台上的排序算法相比,不仅扩大了可排序数据规模,提高了数据排序的吞吐率,在能效上也有10倍以上提高.
-
-
-
史鑫;
章乐平;
张恒;
解洪文
- 《中国宇航学会计算机应用专业委员会2013年度技术交流会》
| 2013年
-
摘要:
本文通过分析TeraSort程序,并对TeraSort算法进行分析,进一步对TeraSort源代码进行研究,深入理解TeraSort,然后在Hadoop平台上运行TeraSort进行大数据排序,测试验证TeraSort程序,最后讨论TeraSort作为基准测试程序的实际应用.TeraSort通过采样确定每个map task数据的R个数据块的范围,通过建立trie树将每条数据快速的确定它属于哪个数据块。在集群上可以利用TeraSort来测试Hadoop。同时TeraSort目前已经作为一个基准测试程序,它具有很高的测试利用价值。
-
-
XU Xiao-min;
徐晓旻;
XIAO Yang-hua;
肖仰华
- 《2012中国计算机大会》
| 2012年
-
摘要:
K-means聚类算法存在的主要不足之处之一在于需要用户指定聚类核数目,在一般应用场景下,用户无法给出合适的聚类核数目.另一方面.K- means聚类所具有的可并行化特点非常适合运用到云计算平台上以处理大规模数据样本的聚类任务.本文提出KBAC算法采用K-means算法作为预聚类过程并在云平台上进行实现和优化,能够自适应确定最佳聚类核数目并进行聚类.其核心思想是将样本空间聚类问题转换为图上社团发现问题.理论和实验证明,通过在云计算框架下实现K-means预聚类过程的并行化.KBAC算法能够高效地对大规模数据进行聚类,并获得高质量的聚类结果.
-
-
南凯;
阎保平
- 《第五届科学数据库与信息技术学术研讨会》
| 2000年
-
摘要:
本文围绕将XML用于数据库应用中所遇到的问题,尤其是性能问题,进行了讨论.并通过一个试验程序,具体考察了XML和关系数据库在处理较大规模数据(1万条记录以上)时性能上的差异.最后,对于XML在这个领域内的应用,给出了一些探讨性的结论.
-
-
LI Haifeng;
李海峰;
LIU Jianbo;
刘建波;
WANG Xiaoling;
王晓玲;
LI Pengfei;
李鹏飞
- 《第十四届中国CAE工程分析技术年会》
-
摘要:
随着超级计算机、并行计算、应用软件的发展和实际工程设计深入应用,模型所面临的结构越来越复杂,建模越来越精细,在数值模拟中产生了大规模的、复杂的数值模拟计算数据,数值计算结果呈几何级数增长,对这些数据进行可视化分析将大大加快研究的进程.利用TeraVAP可视化软件,对千万量级炸药爆炸冲击波传播过程数值计算结果进行了轻量可视化处理,获得了直观的结果,方便观察和分析数据信息.同时通过技术开发,对获得的数据与虚拟场景进行了融合展示,清楚表现了炸药爆炸对周围环境及建筑的影响.
-
-
-
- 深圳市艾德网络科技发展有限公司
- 公开公告日期:2022.07.19
-
摘要:
本发明涉及一种分析大规模数据的低延时缓存数据处理方法,包括:步骤S1,通过获取模块获取用户浏览数据的实时数据情况,利用大数据分析模块对实时数据情况进行分析以得到同类数据的数据量A以确定同类数据是否具有缓存记录;步骤S2,若用户对同类数据具有缓存记录,启动主动缓存模块进行实时数据缓存;步骤S3,若用户对同类数据不具有缓存记录,调取整体数据库模块中已浏览数据的缓存量R以确定是否能够进行主动缓存;步骤S4,若不能进行主动缓存,将相似数据的缓存率L与标准缓存率进行比较以最终确定是否能够进行主动缓存;步骤S5,若中控模块判定不能进行主动缓存,启动被动缓存模块进行被动缓存标记。从而能够达到低延时、高效的数据缓存。
-
-
-
- 深圳市艾德网络科技发展有限公司
- 公开公告日期:2022-05-31
-
摘要:
本发明涉及一种分析大规模数据的低延时缓存数据处理方法,包括:步骤S1,通过获取模块获取用户浏览数据的实时数据情况,利用大数据分析模块对实时数据情况进行分析以得到同类数据的数据量A以确定同类数据是否具有缓存记录;步骤S2,若用户对同类数据具有缓存记录,启动主动缓存模块进行实时数据缓存;步骤S3,若用户对同类数据不具有缓存记录,调取整体数据库模块中已浏览数据的缓存量R以确定是否能够进行主动缓存;步骤S4,若不能进行主动缓存,将相似数据的缓存率L与标准缓存率进行比较以最终确定是否能够进行主动缓存;步骤S5,若中控模块判定不能进行主动缓存,启动被动缓存模块进行被动缓存标记。从而能够达到低延时、高效的数据缓存。
-
-
-
-
-
-