数据分区
数据分区的相关文献在1998年到2022年内共计227篇,主要集中在自动化技术、计算机技术、测绘学、建筑科学
等领域,其中期刊论文76篇、会议论文4篇、专利文献556264篇;相关期刊65种,包括人天科学研究、知识窗、科教导刊等;
相关会议4种,包括第七届中国可信计算与信息安全学术会议、第十六届全国数据库学术会议、第18届全国图象图形学学术会议 等;数据分区的相关文献由503位作者贡献,包括刘雪梅、李明浩、赵建凯等。
数据分区—发文量
专利文献>
论文:556264篇
占比:99.99%
总计:556344篇
数据分区
-研究学者
- 刘雪梅
- 李明浩
- 赵建凯
- A·K·乌萨达
- B.纳特拉简
- B·奥利弗
- I·米舍夫
- L·S·敦
- M.G.迈拉
- M·普里
- N·阿里斯
- P·乔德里
- P·皮拉尔塔
- P·马基恩
- R·A·沙
- S·加因
- 丁冲
- 万月亮
- 于关田
- 于哲峰
- 于雷
- 付仲明
- 位寅生
- 何碧波
- 傅颖
- 冀树伸
- 冯景林
- 刘世彬
- 刘为怀
- 刘光曹
- 刘刚
- 刘力沛
- 刘路
- 刘金柱
- 刘骁
- 区伟雄
- 史宗华
- 吴新华
- 周一峥
- 周廷刚
- 周晓海
- 周水庚
- 周阳
- 唐卓
- 唐浩
- 夏超仁
- 姜春宇
- 孔华锋
- 孔志强
- 孙丽丽
-
-
陈进
-
-
摘要:
故障现象:一台长虹49U3C型液晶彩电(机显示一切正常,故障排除。芯:ZLS58GI4X),死机。分析检修:.上电,开机后出现死机,先用U盘进行升级后试机,屏幕反复显示“正在进行数据分区恢复…”。根据故障现象,初步判断EMMC程序块U1205应该正常。
-
-
周传华;
鲁勇;
于猜
-
-
摘要:
针对OPTICS算法存在着对于密度不均匀以及高维数据聚类效果差的问题,提出了基于数据分区的OPTICS聚类算法(DPOPTICS)。该方法计算所有样本点的K距离(Kdist)值,用改进的K均值算法对Kdist值进行单维度聚类,并依据肘图拐点的位置调整K值大小,以此实现数据分区;在分区内用OPTICS算法进行局部聚类,最后按一定规则将数据分区合并。选取多个不平衡人工数据集和UCI数据集进行对比实验,实验结果表明:改进的算法是切实可行的,明显提升了OPTICS算法对于数据密度不均匀问题的聚类质量,并且对高维数据也有着较好的处理能力,具有很强的鲁棒性。
-
-
张露;
尚艳玲
-
-
摘要:
针对当前分流策略无法应对高维数据的冗余度、复杂性以及动态变化,为了有效提升云计算高维数据的分流精度与分流效率,以云计算环境下高维数据为研究对象,提出基于数据分区的云计算高维数据均衡分流方法;通过分析高维数据分布特性,明确分区维度、数量以及边界,利用峰间低谷部分中任意点的对应扫描线,完成高维数据分区;采用构建的数据特征提取策略提取高维数据特征,经迭代更新数据聚类中心,实现高维数据均衡分流;通过模拟实验,以数据流标准方差与数据流比例标准方差为指标,验证数据流分流质量与负载均衡效果。结果表明,云计算高维数据均衡分流方法的数据流比例标准方差较小,具有较高的数据分流精度和效率。
-
-
蔡瑞初;
林峰极;
郝志峰;
王立;
温雯
-
-
摘要:
移动社交网络等基于定位服务应用的快速发展导致时空数据流规模呈爆炸式增长,要求底层数据存储系统支持高吞吐量轨迹数据的插入以及空间和时间约束下的低延迟查询,而现有HBase等数据存储方案因索引更新开销过高无法满足该需求.针对时空数据流的应用特性,提出一种数据流内存索引及存储方法.根据键值和时间范围对历史与增量数据元组进行物理分区,将其以模板B+树的形式写入内存并构建索引以增强快速写入和查询能力,同时对数据进行压缩存储提升索引效率.在此基础上,采用多级索引根据数据分区将复杂查询分解为可独立处理的子查询.实验结果表明,与传统HBase、WaterWheel等方法相比,该方法在不同数据插入和查询条件下的数据存储性能与查询效率更优.
-
-
马卿云;
季航旭;
赵宇海;
毛克明;
王国仁
-
-
摘要:
在分布式大数据处理框架的作业运行过程中,会有大量的数据通过网络传输,数据在各节点之间传输所需的时间已成为作业运行的主要开销之一.在节点异构带宽的情况下,因为带宽瓶颈节点的存在,传统的数据分区方法效率低下.针对这个问题,建立了节点间的数据传输模型,该模型以降低数据传输时间为目标,根据各节点的上下行带宽和初始数据量大小,计算出各节点的最优数据分发比例.以该模型为基础,设计了基于带宽的数据分区方法,该数据分区方法使得各节点按最优数据分发比例来分配数据.最后在Apache Flink框架中将基于带宽的数据分区方法进行了实现,并通过实验进行了验证.实验结果表明:异构带宽条件下,基于带宽的数据分区方法可以有效减少数据分区所需的时间.
-
-
-
宋文强
-
-
摘要:
无共享架构的计算机集群是大数据处理和分析的主要计算平台。在集群计算中,数据分区和采样是加快大数据计算和增加可伸缩性的两种基本策略。在本文中,我们对大数据处理和分析方面的数据分区和采样的方法和技术进行了全面的概述。另外,还总结了Hadoop集群上基于采样的近似方法的流行策略和相关工作。本文认为,应将数据分区和采样一起考虑,以建立在计算和统计方面均可靠的近似群集计算框架。
-
-
-
黄恺彤;
周开东;
李凯;
钟苏生
-
-
摘要:
为了解决现有分布式数据实时存储方法存在的存储实时性差、存储效率低问题,引入信息分散算法对分布式数据实时存储方法进行研究。通过组合法创建分布式数据库,确定分布式数据存储模式,利用数据同步技术对分布式数据进行复制,以复制结果为依据,通过分区技术对分布式数据进行分区,采用信息分散算法对分布式数据进行分片,结合一致性哈希算法对分布式数据进行实时存储调度。实验结果表明,与传统分布式数据实时存储方法相比较,所提方法极大地提升了存储实时性与效率,说明提出的分布式数据实时存储方法具备更好的存储效果。
-
-
-
-
-
-
MA Jianhong;
马建红;
GAO Yuqiang;
高玉强;
Liwei;
李伟
- 《第18届全国图象图形学学术会议》
-
摘要:
针对基于密度的DBSCAN聚类算法对输入参数Eps敏感及算法时间复杂度高的问题,提出了一种基于数据分区和网格聚类相结合的密度聚类算法(PC-DBSCAN).首先,计算每个数据点到其K最近邻域内所有数据点的距离的平均值K-ave,根据每个数据点对应的K-ave值进行单维度聚类来实现数据分区,缓解了算法对全局参数Eps敏感的问题;其次,针对每一个数据分区,把其对应的数据空间划分成以Eps为网格阈值互不相交的网格单元,在确定核心对象时,只需要对数据点所在网格单元及其周围的网格单元进行遍历,避免了遍历数据空间中所有的数据点,优化了核心点的确定方式,降低了时间复杂度;最后,对各数据分区聚类结果进行合并.实验结果表明,改进后的算法是正确和高效的.