Hadoop分布式文件系统
Hadoop分布式文件系统的相关文献在2010年到2022年内共计103篇,主要集中在自动化技术、计算机技术、无线电电子学、电信技术、科学、科学研究
等领域,其中期刊论文66篇、会议论文5篇、专利文献5988674篇;相关期刊30种,包括青年科学(教师版)、情报杂志、电信科学等;
相关会议4种,包括第六届中国计算机学会服务计算学术会议、宁波市第八届学术大会、第十九届全国青年通信学术年会等;Hadoop分布式文件系统的相关文献由244位作者贡献,包括钟将、丁燕艳、乐嘉锦等。
Hadoop分布式文件系统—发文量
专利文献>
论文:5988674篇
占比:100.00%
总计:5988745篇
Hadoop分布式文件系统
-研究学者
- 钟将
- 丁燕艳
- 乐嘉锦
- 何隆
- 刘斌
- 刘磊
- 台宪青
- 吴云佳
- 喻朝新
- 崔艳荣
- 张众
- 张期莲
- 张永伟
- 张静娴
- 徐锐
- 徐骁勇
- 时待吾
- 曹前
- 曹霆
- 朱定局
- 李宇昕
- 李强
- 李慧莹
- 李晖
- 杨雷
- 樊凯
- 潘毅
- 潘郁
- 熊佳树
- 王伟
- 王侃
- 王周恺
- 王垒
- 王峰
- 王怀军
- 王珈珞
- 罗标
- 谭待
- 贾乔
- 陈剑
- 陈吉荣
- 马维纲
- 龚发根
- D.卡瓦利
- DENG Chong-bin
- Dai Fangfang
- Dong Wenrui
- HUANG Xiao-Cheng
- Hu Wei
- Hu Ying
-
-
刘铭;
单玉莹;
苏钧驿;
秦喜文;
蒋扬
-
-
摘要:
为实现更好的税收风险管理,提高税收风险的科学性和可应用性,完善税收风险管理基础,提出了税收数据库和税收风险管理相结合的支撑着风险排序、风险查询和风险指标管理的税收风险管理平台。该平台能解决税务部门在现有税收风险分析平台无法处理大量数据的问题,有利于税务部门从大量数据中找出税收过程中可能出现的各类风险,从而可以根据风险提示避免、减少和预防此类风险的发生。
-
-
李娟
-
-
摘要:
为了提升数据挖掘效率,为众多空间数据应用领域提供数据支撑,提出基于Hadoop云平台的空间属性数据挖掘技术:利用分布式编程模型MapReduce和Hadoop分布式文件系统构建Hadoop云平台,在云平台中实现分布式计算、数据挖掘、业务响应以及用户交互;其中数据挖掘层利用归一化变换将空间数据与属性数据调整为正态分布并统一量纲后,采用快速独立成分分析算法去噪处理变换后数据;依据贝叶斯分类理论以及极大后验和似然假设构建朴素贝叶斯分类器,将去噪处理后的数据作为分类器输入,完成空间属性数据挖掘。试验结果表明该技术应用在农业生产中,可以增加经济效益,数据经去噪后峰值信噪比与结构相似性较高,可有效挖掘城市空间属性数据,且具有较高数据挖掘速度。
-
-
于万国;
袁镇濠;
陈佳琪;
何玉林
-
-
摘要:
为解决随机向量函数链接(random vector functional link,RVFL)网络处理大规模数据分类时表现出的泛化能力差和计算复杂度高的问题,基于Spark框架设计与实现一种分布式子空间局部链接的RVFL(distributed RVFL with subspace-based local connections,DRVFL-SLC)网络.利用弹性分布式数据集(resilient distributed dataset,RDD)的分区并行性,对存于Hadoop分布式文件系统(Hadoop distributed file system,HDFS)的大规模数据集进行随机样本划分(random sample partition,RSP)操作,保证每个RSP数据块对应RDD的1个分区.其中,RSP数据块是在给定的显著性水平下与大数据保持概率分布一致性的数据子集.在分布式环境下对包含多个分区的RDD调用mapPartitions转换算子并行高效地训练对应的最优RVFL-SLC网络.利用collect执行算子将RDD每个分区对应的最优RVFL-SLC网络进行高效率地渐近融合获得DRVFLSLC网络以实现对大数据分类问题的近似求解.在部署了6个计算节点的Spark集群上,基于8个百万条记录的大规模数据集对DRVFL-SLC网络的可行性和有效性进行了验证.结果表明,DRVFL-SLC网络拥有很好的加速比、可扩展性以及规模增长性,同时能够获得比在单机上利用全量数据训练的RVFL-SLC网络更好的泛化表现.
-
-
罗标;
崔艳荣
-
-
摘要:
网络时代的发展使"互联网+"模式应用在各个行业,商业行为的大利润驱使下对消费者用户的分析已经非常成熟,教育行业对大数据的应用就显得有些落后,教育App中的大量学生数据可以用来构建智慧学生画像给老师的教育方式提供指导性,将学生画像应用在教育上,可以使老师和家长更了解学生的实时动态和学习状态,方便老师家长给出更好的指导,学校也可以了解学生,来想出更好的教育方式。
-
-
魏秀然;
王峰
-
-
摘要:
针对云存储数据过程,结合协调器与遗传算法提出一种新的数据复制策略.在Hadoop分布式文件系统体系结构基础上构建一个用于复制管理的协调器,采用接收查询算法和遗传算法接收查询,并将其发送给合适的节点以满足用户期望的服务质量功能需求,同时考虑一个查询中数据块的物理位置以获得更好的复制参数.仿真结果表明,与目前典型的数据中心选择和动态数据复制策略以及逐步删除和添加数据副本策略相比,该数据复制策略不仅优化了系统的负荷分配,而且具有更高的可用性和更小的延迟.
-
-
罗标;
崔艳荣
-
-
摘要:
网络时代的发展使"互联网+"模式应用在各个行业,商业行为的大利润驱使下对消费者用户的分析已经非常成熟,教育行业对大数据的应用就显得有些落后,教育App中的大量学生数据可以用来构建智慧学生画像给老师的教育方式提供指导性,将学生画像应用在教育上,可以使老师和家长更了解学生的实时动态和学习状态,方便老师家长给出更好的指导,学校也可以了解学生,来想出更好的教育方式.
-
-
叶苗;
张国华
-
-
摘要:
本文研究以Hadoop为技术支撑,提出一种并行计算模式定向数据挖掘方法。在云计算平台中引入分布式网络存储技术,构建HDFS分布式文件系统,通过评估Hadoop集群内节点性能获取各节点性能值。以此为依据选取存储数据块的合适节点,按比例存储数据块。然后基于分布式文件系统设计HBASE分布式数据库,存储并处理大规模数据,经MapReduce并行化处理朴素贝叶斯分类算法后实现对定向数据的分类与挖掘。仿真实验中,利用基于Hadoop平台的常规PC机搭建内部局域网通信形式,设置主数据节点、从数据节点以及Hadoop环境,从挖掘精度与效率两个角度对本文方法展开性能评估。根据指标数据与实际案例应用效果可知:本文方法具有较高的挖掘效率与精准度,且能够有效展示出城区建设扩展趋势,为更科学、更高效地城市建设服务奠定基础。
-
-
韩雨轩;
温秀梅
-
-
摘要:
以电信类公司日志文件为分析模板,结合大数据技术,对流量日志的数据进行分析,获取用户的行为特征,明确网站改进方向,为电信类公司本身的业务提出合理化建议,实现数据的最大价值化.整体架构以 Hadoop3.1 为基础,搭建分布式数据存储分析的大数据平台,结合Sqoop、MySQL、Flume等,实现日志数据分析的架构设计,数据结果最终通过 Sqoop 工具由 HDFS导入到MySQL数据库存储,并对结果进行分析,为完善系统提出改进方案.
-
-
王珈珞;
曹前
-
-
摘要:
新媒体时代的快速崛起,使微课成为高职院校授课教学过程中的新型教学辅助模式.该文主要分析了Hadoop技术在高职微课体系的应用和深化,重点对数据平台框架中Hadoop分布式文件系统和Red5流媒体相关技术进行了研究和分析.通过微课系统的设计,实现了HDFS Client模块和RTMP Client模块的视频调用,并完成微课视频的海量存储和流媒体式播放方式.最后,结合大数据微课实例对系统的开发进行了分析和研究.
-
-
王珈珞;
曹前
-
-
摘要:
新媒体时代的快速崛起,使微课成为高职院校授课教学过程中的新型教学辅助模式。该文主要分析了Hadoop技术在高职微课体系的应用和深化,重点对数据平台框架中Hadoop分布式文件系统和Red5流媒体相关技术进行了研究和分析。通过微课系统的设计,实现了HDFS Client模块和RTMP Client模块的视频调用,并完成微课视频的海量存储和流媒体式播放方式。最后,结合大数据微课实例对系统的开发进行了分析和研究。
-
-
YANG Dong-ju;
杨冬菊;
LI Qing;
李青;
DENG Chong-bin
- 《第六届中国计算机学会服务计算学术会议》
| 2015年
-
摘要:
大部分存储集群构建时可能包含有遗留设备及新购置设备,这些设备在存储性能方面存在较大差异.采用HDFS默认的机架感知存储策略时,可能使访问频率高的数据存储在低性能节点上,而访问频率低的数据存储在高性能节点上,既影响集群响应时间,又降低了资源利用率.针对以上问题,本文提出了一种分级存储调度机制.在HDFS机架感知调度策略基础上,首先根据节点的CPU、内存大小、磁盘大小、磁盘IO等固有硬件性能将节点划分为高配置节点和低配置节点,其次根据节点的CPU使用率、内存使用率、网络带宽使用率、磁盘使用率等性能的动态因素建立节点的性能评价模型,并建立三个性能级别.根据节点配置情况、性能级别及网络位置等多方面因素进行综合调度.同时在集群运行过程中,会根据数据的访问频率对数据块的分布进行动态调整.实验结果表明,本文提出的分级存储调度机制可以在HDFS异构集群中提高数据的访问效率,优化集群性能.
-
-
YANG Dong-ju;
杨冬菊;
LI Qing;
李青;
DENG Chong-bin
- 《第六届中国计算机学会服务计算学术会议》
| 2015年
-
摘要:
大部分存储集群构建时可能包含有遗留设备及新购置设备,这些设备在存储性能方面存在较大差异.采用HDFS默认的机架感知存储策略时,可能使访问频率高的数据存储在低性能节点上,而访问频率低的数据存储在高性能节点上,既影响集群响应时间,又降低了资源利用率.针对以上问题,本文提出了一种分级存储调度机制.在HDFS机架感知调度策略基础上,首先根据节点的CPU、内存大小、磁盘大小、磁盘IO等固有硬件性能将节点划分为高配置节点和低配置节点,其次根据节点的CPU使用率、内存使用率、网络带宽使用率、磁盘使用率等性能的动态因素建立节点的性能评价模型,并建立三个性能级别.根据节点配置情况、性能级别及网络位置等多方面因素进行综合调度.同时在集群运行过程中,会根据数据的访问频率对数据块的分布进行动态调整.实验结果表明,本文提出的分级存储调度机制可以在HDFS异构集群中提高数据的访问效率,优化集群性能.
-
-
YANG Dong-ju;
杨冬菊;
LI Qing;
李青;
DENG Chong-bin
- 《第六届中国计算机学会服务计算学术会议》
| 2015年
-
摘要:
大部分存储集群构建时可能包含有遗留设备及新购置设备,这些设备在存储性能方面存在较大差异.采用HDFS默认的机架感知存储策略时,可能使访问频率高的数据存储在低性能节点上,而访问频率低的数据存储在高性能节点上,既影响集群响应时间,又降低了资源利用率.针对以上问题,本文提出了一种分级存储调度机制.在HDFS机架感知调度策略基础上,首先根据节点的CPU、内存大小、磁盘大小、磁盘IO等固有硬件性能将节点划分为高配置节点和低配置节点,其次根据节点的CPU使用率、内存使用率、网络带宽使用率、磁盘使用率等性能的动态因素建立节点的性能评价模型,并建立三个性能级别.根据节点配置情况、性能级别及网络位置等多方面因素进行综合调度.同时在集群运行过程中,会根据数据的访问频率对数据块的分布进行动态调整.实验结果表明,本文提出的分级存储调度机制可以在HDFS异构集群中提高数据的访问效率,优化集群性能.
-
-
YANG Dong-ju;
杨冬菊;
LI Qing;
李青;
DENG Chong-bin
- 《第六届中国计算机学会服务计算学术会议》
| 2015年
-
摘要:
大部分存储集群构建时可能包含有遗留设备及新购置设备,这些设备在存储性能方面存在较大差异.采用HDFS默认的机架感知存储策略时,可能使访问频率高的数据存储在低性能节点上,而访问频率低的数据存储在高性能节点上,既影响集群响应时间,又降低了资源利用率.针对以上问题,本文提出了一种分级存储调度机制.在HDFS机架感知调度策略基础上,首先根据节点的CPU、内存大小、磁盘大小、磁盘IO等固有硬件性能将节点划分为高配置节点和低配置节点,其次根据节点的CPU使用率、内存使用率、网络带宽使用率、磁盘使用率等性能的动态因素建立节点的性能评价模型,并建立三个性能级别.根据节点配置情况、性能级别及网络位置等多方面因素进行综合调度.同时在集群运行过程中,会根据数据的访问频率对数据块的分布进行动态调整.实验结果表明,本文提出的分级存储调度机制可以在HDFS异构集群中提高数据的访问效率,优化集群性能.
-
-
YANG Dong-ju;
杨冬菊;
LI Qing;
李青;
DENG Chong-bin
- 《第六届中国计算机学会服务计算学术会议》
| 2015年
-
摘要:
大部分存储集群构建时可能包含有遗留设备及新购置设备,这些设备在存储性能方面存在较大差异.采用HDFS默认的机架感知存储策略时,可能使访问频率高的数据存储在低性能节点上,而访问频率低的数据存储在高性能节点上,既影响集群响应时间,又降低了资源利用率.针对以上问题,本文提出了一种分级存储调度机制.在HDFS机架感知调度策略基础上,首先根据节点的CPU、内存大小、磁盘大小、磁盘IO等固有硬件性能将节点划分为高配置节点和低配置节点,其次根据节点的CPU使用率、内存使用率、网络带宽使用率、磁盘使用率等性能的动态因素建立节点的性能评价模型,并建立三个性能级别.根据节点配置情况、性能级别及网络位置等多方面因素进行综合调度.同时在集群运行过程中,会根据数据的访问频率对数据块的分布进行动态调整.实验结果表明,本文提出的分级存储调度机制可以在HDFS异构集群中提高数据的访问效率,优化集群性能.
-
-
HUANG Xiao-Cheng;
黄晓成;
YIN Jian-Wei
- 《第六届中国计算机学会服务计算学术会议》
| 2015年
-
摘要:
在线视频服务是互联网服务的重要内容,存储是在线视频服务提供的基础.HDFS作为面向通用文件的云存储系统,被很多视频服务网站采用,但其负载均衡工具没有考虑利用视频文件在线播放时的带宽消耗特性使集群的带宽资源得到更充分的利用.为解决这一问题,论文提出了视频存储场景下的负载均衡方法VOBM,方法对视频文件在线播放时的带宽消耗与视频文件的码率、数据块大小和访问热度的关系进行了分析并建立了新的负载评估模型,在此基础上方法在负载方案生成和负载调度两个环节中加入了对带宽消耗因素的考虑.同时,论文在HDFS原有负载均衡工具的基础上实现了所提方法,实验证明方法能够有效避免高带宽消耗数据块的聚集,在高带宽消耗视频文件作为服务访问热点的实验场景中,方法在90%的场景中优于原有负载均衡方法,最高能使数据节点集群中瓶颈节点的带宽峰值降低20%.
-
-
HUANG Xiao-Cheng;
黄晓成;
YIN Jian-Wei
- 《第六届中国计算机学会服务计算学术会议》
| 2015年
-
摘要:
在线视频服务是互联网服务的重要内容,存储是在线视频服务提供的基础.HDFS作为面向通用文件的云存储系统,被很多视频服务网站采用,但其负载均衡工具没有考虑利用视频文件在线播放时的带宽消耗特性使集群的带宽资源得到更充分的利用.为解决这一问题,论文提出了视频存储场景下的负载均衡方法VOBM,方法对视频文件在线播放时的带宽消耗与视频文件的码率、数据块大小和访问热度的关系进行了分析并建立了新的负载评估模型,在此基础上方法在负载方案生成和负载调度两个环节中加入了对带宽消耗因素的考虑.同时,论文在HDFS原有负载均衡工具的基础上实现了所提方法,实验证明方法能够有效避免高带宽消耗数据块的聚集,在高带宽消耗视频文件作为服务访问热点的实验场景中,方法在90%的场景中优于原有负载均衡方法,最高能使数据节点集群中瓶颈节点的带宽峰值降低20%.
-
-
HUANG Xiao-Cheng;
黄晓成;
YIN Jian-Wei
- 《第六届中国计算机学会服务计算学术会议》
| 2015年
-
摘要:
在线视频服务是互联网服务的重要内容,存储是在线视频服务提供的基础.HDFS作为面向通用文件的云存储系统,被很多视频服务网站采用,但其负载均衡工具没有考虑利用视频文件在线播放时的带宽消耗特性使集群的带宽资源得到更充分的利用.为解决这一问题,论文提出了视频存储场景下的负载均衡方法VOBM,方法对视频文件在线播放时的带宽消耗与视频文件的码率、数据块大小和访问热度的关系进行了分析并建立了新的负载评估模型,在此基础上方法在负载方案生成和负载调度两个环节中加入了对带宽消耗因素的考虑.同时,论文在HDFS原有负载均衡工具的基础上实现了所提方法,实验证明方法能够有效避免高带宽消耗数据块的聚集,在高带宽消耗视频文件作为服务访问热点的实验场景中,方法在90%的场景中优于原有负载均衡方法,最高能使数据节点集群中瓶颈节点的带宽峰值降低20%.
-
-
HUANG Xiao-Cheng;
黄晓成;
YIN Jian-Wei
- 《第六届中国计算机学会服务计算学术会议》
| 2015年
-
摘要:
在线视频服务是互联网服务的重要内容,存储是在线视频服务提供的基础.HDFS作为面向通用文件的云存储系统,被很多视频服务网站采用,但其负载均衡工具没有考虑利用视频文件在线播放时的带宽消耗特性使集群的带宽资源得到更充分的利用.为解决这一问题,论文提出了视频存储场景下的负载均衡方法VOBM,方法对视频文件在线播放时的带宽消耗与视频文件的码率、数据块大小和访问热度的关系进行了分析并建立了新的负载评估模型,在此基础上方法在负载方案生成和负载调度两个环节中加入了对带宽消耗因素的考虑.同时,论文在HDFS原有负载均衡工具的基础上实现了所提方法,实验证明方法能够有效避免高带宽消耗数据块的聚集,在高带宽消耗视频文件作为服务访问热点的实验场景中,方法在90%的场景中优于原有负载均衡方法,最高能使数据节点集群中瓶颈节点的带宽峰值降低20%.
-
-
HUANG Xiao-Cheng;
黄晓成;
YIN Jian-Wei
- 《第六届中国计算机学会服务计算学术会议》
| 2015年
-
摘要:
在线视频服务是互联网服务的重要内容,存储是在线视频服务提供的基础.HDFS作为面向通用文件的云存储系统,被很多视频服务网站采用,但其负载均衡工具没有考虑利用视频文件在线播放时的带宽消耗特性使集群的带宽资源得到更充分的利用.为解决这一问题,论文提出了视频存储场景下的负载均衡方法VOBM,方法对视频文件在线播放时的带宽消耗与视频文件的码率、数据块大小和访问热度的关系进行了分析并建立了新的负载评估模型,在此基础上方法在负载方案生成和负载调度两个环节中加入了对带宽消耗因素的考虑.同时,论文在HDFS原有负载均衡工具的基础上实现了所提方法,实验证明方法能够有效避免高带宽消耗数据块的聚集,在高带宽消耗视频文件作为服务访问热点的实验场景中,方法在90%的场景中优于原有负载均衡方法,最高能使数据节点集群中瓶颈节点的带宽峰值降低20%.