Hadoop集群
Hadoop集群的相关文献在2011年到2023年内共计211篇,主要集中在自动化技术、计算机技术、水利工程、教育
等领域,其中期刊论文69篇、会议论文4篇、专利文献17886篇;相关期刊52种,包括人天科学研究、桂林电子科技大学学报、信息技术等;
相关会议3种,包括第十九届全国青年通信学术年会、浙江省电子学会2014学术年会、2017广东通信青年论坛等;Hadoop集群的相关文献由493位作者贡献,包括施化吉、施磊磊、吴楠等。
Hadoop集群—发文量
专利文献>
论文:17886篇
占比:99.59%
总计:17959篇
Hadoop集群
-研究学者
- 施化吉
- 施磊磊
- 吴楠
- 宋玉平
- 束长波
- 郭美思
- 侯爱琴
- 吴奇石
- 宗栋瑞
- 梅纲
- 郑晓薇
- 须成忠
- 高东升
- 付铨
- 李林林
- 杨硕
- 汪海涛
- 王杰斌
- 田帅
- 田文洪
- 邓应强
- 丁卫平
- 严丽容
- 乐宁莉
- 乔芮敏
- 代栋
- 伍华涛
- 何原荣
- 何杰
- 兰太顺
- 刘传奇
- 刘寅
- 刘建华
- 刘文俊
- 刘牧
- 刘竞迪
- 刘银平
- 刘青昆
- 刘飞
- 刘骋昺
- 叶琪
- 吕松武
- 吴健
- 吴朝晖
- 吴海平
- 周学海
- 周恺
- 唐磊
- 喻之斌
- 夏旭东
-
-
田冰川;
田臣;
周宇航;
陈贵海;
窦万春
-
-
摘要:
大数据分析系统的用户希望任务的执行时间尽可能短。然而,在任务执行期间,网络与计算时刻都可能成为阻碍任务执行的资源瓶颈。通过对大数据分析系统的观察与分析,得出如下结论:1)根据当前资源瓶颈的不同,数据并行框架应当在多种工作模式之间切换;2)子任务的调度应当充分考虑将来可能到达的新任务,而不能仅考虑当前已经提交的任务。基于上述观察,设计并实现了全新的任务调度系统Duopoly,其由感知计算资源的网络调度器cans与感知网络资源的子任务调度器nats两部分组成。通过小规模物理集群与大规模仿真实验对Duopoly的效果进行评估,实验结果表明,与现有工作相比,Duopoly可以将平均任务完成时间缩短37.30%~76.16%。
-
-
王金元;
王宇;
张亚松;
林昊;
龚致富;
李盼;
安新艳
-
-
摘要:
传统的异常数据监测算法依靠单台计算机对异常数据进行识别,识别速度慢,且无法满足对数据处理的精确性要求。针对上述问题,文中构建了Hadoop分布式财务异常数据分析模型。该模型采用Hadoop中的MapReduce框架作为并行计算框架,同时在数据异常检测算法方面引入了邻域关系的LOF算法,有效避免了数据集元素边缘可能会出现误判的情况。数值实验结果表明,文中所提算法的准确率相比其他3种同类算法提升了5%以上,且算法的总运行时间也明显缩短。由此可见,文中所提模型可快速、准确地检测出财务异常数据,保障医疗系统的平稳运行。
-
-
蔡春花;
黄思远;
高继梅
-
-
摘要:
文中设计一个用于存储的平台,通过虚拟化技术实现了服务器,规划了平台的存储集群规模及服务;对存储集群架构、请求处理系统、数据库进行了设计;使用Spring Boot和Thymeleaf实现了前台用户功能模块,包括用户注册、用户登录、文件上传及文件相关操作、用户关注和用户分享等功能;最后对HBase库亿级大数据查询性能和Hadoop集群输入/输出(Input/Output,I/O)性能进行了测试。测试结果表明查询性能可以做到百毫秒级查询,写性能平均I/O速率为91.73 Mb/s,读性能平均I/O速率为348.56 Mb/s,能够满足用户需求。
-
-
王一高;
任耀星;
李嘉瑶
-
-
摘要:
本文设计了一种基于Hadoop高可用集群的大数据新闻可视化平台。搭建Hadoop高可用集群并部署相关服务之后采用分布式爬虫采集数据,通过SparkStreaming完成对实时流数据的处理,最后使用百度Sugar实现了热点新闻数据的可视化,经测试系统稳定,能够在较短时间内处理海量新闻数据。以此为基础还构建了一个新闻语料库,可以为日后的机器学习、语料库研究提供数据支撑。
-
-
游贵荣;
黄清兰;
乐宁莉
-
-
摘要:
针对现有大数据实验平台成本较高、总体部署效率较低,扩展性较差等问题,提出利用容器虚拟化技术,采用Docker、Kubernetes(K8s)、Rancher、JumpServer等开源组件来快速构建轻量级大数据实验平台的端到端解决方案,阐述了平台使用的相关技术,包括容器编排、容器数据的持久化、访问容器中的图形界面、用户如何访问容器集群提供的服务,并通过简单二次开发实现批量部署大数据实验环境等内容。实验测试表明,该平台具有建设成本较低、部署效率高、可扩展性强等特点,能够满足日常教学与实验需求,具有较好的应用价值和推广意义。
-
-
刘建华;
常发财
-
-
摘要:
为了解决校园学生行为数据量大、结构复杂和来源广泛造成的数据管理难度大的问题,提出了一种在大数据平台上构建知识库的模型,分析海量学生数据。通过搭建Hadoop集群对学生一卡通数据做数据抽取、数据融合、数据入库分析和数据更新等操作形成学生行为知识库,并通过改进TextRank算法和采用随机游走技术实现知识库的自动推理和异常检测。实验结果表明,所构建的知识库与sym-KL算法构建的知识库进行对比分析,明显提升了对知识的分类、关系的链接和异常的检测效率,也为学校信息化平台增添了智能分析的功能。
-
-
潘伟博;
汪海涛;
姜瑛;
陈星;
田帅
-
-
摘要:
针对Hadoop集群节点增加导致任务运行效率降低,以及异常节点会拖慢整体作业进度的问题,提出了一种Hadoop集群异常节点实时检测与诊断算法。首先基于正常状态下节点性能相似性原理,使用Logstash工具收集Hadoop集群节点运行日志中的任务状态信息;其次,发现异常节点后,通过Perf性能分析工具收集体系结构性能信息,再利用异常节点诊断算法诊断导致该节点异常的原因。通过实时流计算框架Spark Streaming构建了异常节点实时检测与诊断模型,并设计了一系列的实验验证了本算法的有效性。
-
-
杨晓雁;
张博欣
-
-
摘要:
利用云计算等先进技术对网络数据库进行优化总结.基于云计算等技术重新设计了一种面向大数据的网络数据库,实现了平台操作设计、集群模块搭建以及数据整合与预处理等.基于云计算等技术对网络数据库进行优化,是实现网络数据库存储容量提升,全面优化大数据时代网络数据库并发性、提高海量数据状态下网络数据库利用率的重要举措.
-
-
潘伟博;
汪海涛;
姜瑛;
陈星;
田帅
-
-
摘要:
针对Hadoop集群节点增加导致任务运行效率降低,以及异常节点会拖慢整体作业进度的问题,提出了一种Hadoop集群异常节点实时检测与诊断算法.首先基于正常状态下节点性能相似性原理,使用Logstash工具收集Hadoop集群节点运行日志中的任务状态信息;其次,发现异常节点后,通过Perf性能分析工具收集体系结构性能信息,再利用异常节点诊断算法诊断导致该节点异常的原因.通过实时流计算框架Spark Streaming构建了异常节点实时检测与诊断模型,并设计了一系列的实验验证了本算法的有效性.
-
-
刘建华;
常发财
-
-
摘要:
为了解决校园学生行为数据量大、结构复杂和来源广泛造成的数据管理难度大的问题,提出了一种在大数据平台上构建知识库的模型,分析海量学生数据.通过搭建Hadoop集群对学生一卡通数据做数据抽取、数据融合、数据入库分析和数据更新等操作形成学生行为知识库,并通过改进TextRank算法和采用随机游走技术实现知识库的自动推理和异常检测.实验结果表明,所构建的知识库与sym-KL算法构建的知识库进行对比分析,明显提升了对知识的分类、关系的链接和异常的检测效率,也为学校信息化平台增添了智能分析的功能.