您现在的位置: 首页> 研究主题> Hadoop集群

Hadoop集群

Hadoop集群的相关文献在2011年到2023年内共计211篇,主要集中在自动化技术、计算机技术、水利工程、教育 等领域,其中期刊论文69篇、会议论文4篇、专利文献17886篇;相关期刊52种,包括人天科学研究、桂林电子科技大学学报、信息技术等; 相关会议3种,包括第十九届全国青年通信学术年会、浙江省电子学会2014学术年会、2017广东通信青年论坛等;Hadoop集群的相关文献由493位作者贡献,包括施化吉、施磊磊、吴楠等。

Hadoop集群—发文量

期刊论文>

论文:69 占比:0.38%

会议论文>

论文:4 占比:0.02%

专利文献>

论文:17886 占比:99.59%

总计:17959篇

Hadoop集群—发文趋势图

Hadoop集群

-研究学者

  • 施化吉
  • 施磊磊
  • 吴楠
  • 宋玉平
  • 束长波
  • 郭美思
  • 侯爱琴
  • 吴奇石
  • 宗栋瑞
  • 梅纲
  • 期刊论文
  • 会议论文
  • 专利文献

搜索

排序:

年份

    • 田冰川; 田臣; 周宇航; 陈贵海; 窦万春
    • 摘要: 大数据分析系统的用户希望任务的执行时间尽可能短。然而,在任务执行期间,网络与计算时刻都可能成为阻碍任务执行的资源瓶颈。通过对大数据分析系统的观察与分析,得出如下结论:1)根据当前资源瓶颈的不同,数据并行框架应当在多种工作模式之间切换;2)子任务的调度应当充分考虑将来可能到达的新任务,而不能仅考虑当前已经提交的任务。基于上述观察,设计并实现了全新的任务调度系统Duopoly,其由感知计算资源的网络调度器cans与感知网络资源的子任务调度器nats两部分组成。通过小规模物理集群与大规模仿真实验对Duopoly的效果进行评估,实验结果表明,与现有工作相比,Duopoly可以将平均任务完成时间缩短37.30%~76.16%。
    • 王金元; 王宇; 张亚松; 林昊; 龚致富; 李盼; 安新艳
    • 摘要: 传统的异常数据监测算法依靠单台计算机对异常数据进行识别,识别速度慢,且无法满足对数据处理的精确性要求。针对上述问题,文中构建了Hadoop分布式财务异常数据分析模型。该模型采用Hadoop中的MapReduce框架作为并行计算框架,同时在数据异常检测算法方面引入了邻域关系的LOF算法,有效避免了数据集元素边缘可能会出现误判的情况。数值实验结果表明,文中所提算法的准确率相比其他3种同类算法提升了5%以上,且算法的总运行时间也明显缩短。由此可见,文中所提模型可快速、准确地检测出财务异常数据,保障医疗系统的平稳运行。
    • 蔡春花; 黄思远; 高继梅
    • 摘要: 文中设计一个用于存储的平台,通过虚拟化技术实现了服务器,规划了平台的存储集群规模及服务;对存储集群架构、请求处理系统、数据库进行了设计;使用Spring Boot和Thymeleaf实现了前台用户功能模块,包括用户注册、用户登录、文件上传及文件相关操作、用户关注和用户分享等功能;最后对HBase库亿级大数据查询性能和Hadoop集群输入/输出(Input/Output,I/O)性能进行了测试。测试结果表明查询性能可以做到百毫秒级查询,写性能平均I/O速率为91.73 Mb/s,读性能平均I/O速率为348.56 Mb/s,能够满足用户需求。
    • 王一高; 任耀星; 李嘉瑶
    • 摘要: 本文设计了一种基于Hadoop高可用集群的大数据新闻可视化平台。搭建Hadoop高可用集群并部署相关服务之后采用分布式爬虫采集数据,通过SparkStreaming完成对实时流数据的处理,最后使用百度Sugar实现了热点新闻数据的可视化,经测试系统稳定,能够在较短时间内处理海量新闻数据。以此为基础还构建了一个新闻语料库,可以为日后的机器学习、语料库研究提供数据支撑。
    • 游贵荣; 黄清兰; 乐宁莉
    • 摘要: 针对现有大数据实验平台成本较高、总体部署效率较低,扩展性较差等问题,提出利用容器虚拟化技术,采用Docker、Kubernetes(K8s)、Rancher、JumpServer等开源组件来快速构建轻量级大数据实验平台的端到端解决方案,阐述了平台使用的相关技术,包括容器编排、容器数据的持久化、访问容器中的图形界面、用户如何访问容器集群提供的服务,并通过简单二次开发实现批量部署大数据实验环境等内容。实验测试表明,该平台具有建设成本较低、部署效率高、可扩展性强等特点,能够满足日常教学与实验需求,具有较好的应用价值和推广意义。
    • 刘建华; 常发财
    • 摘要: 为了解决校园学生行为数据量大、结构复杂和来源广泛造成的数据管理难度大的问题,提出了一种在大数据平台上构建知识库的模型,分析海量学生数据。通过搭建Hadoop集群对学生一卡通数据做数据抽取、数据融合、数据入库分析和数据更新等操作形成学生行为知识库,并通过改进TextRank算法和采用随机游走技术实现知识库的自动推理和异常检测。实验结果表明,所构建的知识库与sym-KL算法构建的知识库进行对比分析,明显提升了对知识的分类、关系的链接和异常的检测效率,也为学校信息化平台增添了智能分析的功能。
    • 潘伟博; 汪海涛; 姜瑛; 陈星; 田帅
    • 摘要: 针对Hadoop集群节点增加导致任务运行效率降低,以及异常节点会拖慢整体作业进度的问题,提出了一种Hadoop集群异常节点实时检测与诊断算法。首先基于正常状态下节点性能相似性原理,使用Logstash工具收集Hadoop集群节点运行日志中的任务状态信息;其次,发现异常节点后,通过Perf性能分析工具收集体系结构性能信息,再利用异常节点诊断算法诊断导致该节点异常的原因。通过实时流计算框架Spark Streaming构建了异常节点实时检测与诊断模型,并设计了一系列的实验验证了本算法的有效性。
    • 杨晓雁; 张博欣
    • 摘要: 利用云计算等先进技术对网络数据库进行优化总结.基于云计算等技术重新设计了一种面向大数据的网络数据库,实现了平台操作设计、集群模块搭建以及数据整合与预处理等.基于云计算等技术对网络数据库进行优化,是实现网络数据库存储容量提升,全面优化大数据时代网络数据库并发性、提高海量数据状态下网络数据库利用率的重要举措.
    • 潘伟博; 汪海涛; 姜瑛; 陈星; 田帅
    • 摘要: 针对Hadoop集群节点增加导致任务运行效率降低,以及异常节点会拖慢整体作业进度的问题,提出了一种Hadoop集群异常节点实时检测与诊断算法.首先基于正常状态下节点性能相似性原理,使用Logstash工具收集Hadoop集群节点运行日志中的任务状态信息;其次,发现异常节点后,通过Perf性能分析工具收集体系结构性能信息,再利用异常节点诊断算法诊断导致该节点异常的原因.通过实时流计算框架Spark Streaming构建了异常节点实时检测与诊断模型,并设计了一系列的实验验证了本算法的有效性.
    • 刘建华; 常发财
    • 摘要: 为了解决校园学生行为数据量大、结构复杂和来源广泛造成的数据管理难度大的问题,提出了一种在大数据平台上构建知识库的模型,分析海量学生数据.通过搭建Hadoop集群对学生一卡通数据做数据抽取、数据融合、数据入库分析和数据更新等操作形成学生行为知识库,并通过改进TextRank算法和采用随机游走技术实现知识库的自动推理和异常检测.实验结果表明,所构建的知识库与sym-KL算法构建的知识库进行对比分析,明显提升了对知识的分类、关系的链接和异常的检测效率,也为学校信息化平台增添了智能分析的功能.
  • 查看更多

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号