您现在的位置: 首页> 研究主题> MapReduce框架

MapReduce框架

MapReduce框架的相关文献在2010年到2023年内共计128篇,主要集中在自动化技术、计算机技术、铁路运输、信息与知识传播 等领域,其中期刊论文82篇、会议论文11篇、专利文献59293篇;相关期刊44种,包括电讯技术、通信学报、计算机工程等; 相关会议10种,包括第32届中国数据库学术会议、第十四届中国体视学与图像分析学术会议、中国计算机用户协会网络应用分会2014年第十八届网络新技术与应用年会等;MapReduce框架的相关文献由339位作者贡献,包括毛伊敏、张新建、雷婷等。

MapReduce框架—发文量

期刊论文>

论文:82 占比:0.14%

会议论文>

论文:11 占比:0.02%

专利文献>

论文:59293 占比:99.84%

总计:59386篇

MapReduce框架—发文趋势图

MapReduce框架

-研究学者

  • 毛伊敏
  • 张新建
  • 雷婷
  • 吴楠
  • 周嘉
  • 孙韩林
  • 宗栋瑞
  • 曲武
  • 郭美思
  • 韩晓光
  • 期刊论文
  • 会议论文
  • 专利文献

搜索

排序:

年份

    • 毛伊敏; 耿俊豪; 陈亮
    • 摘要: 针对并行深度森林算法在处理大数据问题时存在的冗余与不相关特征过多,多粒度扫描不平衡以及并行化效率低等问题,提出了大数据环境下基于信息论改进的并行深度森林算法——IPDFIT(improved parallel deep forest based on information theory)。该算法基于信息论设计了一种混合降维策略DRIT(dimension reduction based on information theory),以获得降维后的数据集,有效减少了冗余及不相关特征的数量;提出了一种改进的多粒度扫描策略IMGSS(improved multi-grained scanning strategy)对样本进行扫描,保证每个特征在扫描后,同频率出现在数据子集中,避免了因多粒度扫描不平衡对深度森林模型的影响;结合MapReduce框架,对深度森林每层级联结构中的随机森林模型进行并行化训练,同时提出了一种样本加权策略TSWS(the sample weighting strategy),根据级联中随机森林模型对样本进行评估,选取评估结果较差的样本进入下一层训练,逐步减少了每层级中训练样本的数量,从而提高了算法的并行效率。实验结果表明,该算法在大数据环境下,尤其是针对特征数较多的数据集有着更好的分类效果。
    • 毛伊敏; 耿俊豪
    • 摘要: 针对MapReduce框架下的随机森林算法在处理大数据问题时存在的冗余与不相关特征过多,训练特征信息量低以及并行化效率低等问题,提出了大数据下基于信息论和范数的并行随机森林算法(PRFITN)。首先,该算法基于信息增益和Frobenius范数设计了一种混合降维策略(DRIGFN),获得降维后的数据集,有效减少了冗余及不相关特征数;其次,提出了基于信息论的特征分组策略(FGSIT),根据FGSIT策略将特征分组,采用分层抽样方法,保证了随机森林中决策树构建时训练特征的信息量,提高了分类结果的准确度;最后,在Reduce阶段提出了一种键值对重分配策略(RSKP),获取全局的分类结果,实现了键值对的快速均匀分配,从而提高了集群的并行效率。实验结果表明,该算法在大数据环境下,尤其是针对特征数较多的数据集有更好的分类效果。
    • 王金元; 王宇; 张亚松; 林昊; 龚致富; 李盼; 安新艳
    • 摘要: 传统的异常数据监测算法依靠单台计算机对异常数据进行识别,识别速度慢,且无法满足对数据处理的精确性要求。针对上述问题,文中构建了Hadoop分布式财务异常数据分析模型。该模型采用Hadoop中的MapReduce框架作为并行计算框架,同时在数据异常检测算法方面引入了邻域关系的LOF算法,有效避免了数据集元素边缘可能会出现误判的情况。数值实验结果表明,文中所提算法的准确率相比其他3种同类算法提升了5%以上,且算法的总运行时间也明显缩短。由此可见,文中所提模型可快速、准确地检测出财务异常数据,保障医疗系统的平稳运行。
    • 程家兴; 罗文华
    • 摘要: 基于Hadoop架构的DDoS检测模型的检测效率与使用的检测算法密切相关,在传统的基于MapReduce框架编写的单一属性Counter-Based算法基础上,提出融合源IP、数据帧长度的双重属性Counter-Based算法。通过调节不同检测参数进行实验测试,从检测时间、检测结果、检测率三方面进行对比,发现对于多数DDoS攻击环境,双重属性Counter-Based算法具有更优的检测效果。
    • 毛伊敏; 张瑞朋; 高波
    • 摘要: 针对大数据环境下DCNN(deep convolutional neural network)算法中存在网络冗余参数过多、参数寻优能力不佳和并行效率低的问题,提出了大数据环境下基于特征图和并行计算熵的深度卷积神经网络算法MR-FPDCNN(deep convolutional neural network algorithm based on feature graph and parallel computing entropy using MapReduce)。该算法设计了基于泰勒损失的特征图剪枝策略FMPTL(feature map pruning based on Taylor loss),预训练网络,获得压缩后的DCNN,有效减少了冗余参数,降低了DCNN训练的计算代价。提出了基于信息共享搜索策略ISS(information sharing strategy)的萤火虫优化算法IFAS(improved firefly algorithm based on ISS),根据“IFAS”算法初始化DCNN参数,实现DCNN的并行化训练,提高网络的寻优能力。在Reduce阶段提出了基于并行计算熵的动态负载均衡策略DLBPCE(dynamic load balancing strategy based on parallel computing entropy),获取全局训练结果,实现了数据的快速均匀分组,从而提高了集群的并行效率。实验结果表明,该算法不仅降低了DCNN在大数据环境下训练的计算代价,而且提高了并行系统的并行化性能。
    • 刘卫明; 安冉; 毛伊敏
    • 摘要: 针对并行SVM在大数据环境下对冗余数据敏感、参数寻优能力差以及并行过程中出现的负载不均衡等问题,提出了一种基于聚类算法和鲸鱼优化算法的并行支持向量机算法MR-KWSVM。首先,该算法提出KF策略来删减冗余数据,利用删减冗余数据后的数据集训练SVM,降低SVM对冗余数据的敏感性;其次,提出了基于非线性收敛因子和自适应惯性权重的鲸鱼智能优化算法IW-BNAW,利用“IW-BNAW”算法获取SVM的最优参数,提高支持向量机的参数寻优能力;最后,在利用MapReduce构造并行SVM的过程中,提出时间反馈策略用于reduce节点的负载调度,提高了集群的并行效率,实现了高并行的SVM。实验结果表明,所提算法不仅保证了SVM在大数据环境下的高并行计算能力,SVM的分类准确度也有明显提高,并且具有更好的泛化性能。
    • 刘卫明; 崔瑜; 毛伊敏; 刘蔚
    • 摘要: 针对大数据环境下并行K-means算法存在的面对高维数据聚类效果差、数据分区不均匀、初始质心敏感等问题,提出了一种基于MapReduce和MSSA的并行K-means算法MR-MSKCA。首先,提出基于肯德尔相关系数和深度稀疏自动编码器的降维策略(dimensionality reduction strategy based on Kendall correlation coefficient and DSAE,DRKCAE)对高维数据进行特征加权和特征提取,解决了高维数据不相关特征和结构稀疏导致的聚类效果差的问题;其次,提出基于两段映射的广义超平面分区策略(uniform partition strategy based on two-stage mapping,UPS)对数据集进行划分,获取均匀的数据分区;最后提出非均匀变异麻雀搜索算法(non-uniform mutation sparrow search algorithm,MSSA)用于获取并行K-means的聚类质心,解决了算法初始质心敏感的问题。在UCI数据集上进行的实验显示,MR-MSKCA较MR-KNMF、MR-PGDLSH、MR-GAPKCA的运行时间分别降低了45.1%、49.1%、59.8%,聚类效果分别提升了19.2%、22.8%、24%,表明MR-MSKCA对大数据进行聚类时有良好性能,适用于不同场景的大数据聚类分析。
    • 张元鸣; 虞家睿; 蒋建波; 陆佳炜; 肖刚
    • 摘要: MapReduce是一种适用于大数据处理的重要并行计算框架,通过在大量集群节点上并行执行多个任务,极大地提高了数据的处理性能.然而,由于中间数据需要等到Mapper任务完成之后才能被发送给Reducer任务,由此导致的大量传输延迟成为MapReduce框架性能的重要瓶颈.为此,文中提出了一种面向MapReduce的中间数据传输流水线优化机制,将有效计算与中间数据传输解耦,以流水线的方式重叠执行各个阶段,有效隐藏数据传输开销.文中还给出了中间数据传输流水线执行机制和实现策略,包括流水线划分、数据细分、数据归并和数据传输粒度等.在公开数据集上对所提中间数据传输流水线优化机制进行了评价,当Shuffle数据量较大时,该优化机制比默认框架的整体性能提高了60.2%.
    • 万婵; 魏理豪; 杨秋勇; 杨朝谊; 苏华权
    • 摘要: 针对当前电网行业产生的海量数据,提出采用规范化元数据管理等方式来实现对电力行业数据的统一存储与管理方案.首先通过数据预处理,将不同格式的电力数据统一转换为XML格式数据,然后采用中间件技术实现对XML数据抽取与访问;其次,针对大规模数据存储问题,提出基于哈希分桶算法对数据进行存储,以提高数据存储的效率;再次采用MapRe-duce框架对数据进行查询;通过对电力行业的部分数据进行查询试验,结果表明在查询时间方面,具有优势.
    • 吴丽珍; 孔纯; 陈伟
    • 摘要: 为解决负荷预测时因数据量大、数据种类繁多带来的计算速度慢、预测精度低等问题,在MapReduce并行编程框架下,提出基于小批量随机梯度下降法的线性回归模型.首先,为清理智能配电终端产生的重复数据和不良数据,提出利用自适应近邻排序算法清除重复记录的数据,并利用K均值聚类的方法剔除异常数据和记录不完整的数据,然后利用F检验法来检验该数据集能否线性表征负荷,再利用T检验法检验特性向量与负荷间线性关系的显著性,并剔除与负荷线性关系较弱的特性向量.根据以上方法建立短期负荷预测模型,并将其用在甘肃武威某区域配电网短期负荷预测中.结果表明,所提出的短期负荷预测模型的平均绝对百分误差为2.043%,均方根误差为3112.62.这些预测误差满足负荷预测的要求,极大地提高了负荷计算的速度,缩短了负荷预测时间.
  • 查看更多

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号