您现在的位置: 首页> 研究主题> Spark

Spark

Spark的相关文献在1992年到2023年内共计1732篇,主要集中在自动化技术、计算机技术、无线电电子学、电信技术、电工技术 等领域,其中期刊论文945篇、专利文献787篇;相关期刊391种,包括中国青年、电脑知识与技术、计算机工程与科学等; Spark的相关文献由4008位作者贡献,包括胡峰、唐卓、李肯立等。

Spark—发文量

期刊论文>

论文:945 占比:54.56%

专利文献>

论文:787 占比:45.44%

总计:1732篇

Spark—发文趋势图

Spark

-研究学者

  • 胡峰
  • 唐卓
  • 李肯立
  • 陆克中
  • 雷大江
  • 丁卫平
  • 于洪
  • 刘鹏
  • 梁毅
  • 毛睿
  • 期刊论文
  • 专利文献

搜索

排序:

年份

作者

    • 陈丽芳; 陈宏松; 孙海民
    • 摘要: 传统的推荐算法随着用户和项目的数量增多,新用户在单一项目上的行为减少,导致推荐质量较低,鉴于此,提出一种融合文档主题算法(LDA)和交替最小二乘算法(ALS)的混合协同过滤推荐算法.LDA-ALS算法结合了文档主题算法和交替最小二乘算法的优势,缓解因用户信息缺失造成的冷启动问题,并将高维的用户-项目评分矩阵映射到低维的近似矩阵中,有效缓解了数据稀疏性问题.实验结果表明:在Spark平台下,该算法在旅游数据集上比传统推荐算法降低了2.4%的误差,而且更能适应目前网络环境下的大数据处理.
    • 查道贵
    • 摘要: 为了克服传统机器学习算法及其框架的弊端,深入分析了K-均值算法与随机森林分类算法,提出了改进的AKM与ARF算法,建立了基于Spark平台技术的AMLF机器学习应用框架.由验证结果可知,AKM算法在各数据集中的分类准确率皆接近100%,具有较强的数据聚类能力,再者AKM算法在各数据集中的加速比皆较高,因而可升级性亦较强.而ARF验证结果显示,其不仅分类准确率较高,且可升级性较强.
    • 朱庆淦; 钟桂凤
    • 摘要: 校园安全关系到学生的健康成长,与每个师生、家长和社会都有着密切的关系,保证校园的安全是每个学校及教育工作者应有的责任。校园的出入口作为校园的第一道防护关卡,需要无时无刻地记录每一位出入人员的动向,但如果依靠人力去实现,实施起来会带来极大的困难,如果借助于人脸识别技术,则能极大地减少校园安保人员的工作量,同时提高对出入人员身份验证的工作效率。基于已经发展并且成熟的人脸识别技术,结合大数据的主流框架——Hadoop来提升人脸识别的效率,使用大数据技术进行大范围人脸数据的管理,从而更好地将其应用到校园安保工作,对校园安全管理的优化具有十分重要的意义。
    • 郑灿; 廖可非; 欧阳缮; 谢宁波; 蒋俊正
    • 摘要: 压缩感知(compressive sensing,CS)方法在合成孔径雷达(synthetic aperture radar,SAR)成像中应用广泛,但其存在计算时间长和计算能力扩展性不足等问题。为了解决上述问题,提出了一种基于Apache Spark的SAR压缩感知成像分布式成像方法。该方法首先将压缩后的数据沿方位角方向按每一行划分为行向量,然后通过Spark分布式计算平台进行距离向分布式并行重构;将距离向成像的结果矩阵按每一列划分成列向量,再通过Spark分布式计算平台进行方位向分布式并行重构,完成SAR压缩感知成像。此方法利用Spark基于内存的分布式并行计算优势,实现了计算速度是SAR压缩感知的1.9倍,是MapReduce的SAR压缩感知(MR-CS)方法的1.4倍,可见本文方法能够实现SAR压缩感知成像的加速。
    • 卞琛; 修位蓉; 于炯
    • 摘要: 异构Spark集群存在木桶效应,不合理的并行度导致任务分配与工作节点计算能力的适配性较差,进而影响集群计算效率和资源利用率。针对这一问题,首先建立模型,分析数据分布、并行度参数和节点任务分配的耦合关系,提出算法的优化目标,设计异构Spark集群的数据倾斜修正调度策略DSCS,包括并行度预估算法、数据倾斜修正算法和异构节点任务分配算法。预估算法对并行度进行先期设定,数据倾斜修正算法根据首个计算阶段的统计信息进行数据重新划分和并行度修正,由异构节点任务分配算法对集群不同计算能力的工作节点进行合理的任务分配,从而提高数据计算量与节点计算能力的适配性,优化Spark集群的整体性能。实验结果表明:在不同作业类型、不同数据集条件下,算法均取得了一定的性能提升,并能有效减少工作节点外存溢写的概率。
    • 张志洁
    • 摘要: 随着大数据时代的到来,医疗服务平台应运而生,但大多数医疗服务平台存在很多不足,缺少对大规模异构数据的特征分析,缺乏对病情风险的早期预警和个性化服务等,为解决医疗服务平台的难点和热点问题,研究如何采用Spark技术构建面向医疗大数据的脑卒中精准服务平台系统,用来满足用户对医疗服务平台的多元化需求。
    • 杨艳艳; 李雷孝; 林浩; 王永生; 王慧; 高静
    • 摘要: 为了提高机器学习算法超参数寻优效率,提出了一种基于参数并行机制的机器学习参数寻优方法。该方法通过群启发式算法来进行机器学习算法的参数寻优,将种群转换为Spark平台特有的弹性分布式数据集,针对参数寻优耗时特点并行计算种群中个体适应度。选取随机森林和遗传算法作为实验算法,设计了多组实验对所提出的学习训练方法进行验证。实验结果表明:该方法的参数寻优能力和效率都优于主流的网格搜索算法;在20万条以下的小数据量下,与基于数据并行机制的机器学习参数寻优方法相比,该方法运行时间最多能够减少69.5%,并具有良好的可扩展性。
    • 宋一鑫; 于俊洋; 何欣; 王锦江
    • 摘要: 针对Spark检查点缓存数据清理需要等待作业运行完成后由编程人员清理,可能导致产生失效数据累积占用内存问题,本文分析检查点执行机制,建模推导出随着检查点数量增多,检查点缓存清理方法不可扩展,提出使用检查点缓存效用熵模型感知检查点缓存和内存槽的匹配度,并利用效用最佳匹配原则,推导出最佳检查点缓存清理最佳时机.基于效用熵的检查点缓存并行清理(PCC)策略,通过使检查点缓存清理时刻近似等于检查点写入HDFS时刻优化内存资源.实验结果表明,在基于公平调度的多作业执行环境下,随着检查点数量增加,未优化程序执行效率变差,使用PCC策略后,在程序执行时长、耗电量、GC时间3个指标上最大分别能降低10.1%、9.5%、19.5%,有效提升多检查点时的程序执行效率.
    • 黄志; 苏传程; 苏晓红
    • 摘要: 针对长时间序列、多站点和多气象要素的大数据量查询需求,现有的CIMISS(China Integrated Meteorological Information Sharing System)存在支撑能力严重不足的问题。本研究使用广西气象站点建站至今的历史地面气象记录月报表数据资料和现有Hadoop集群物理资源,重新设计数据ETL流程,构建Parquet格式数据集并完成HDFS转换存储;嵌入Spark的Broadcast广播变量,优化Spark集群执行参数,提高了集群的处理并行度和SparkSql的关联查询效率。结果表明,Parquet格式数据集的最高压缩比超过95%,一次性大数据量的查询效率比原来提升了1~5倍,并支持高并发访问,为各类相关预报预测业务的开展提供了有效的技术支撑。
    • 冯钧; 王秉发; 陆佳民
    • 摘要: 随着知识图谱技术的不断发展,知识图谱驱动的知识信息管理广泛应用于各个领域,因此面向知识图谱的分布式SPARQL(Simple Protocol and Resource description framework Query Language)的查询效率显得尤为重要。首先针对现有的基于Spark和基于主存(RAM)的分布式资源描述框架(RDF)系统进行详细调研;其次,从上述系统中选出8个具有代表性的系统进行查询性能评估,比较基于Spark和基于RAM的系统在不同查询类型、查询直径、数据集上的查询性能差异;然后,全面分析实验结果,对基于Spark和基于RAM的系统的查询性能进行评价;最后,针对现有系统在分布式SPARQL查询中存在的查询伸缩性差、查询连接复杂度高、查询编译时间长等问题,展望面向垂直应用领域的分布式SPARQL查询优化的未来研究方向。
  • 查看更多

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号