您现在的位置：首页> 研究主题> Spark

Spark

Spark的相关文献在1992年到2023年内共计1732篇，主要集中在自动化技术、计算机技术、无线电电子学、电信技术、电工技术等领域，其中期刊论文945篇、专利文献787篇；相关期刊391种，包括中国青年、电脑知识与技术、计算机工程与科学等； Spark的相关文献由4008位作者贡献，包括胡峰、唐卓、李肯立等。

Spark—发文量

期刊论文>

论文：945篇占比：54.56%

专利文献>

论文：787篇占比：45.44%

总计：1732篇

Spark—发文趋势图

Spark
-研究学者

胡峰
唐卓
李肯立
陆克中
雷大江
丁卫平
于洪
刘鹏
梁毅
毛睿
周朝卫
王进
隋秀峰
孙颖
李铭
付仲明
朱金彬
李智星
熊安萍
王勇
王国仁
黄宜华
冯志豪
欧阳卫华
胡亚红
邓欣
陆敏华
陈乔松
鞠恒荣
黄冬梅
于炯
冯骏
叶帅
张清华
朱永利
李克勤
李天瑞
李鸿健
毛家发
汪璟玢
滕飞
王波涛
祝永志
赵慧含
邓维斌
顾军华
丁家满
仰彦妍
卞琛
孟磊

Spark
-相关主题

Spark
-相关期刊

期刊论文
专利文献

搜索

排序：

专利类型

专利分类

学科

年份

2023
(1)
2022
(191)
2021
(202)
2020
(121)
2019
(148)
2018
(171)
2017
(141)
2016
(104)
2015
(62)
2014
(20)
2013
(11)
2012
(3)
2011
(4)
2009
(1)
2008
(1)
2007
(1)
2006
(3)
2005
(1)
2004
(3)
2001
(1)
1999
(2)
1998
(1)
1997
(2)
1996
(1)
1992
(1)

期刊

收录数据库

作者

胡峰
(27)
唐卓
(15)
李肯立
(15)
陆克中
(14)
雷大江
(14)
丁卫平
(13)
于洪
(13)
刘鹏
(13)
梁毅
(13)
毛睿
(12)
周朝卫
(11)
王进
(11)
隋秀峰
(11)
孙颖
(10)
李铭
(10)
付仲明
(9)
朱金彬
(9)
李智星
(9)
熊安萍
(9)
王勇
(9)
王国仁
(9)
黄宜华
(9)
冯志豪
(8)
欧阳卫华
(8)
胡亚红
(8)
邓欣
(8)
陆敏华
(8)
陈乔松
(8)
鞠恒荣
(8)
黄冬梅
(8)
于炯
(7)
冯骏
(7)
叶帅
(7)
张清华
(7)
朱永利
(7)
李克勤
(7)
李天瑞
(7)
李鸿健
(7)
毛家发
(7)
汪璟玢
(7)
滕飞
(7)
王波涛
(7)
祝永志
(7)
赵慧含
(7)
邓维斌
(7)
顾军华
(7)
丁家满
(6)
仰彦妍
(6)
卞琛
(6)
孟磊
(6)

关键词

Spark
(785)
大数据
(193)
Hadoop
(124)
SPARK
(98)
并行化
(40)
MapReduce
(35)
并行计算
(34)
协同过滤
(33)
数据挖掘
(33)
机器学习
(31)
分布式计算
(28)
聚类
(27)
推荐系统
(22)
分布式
(21)
云计算
(20)
随机森林
(19)
K-means
(18)
http
(18)
中国青年
(18)
书籍资料
(18)
党团组织
(18)
学习教育
(18)
HDFS
(17)
ALS
(15)
RDD
(14)
关联规则
(14)
Apriori
(13)
大数据分析
(13)
弹性分布式数据集
(13)
消费观念
(13)
运行环节
(13)
Kafka
(12)
并行
(12)
推荐算法
(12)
大数据平台
(11)
HBase
(10)
内存计算
(10)
数据分析
(10)
聚类算法
(10)
Hive
(9)
plasma
(9)
体育教学
(9)
性能优化
(9)
支持向量机
(9)
海量数据
(9)
可视化
(8)
日志分析
(8)
深度学习
(8)
BP神经网络
(7)
DBSCAN
(7)

申请/权力人

;

1. 大数据平台下LDA-ALS智能推荐算法研究
- 陈丽芳；陈宏松；孙海民
- 摘要：传统的推荐算法随着用户和项目的数量增多,新用户在单一项目上的行为减少,导致推荐质量较低,鉴于此,提出一种融合文档主题算法(LDA)和交替最小二乘算法(ALS)的混合协同过滤推荐算法.LDA-ALS算法结合了文档主题算法和交替最小二乘算法的优势,缓解因用户信息缺失造成的冷启动问题,并将高维的用户-项目评分矩阵映射到低维的近似矩阵中,有效缓解了数据稀疏性问题.实验结果表明:在Spark平台下,该算法在旅游数据集上比传统推荐算法降低了2.4％的误差,而且更能适应目前网络环境下的大数据处理.
- Spark
- LDA
- ALS
2. 基于AMLF优化算法的机器学习框架的技术研究
- 查道贵
- 摘要：为了克服传统机器学习算法及其框架的弊端,深入分析了K-均值算法与随机森林分类算法,提出了改进的AKM与ARF算法,建立了基于Spark平台技术的AMLF机器学习应用框架.由验证结果可知,AKM算法在各数据集中的分类准确率皆接近100％,具有较强的数据聚类能力,再者AKM算法在各数据集中的加速比皆较高,因而可升级性亦较强.而ARF验证结果显示,其不仅分类准确率较高,且可升级性较强.
3. 基于大数据技术下校园智能安防系统的应用研究
- 朱庆淦；钟桂凤
- 摘要：校园安全关系到学生的健康成长,与每个师生、家长和社会都有着密切的关系,保证校园的安全是每个学校及教育工作者应有的责任。校园的出入口作为校园的第一道防护关卡,需要无时无刻地记录每一位出入人员的动向,但如果依靠人力去实现,实施起来会带来极大的困难,如果借助于人脸识别技术,则能极大地减少校园安保人员的工作量,同时提高对出入人员身份验证的工作效率。基于已经发展并且成熟的人脸识别技术,结合大数据的主流框架——Hadoop来提升人脸识别的效率,使用大数据技术进行大范围人脸数据的管理,从而更好地将其应用到校园安保工作,对校园安全管理的优化具有十分重要的意义。
4. 基于Spark的合成孔径雷达压缩感知分布式成像
- 郑灿；廖可非；欧阳缮；谢宁波；蒋俊正
- 摘要：压缩感知(compressive sensing,CS)方法在合成孔径雷达(synthetic aperture radar,SAR)成像中应用广泛,但其存在计算时间长和计算能力扩展性不足等问题。为了解决上述问题,提出了一种基于Apache Spark的SAR压缩感知成像分布式成像方法。该方法首先将压缩后的数据沿方位角方向按每一行划分为行向量,然后通过Spark分布式计算平台进行距离向分布式并行重构;将距离向成像的结果矩阵按每一列划分成列向量,再通过Spark分布式计算平台进行方位向分布式并行重构,完成SAR压缩感知成像。此方法利用Spark基于内存的分布式并行计算优势,实现了计算速度是SAR压缩感知的1.9倍,是MapReduce的SAR压缩感知(MR-CS)方法的1.4倍,可见本文方法能够实现SAR压缩感知成像的加速。
5. 异构Spark集群数据倾斜修正调度策略
- 卞琛；修位蓉；于炯
- 摘要：异构Spark集群存在木桶效应,不合理的并行度导致任务分配与工作节点计算能力的适配性较差,进而影响集群计算效率和资源利用率。针对这一问题,首先建立模型,分析数据分布、并行度参数和节点任务分配的耦合关系,提出算法的优化目标,设计异构Spark集群的数据倾斜修正调度策略DSCS,包括并行度预估算法、数据倾斜修正算法和异构节点任务分配算法。预估算法对并行度进行先期设定,数据倾斜修正算法根据首个计算阶段的统计信息进行数据重新划分和并行度修正,由异构节点任务分配算法对集群不同计算能力的工作节点进行合理的任务分配,从而提高数据计算量与节点计算能力的适配性,优化Spark集群的整体性能。实验结果表明:在不同作业类型、不同数据集条件下,算法均取得了一定的性能提升,并能有效减少工作节点外存溢写的概率。
6. 基于Spark的脑卒中医疗大数据服务平台构建研究
- 张志洁
- 摘要：随着大数据时代的到来,医疗服务平台应运而生,但大多数医疗服务平台存在很多不足,缺少对大规模异构数据的特征分析,缺乏对病情风险的早期预警和个性化服务等,为解决医疗服务平台的难点和热点问题,研究如何采用Spark技术构建面向医疗大数据的脑卒中精准服务平台系统,用来满足用户对医疗服务平台的多元化需求。
7. 参数并行:一种基于群启发式算法的机器学习参数寻优方法
- 杨艳艳；李雷孝；林浩；王永生；王慧；高静
- 摘要：为了提高机器学习算法超参数寻优效率,提出了一种基于参数并行机制的机器学习参数寻优方法。该方法通过群启发式算法来进行机器学习算法的参数寻优,将种群转换为Spark平台特有的弹性分布式数据集,针对参数寻优耗时特点并行计算种群中个体适应度。选取随机森林和遗传算法作为实验算法,设计了多组实验对所提出的学习训练方法进行验证。实验结果表明:该方法的参数寻优能力和效率都优于主流的网格搜索算法;在20万条以下的小数据量下,与基于数据并行机制的机器学习参数寻优方法相比,该方法运行时间最多能够减少69.5%,并具有良好的可扩展性。
8. Spark效用感知的检查点缓存并行清理策略
- 宋一鑫；于俊洋；何欣；王锦江
- 摘要：针对Spark检查点缓存数据清理需要等待作业运行完成后由编程人员清理,可能导致产生失效数据累积占用内存问题,本文分析检查点执行机制,建模推导出随着检查点数量增多,检查点缓存清理方法不可扩展,提出使用检查点缓存效用熵模型感知检查点缓存和内存槽的匹配度,并利用效用最佳匹配原则,推导出最佳检查点缓存清理最佳时机.基于效用熵的检查点缓存并行清理(PCC)策略,通过使检查点缓存清理时刻近似等于检查点写入HDFS时刻优化内存资源.实验结果表明,在基于公平调度的多作业执行环境下,随着检查点数量增加,未优化程序执行效率变差,使用PCC策略后,在程序执行时长、耗电量、GC时间3个指标上最大分别能降低10.1%、9.5%、19.5%,有效提升多检查点时的程序执行效率.
9. 大数据环境下Spark性能优化分析研究与应用
- 黄志；苏传程；苏晓红
- 摘要：针对长时间序列、多站点和多气象要素的大数据量查询需求,现有的CIMISS(China Integrated Meteorological Information Sharing System)存在支撑能力严重不足的问题。本研究使用广西气象站点建站至今的历史地面气象记录月报表数据资料和现有Hadoop集群物理资源,重新设计数据ETL流程,构建Parquet格式数据集并完成HDFS转换存储;嵌入Spark的Broadcast广播变量,优化Spark集群执行参数,提高了集群的处理并行度和SparkSql的关联查询效率。结果表明,Parquet格式数据集的最高压缩比超过95%,一次性大数据量的查询效率比原来提升了1~5倍,并支持高并发访问,为各类相关预报预测业务的开展提供了有效的技术支撑。
- Hadoop
- Spark
- ETL
- PARQUET
- 列式存储
- BROADCAST
10. 分布式资源描述框架数据管理系统查询性能评价
- 冯钧；王秉发；陆佳民
- 摘要：随着知识图谱技术的不断发展,知识图谱驱动的知识信息管理广泛应用于各个领域,因此面向知识图谱的分布式SPARQL(Simple Protocol and Resource description framework Query Language)的查询效率显得尤为重要。首先针对现有的基于Spark和基于主存(RAM)的分布式资源描述框架(RDF)系统进行详细调研;其次,从上述系统中选出8个具有代表性的系统进行查询性能评估,比较基于Spark和基于RAM的系统在不同查询类型、查询直径、数据集上的查询性能差异;然后,全面分析实验结果,对基于Spark和基于RAM的系统的查询性能进行评价;最后,针对现有系统在分布式SPARQL查询中存在的查询伸缩性差、查询连接复杂度高、查询编译时间长等问题,展望面向垂直应用领域的分布式SPARQL查询优化的未来研究方向。

1. 一种基于Spark平台的Spark Streaming异常温度数据报警方法
- 南京邮电大学
- 公开公告日期：2019.03.26
- 摘要：本发明一种基于Spark平台的Spark Streaming异常温度数据报警方法，结合kafka中间件作为服务器存储队列构建了一个异常温度检测系统及方法。本方法利用传感器收集物联网传来的温度数据，并上传到服务器，在这里数据全部进入kafka队列。Spark Streaming会实时消费kafka队列的数据，将数据读出来并进行实时的分析，并对异常数据发出报警信号。经过Spark Streaming实时计算程序分析，将结果写入Orancle数据库，可以实时获取温度数据，并可以导出来进行离线综合统计分析。
2. 一种基于Spark平台的Spark Streaming异常温度数据报警方法
- 南京邮电大学
- 公开公告日期：2017-05-31
- 摘要：本发明一种基于Spark平台的Spark Streaming异常温度数据报警方法，结合kafka中间件作为服务器存储队列构建了一个异常温度检测系统及方法。本方法利用传感器收集物联网传来的温度数据，并上传到服务器，在这里数据全部进入kafka队列。Spark Streaming会实时消费kafka队列的数据，将数据读出来并进行实时的分析，并对异常数据发出报警信号。经过Spark Streaming实时计算程序分析，将结果写入Orancle数据库，可以实时获取温度数据，并可以导出来进行离线综合统计分析。
3. 一种混合部署下基于Spark代价感知的批处理应用驱逐方法
- 中国科学技术大学
- 公开公告日期：2023-01-03
- 摘要：本发明涉及云计算技术领域，公开了一种混合部署下基于Spark代价感知的批处理应用驱逐方法，包含定义Spark计算任务重算代价、估计剩余时间代价以及预测LC应用的资源使用需求；首先，由于本发明只涉及到容器编排平台的修改，兼容已有的Spark应用和所有的LC应用，因此通用性较好；并且由于算法采用触发式平时组件只消耗极少量资源，对于LC、BE应用几乎没有影响；最后，由于可以将重算代价定义成计算代价以及传输代价两部分以及动态感知LC资源使用需求的变化，同时提供了大量的可自定义参数，所以本方法适用于多种场景，通用性较好；本发明适用于混合部署下由于LC应用负载升高产生了内存争用的情况，提高了资源利用率的同时也提高了集群的总吞吐。
4. 基于Spark调度任务的慢任务分析方法和装置
- 浙江太美医疗科技股份有限公司
- 公开公告日期：2022-04-01
- 摘要：本发明涉及一种基于Spark调度任务的慢任务分析方法、装置及计算机可读介质。方法包括：将任务阶段划分为多个区段，将每个所述区段划分为多个子过程，预定义每个所述子过程对应的慢查询原因；Spark程序运行多个任务，每个所述任务包括多个所述任务阶段；获取每个所述子过程的执行时长，根据所述子过程的执行时长判断所述子过程是否为异常子过程；以及统计所述多个异常子过程的慢查询原因，将出现次数最多的慢查询原因定义为共性慢查询原因。本发明通过预定义子过程对应的慢查询原因，使程序可以自动分析批量任务的慢查询原因；通过对慢查询原因的次数做排序，可以快速定位到批量任务的慢查询原因。
5. 一种基于深度强化学习和异构Spark集群的节能调度方法及系统
- 重庆邮电大学
- 公开公告日期：2022-04-05
- 摘要：本发明属于强化学习和大数据处理领域，具体涉及一种基于深度强化学习和异构Spark集群的节能调度方法及系统；该方法包括：实时获取Spark集群上真实负载下的在线数据信息，将数据信息输入到训练好的Q网络，Q网络对数据信息进行能耗‑时间目标预测，系统根据能耗‑时间目标预测选择能耗‑时间目标最低的方案进行资源分配；本发明考虑到集群异构导致能耗不同从而带来的资源优先分配问题，在保证满足用户响应时间情况下寻找最低能耗‑时间目标，并根据最低能耗‑时间目标进行资源调度，能针对能耗目标或者多种SLA目标进行优化并尽可能的节能减排，对通过此方法来达到平衡云服务提供商成本和用户之间响应时间有重要意义，具有良好的经济效益。
6. 基于Spark的地铁站疏散风险分析方法
- 上海应用技术大学
- 公开公告日期：2022-04-01
- 摘要：本发明提供了一种基于Spark的地铁站疏散风险分析方法，包括对地铁站疏散失败的历史相关事故进行致因分析处理，确定导致事故发生的风险主要因素，将所述主要因素进行分类，确定疏散风险指标；搭建分布式Spark Streaming框架构建数据仓库，将所述数据仓库中所述疏散风险指标的数据进行处理，建立风险指标库；采用关联规则算法并行关联规则挖掘算法对各个所述疏散风险指标进行强关联规则的挖掘分析，建立并行关联规则挖掘算法的风险分析模型。本发明通过搭建数据仓库完成数据的处理工作，采用并行化的关联规则挖掘算法关联规则算法对风险指标数据进行进一步的分析和挖掘，通过得到的风险分析模型输出风险分析结果，最后根据风险分析结果给出应对措施。
7. 一种基于Spark计算指标月度环比的方法和装置
- 爱信诺征信有限公司
- 公开公告日期：2022-03-25
- 摘要：本申请实施例提供了一种基于Spark计算指标月度环比的方法和装置，该方法根据企业标识和月份对原始数据去重，得到所述企业标识下非缺失月份的指标数据集；根据所述企业标识和非缺失月份，识别出对应所述企业标识的起止月份；根据所述起止月份，生成所有月份；根据生成的所有月份，结合所述企业标识下非缺失月份的指标数据集，构建出企业标识为key，月份和指标为value的所有月份的指标数据集；根据构建出的指标数据集，计算出企业标识对应的指标月度环比。本申请实施例补充了起止月份中的缺失月份，并将缺失月份的指标设置为0，避免了在计算月度环比时复杂的判断逻辑的同时，也避免了月份缺失导致的计算异常。
8. 一种基于Spark的分布式数据库存储直连查询分析方法
- 浪潮云信息技术股份公司
- 公开公告日期：2022-03-25
- 摘要：本发明公开一种基于Spark的分布式数据库存储直连查询分析方法，涉及数据存储技术领域；基于Spark，根据元数据分布并发查询读取分布式数据库存储里的数据，根据查询读取结果解析为Spark可识别的数据字段，组装成Spark的RDD，并将计算处理逻辑传递至分布式数据库存储上用于数据分析，同时基于Spark，根据RDD中的数据组装成键值对，根据键值对支持事务一致性并发写入分布式数据库存储。
9. 一种优化Spark和机器学习框架整合的方法及装置
- 中盈优创资讯科技有限公司
- 公开公告日期：2022-03-15
- 摘要：本发明公开一种优化Spark和机器学习框架整合的方法及装置，其中，该方法包括：使用Spark的数据源接口读取数据和处理数据，生成DataFrame类型的数据；处理后的DataFrame数据，在数据转换模块，转换为Arrow格式的数据；Arrow格式的数据通过Ray框架，传递给TensorFlow、Pytorch等机器学习框架使用；Ray集群调度机器学习框架。本发明将大数据处理和机器学习算法运行在同一套系统；机器学习算法可以直接访问HDFS、MySQL、Elasticsearch等系统的数据，避免昂贵的数据传输成本，降低端到端学习延迟；多套机器学习框架，可以使用同一套框架，无需为每类机器学习算法构建各自的集群；机器学习框架可以有效的隔离GPU、CPU等资源。
10. 一种基于Spark框架的Executor分配方法、装置、设备及存储介质
- 南华大学
- 公开公告日期：2022-03-11
- 摘要：本申请公开了一种基于Spark框架的Executor分配方法、装置、设备及存储介质，包括：确定Map阶段全部Map任务分别在Spark框架中每个第一空闲节点获取相应数据块的通信代价，以得到每个所述第一空闲节点对应的第一通信代价；按照所述第一通信代价的大小顺序对全部所述第一空闲节点进行排序，并依次在排序后的所述第一空闲节点上分配所述第一空闲节点的最大可用Executor数量个第一Executor；当分配的所述第一Executor总数量为第一所需Executor数量时，停止分配所述第一Executor得到所述Map阶段执行所述Map任务的包含当前已分配的所述第一Executor的第一Executor集合。可见，本申请将Executor分配在靠近输入数据块所在的节点上，能够改善Spark任务调度中的数据本地性，有效降低任务的网络流量和数据访问延迟。