大数据集
大数据集的相关文献在2002年到2022年内共计138篇,主要集中在自动化技术、计算机技术、无线电电子学、电信技术、贸易经济
等领域,其中期刊论文86篇、专利文献602006篇;相关期刊70种,包括社会观察、科技广场、现代电子技术等;
大数据集的相关文献由258位作者贡献,包括王士同、伊恩·莫里·麦克拉伦、格雷戈里·米歇尔·索尔森等。
大数据集—发文量
专利文献>
论文:602006篇
占比:99.99%
总计:602092篇
大数据集
-研究学者
- 王士同
- 伊恩·莫里·麦克拉伦
- 格雷戈里·米歇尔·索尔森
- 比亚克·哈默肖特·鲁纳
- 蔡声镇
- 许敏
- 诺曼·保罗·约皮
- 赵翔
- 阎俊梅
- D·泽林
- 任艳多
- 余小六
- 俞林
- 倪友聪
- 其他发明人请求不公开姓名
- 刘喜苹
- 刘庆杰
- 刘振
- 刘祎
- 刘雅筠
- 卢泽珊
- 古凌岚
- 史卫亚
- 史文津
- 史贵振
- 吴冲
- 吴鲲
- 周春容
- 周永涛
- 孙启涛
- 孙瑶
- 宁宇宸
- 尹磊
- 库玛·拉马耶尔
- 张军
- 张宸昊
- 张莹莹
- 彭行雄
- 徐华
- 徐恪
- 徐涛
- 拉曼·塞斯
- 朱立谷
- 杜欣
- 武志军
- 沈茂鑫
- 王婷婷
- 王海洋
- 王玉荣
- 王素平
-
-
余奕盈
-
-
摘要:
传统的图像分类过程复杂,准确率低,而卷积神经网络在图像分类领域表现出色。本文基于迁移学习,先对小样本数据集进行归一化数据增强等预处理,在ImageNet大数据集预训练后,微调网络权值,比较VGG16、Inception、Xception三种网络模型图像分类效果,得到了较好的准确率。
-
-
刘张榕
-
-
摘要:
动态数据库关联挖掘方法存在挖掘时运行时间长、内存使用量大、各节点任务分布不均等问题,因而提出了基于大数据集的动态数据库关联挖掘研究.采用大数据集中分布式计算,分布式存储动态数据库中的历史数据;针对其存储的数据序列,进行数据修剪重排分组和计算量预估与均衡化分组,形成动态数据库历史数据;更新动态数据库新增数据,分别挖掘动态数据库中的历史数据和新增数据,并将数据合并,完成动态数据库关联挖掘.结果表明,采用该方法进行动态数据库关联挖掘,受到支持度影响较小,运行速度快,对内存使用量低,能均匀分配各节点的计算量.
-
-
刘喜苹;
黄国芳;
刘雅筠
-
-
摘要:
Fp-growth算法单机运算占用内存大、且耗时耗空间,挖掘大数据集时运算效率差。本文提出了一种基于Fp-growth的面向大数据集的分布式并行关联规则挖掘算法-DFp-growth算法(Distributed Fp-growth)。该算法在确保频繁项集挖掘数目不变的情况下利用数据链表将大数据集分解成多个子集,然后对分解得到的各个数据集子集用分布式并行方式进行挖掘。实验结果表明,数据集很大时,DFp-growth算法的运行速度比Fpgrowth快,而且数据集越大,并行计算节点越多,运算速度越快,分布并行运算的效率越高。但是当计算节点大到一定程度时,运算速度不增反减。
-
-
刘喜苹;
黄国芳;
刘雅筠
-
-
摘要:
cqvip:Fp-growth算法单机运算占用内存大、且耗时耗空间,挖掘大数据集时运算效率差。本文提出了一种基于Fp-growth的面向大数据集的分布式并行关联规则挖掘算法-DFp-growth算法(Distributed Fp-growth)。该算法在确保频繁项集挖掘数目不变的情况下利用数据链表将大数据集分解成多个子集,然后对分解得到的各个数据集子集用分布式并行方式进行挖掘。实验结果表明,数据集很大时,DFp-growth算法的运行速度比Fpgrowth快,而且数据集越大,并行计算节点越多,运算速度越快,分布并行运算的效率越高。但是当计算节点大到一定程度时,运算速度不增反减。
-
-
-
-
周翔;
蔡声镇
-
-
摘要:
针对现有挖掘方法存在运行效率低下与精准度受限的问题,提出基于粒度计算的大数据集频繁项挖掘方法.通过分析大数据集中数据流的滑动窗口,得到支持数与频繁项之间的关联性,结合各种粒度计算模型,设计一种可以自适应不同种类粒度的计算方法,并采用六元组对其进行界定.运用能够反映数据特征的模式搜索比率,完成信息窗内结构粒的粒化,利用模式搜索比率的不同取值范围,获取模式搜索具备的属性特征,针对属性集的有序分类,嵌入所生成的子状态序列,通过得到的子状态压缩对象粒重构信息窗,使超级状态得以转换,最终取得频繁项集合.仿真结果表明,所提方法不仅能够提升挖掘精准度,而且缩短了运行时长.
-
-
翟俊海;
沈矗;
张素芳;
王婷婷
-
-
摘要:
在笔者之前的工作中,提出了一种基于MapReduce和SimHash的大数据K-近邻算法(H-MR-K-NN).虽然该算法能够有效解决大数据K-近邻算法的计算效率问题,运行时间远远低于基于Ma-pReduce的K-近邻(MR-K-NN)所用的运行时间.然而,用MapReduce处理大数据时,需要从磁盘读取数据,再将中间结果写回磁盘,导致系统的I/O开销极大,这大大降低了MapReduce的效率.与MapReduce不同,Spark是一种基于内存的计算框架,它将数据第1次从磁盘读入内存,生成一种抽象的内存对象RDD(resilient distributed datasets).此后,Spark只操作内存中的RDD,计算过程只涉及内存读写,因此大幅提升了数据处理效率.基于这一事实,对算法H-MR-K-NN进行了改进,提出了一种改进的算法(简记为H-Spark-K-NN),可以进一步提高大数据K-近邻分类的运行效率.
-
-
陆凯;
徐华
-
-
摘要:
k近邻多标签算法(ML-kNN)是一种懒惰学习算法,并已经成功地应用到实际生活中.随着信息量的不断增大,将ML-kNN算法运用到大数据集上已是形势所需.利用聚类算法将数据集分为几个不同的部分,然后在每一个部分中使用ML-kNN算法,并在四个规模不同的数据集上进行了一系列实验.实验结果表明,基于此思想的ML-kNN算法不论在精度、性能还是效率上都略胜一筹.
-