您现在的位置：首页> 研究主题> 大数据集

大数据集

大数据集的相关文献在2002年到2022年内共计138篇，主要集中在自动化技术、计算机技术、无线电电子学、电信技术、贸易经济等领域，其中期刊论文86篇、专利文献602006篇；相关期刊70种，包括社会观察、科技广场、现代电子技术等；大数据集的相关文献由258位作者贡献，包括王士同、伊恩·莫里·麦克拉伦、格雷戈里·米歇尔·索尔森等。

大数据集—发文量

期刊论文>

论文：86篇占比：0.01%

专利文献>

论文：602006篇占比：99.99%

总计：602092篇

大数据集—发文趋势图

大数据集
-研究学者

王士同
伊恩·莫里·麦克拉伦
格雷戈里·米歇尔·索尔森
比亚克·哈默肖特·鲁纳
蔡声镇
许敏
诺曼·保罗·约皮
赵翔
阎俊梅
D·泽林
任艳多
余小六
俞林
倪友聪
其他发明人请求不公开姓名
刘喜苹
刘庆杰
刘振
刘祎
刘雅筠
卢泽珊
古凌岚
史卫亚
史文津
史贵振
吴冲
吴鲲
周春容
周永涛
孙启涛
孙瑶
宁宇宸
尹磊
库玛·拉马耶尔
张军
张宸昊
张莹莹
彭行雄
徐华
徐恪
徐涛
拉曼·塞斯
朱立谷
杜欣
武志军
沈茂鑫
王婷婷
王海洋
王玉荣
王素平

大数据集
-相关主题

大数据集
-相关期刊

期刊论文
专利文献

搜索

排序：

专利类型

专利分类

学科

年份

2022
(10)
2021
(9)
2020
(3)
2019
(5)
2018
(9)
2017
(11)
2016
(12)
2015
(8)
2014
(9)
2013
(5)
2012
(3)
2011
(4)
2010
(6)
2008
(1)
2007
(2)
2006
(2)
2005
(1)
2002
(1)

期刊

收录数据库

作者

关键词

申请/权力人

;

1. 基于深度学习的图像分类
- 余奕盈
- 摘要：传统的图像分类过程复杂,准确率低,而卷积神经网络在图像分类领域表现出色。本文基于迁移学习,先对小样本数据集进行归一化数据增强等预处理,在ImageNet大数据集预训练后,微调网络权值,比较VGG16、Inception、Xception三种网络模型图像分类效果,得到了较好的准确率。
2. 基于大数据集的动态数据库关联挖掘研究
- 刘张榕
- 摘要：动态数据库关联挖掘方法存在挖掘时运行时间长、内存使用量大、各节点任务分布不均等问题,因而提出了基于大数据集的动态数据库关联挖掘研究.采用大数据集中分布式计算,分布式存储动态数据库中的历史数据;针对其存储的数据序列,进行数据修剪重排分组和计算量预估与均衡化分组,形成动态数据库历史数据;更新动态数据库新增数据,分别挖掘动态数据库中的历史数据和新增数据,并将数据合并,完成动态数据库关联挖掘.结果表明,采用该方法进行动态数据库关联挖掘,受到支持度影响较小,运行速度快,对内存使用量低,能均匀分配各节点的计算量.
3. 基于Fp-growth的分布式并行挖掘算法
- 刘喜苹；黄国芳；刘雅筠
- 摘要： Fp-growth算法单机运算占用内存大、且耗时耗空间,挖掘大数据集时运算效率差。本文提出了一种基于Fp-growth的面向大数据集的分布式并行关联规则挖掘算法-DFp-growth算法(Distributed Fp-growth)。该算法在确保频繁项集挖掘数目不变的情况下利用数据链表将大数据集分解成多个子集,然后对分解得到的各个数据集子集用分布式并行方式进行挖掘。实验结果表明,数据集很大时,DFp-growth算法的运行速度比Fpgrowth快,而且数据集越大,并行计算节点越多,运算速度越快,分布并行运算的效率越高。但是当计算节点大到一定程度时,运算速度不增反减。
4. 基于Fp-growth的分布式并行挖掘算法
- 刘喜苹；黄国芳；刘雅筠
- 摘要： cqvip:Fp-growth算法单机运算占用内存大、且耗时耗空间,挖掘大数据集时运算效率差。本文提出了一种基于Fp-growth的面向大数据集的分布式并行关联规则挖掘算法-DFp-growth算法(Distributed Fp-growth)。该算法在确保频繁项集挖掘数目不变的情况下利用数据链表将大数据集分解成多个子集,然后对分解得到的各个数据集子集用分布式并行方式进行挖掘。实验结果表明,数据集很大时,DFp-growth算法的运行速度比Fpgrowth快,而且数据集越大,并行计算节点越多,运算速度越快,分布并行运算的效率越高。但是当计算节点大到一定程度时,运算速度不增反减。
5. Hybrid attribute big data set analysis system under clustering objective function CSTPCD
6. An Improved Algorithm Performance Analysis Based on Support Vector Machine (SVM) for Large Data Sets CSTPCD
7. 基于粒度计算的大数据集频繁项挖掘方法
- 周翔；蔡声镇
- 摘要：针对现有挖掘方法存在运行效率低下与精准度受限的问题,提出基于粒度计算的大数据集频繁项挖掘方法.通过分析大数据集中数据流的滑动窗口,得到支持数与频繁项之间的关联性,结合各种粒度计算模型,设计一种可以自适应不同种类粒度的计算方法,并采用六元组对其进行界定.运用能够反映数据特征的模式搜索比率,完成信息窗内结构粒的粒化,利用模式搜索比率的不同取值范围,获取模式搜索具备的属性特征,针对属性集的有序分类,嵌入所生成的子状态序列,通过得到的子状态压缩对象粒重构信息窗,使超级状态得以转换,最终取得频繁项集合.仿真结果表明,所提方法不仅能够提升挖掘精准度,而且缩短了运行时长.
8. K-nearest neighbor algorithm for big data classification based on Spark and SimHash基于Spark和SimHash的大数据K-近邻分类算法北大核心 CSCD CSTPCD
- 翟俊海；沈矗；张素芳；王婷婷
- 摘要：在笔者之前的工作中,提出了一种基于MapReduce和SimHash的大数据K-近邻算法(H-MR-K-NN).虽然该算法能够有效解决大数据K-近邻算法的计算效率问题,运行时间远远低于基于Ma-pReduce的K-近邻(MR-K-NN)所用的运行时间.然而,用MapReduce处理大数据时,需要从磁盘读取数据,再将中间结果写回磁盘,导致系统的I/O开销极大,这大大降低了MapReduce的效率.与MapReduce不同,Spark是一种基于内存的计算框架,它将数据第1次从磁盘读入内存,生成一种抽象的内存对象RDD(resilient distributed datasets).此后,Spark只操作内存中的RDD,计算过程只涉及内存读写,因此大幅提升了数据处理效率.基于这一事实,对算法H-MR-K-NN进行了改进,提出了一种改进的算法(简记为H-Spark-K-NN),可以进一步提高大数据K-近邻分类的运行效率.
9. ML-kNN算法在大数据集上的高效应用Efficient ML-kNN Algorithm on Large Data Set 北大核心 CSCD CSTPCD
- 陆凯；徐华
- 摘要： k近邻多标签算法(ML-kNN)是一种懒惰学习算法,并已经成功地应用到实际生活中.随着信息量的不断增大,将ML-kNN算法运用到大数据集上已是形势所需.利用聚类算法将数据集分为几个不同的部分,然后在每一个部分中使用ML-kNN算法,并在四个规模不同的数据集上进行了一系列实验.实验结果表明,基于此思想的ML-kNN算法不论在精度、性能还是效率上都略胜一筹.
10. Multiple-center Points Incremental Fuzzy Clustering Algorithm 北大核心 CSCD CSTPCD

1. 基于自适应数据集划分方式的大数据Top-k查询方法
- 北京交通大学
- 公开公告日期：2022.02.15
- 摘要：本发明公开一种基于自适应数据集划分方式的大数据Top‑k查询方法，包括以下步骤：对系统进行初始化操作，构建超平面簇及数据集；对数据集进行自适应划分，获得稳定的k‑切割点；对所述数据集进行Top‑k排序查询；自适应调整系统数据集并建立常用数据集。本发明中提供一种基于自适应数据集划分方式的大数据Top‑k查询方法，该方法适用于云环境下的大数据Top‑k查询，通过对数据集进行自适应划分，降低了查询的数据量，提高了查询速度，并对系统的数据集进行自适应调整，建立常用数据集，能够进一步减少数据集读取次数，提高查询效率。
2. 适于大数据融合与共享结果数据集敏感性评估方法及系统
- 中国航天系统科学与工程研究院
- 公开公告日期：2021.06.11
- 摘要：适于大数据融合与共享结果数据集敏感性评估方法及系统，属于大数据融合技术领域。本发明基于动态评估机制，对大数据融合与共享过程中的不同敏感级别的多个数据源中的数据进行动态敏感度评估，并给融合共享的结果数据集标定合理的敏感度，定量评估结果数据集的敏感性，进而实现对融合共享数据集地有效访问控制，最大限度地避免重要数据内容的泄漏。
3. 基于大数据平台的故障数据集构建方法
- 国网安徽省电力有限公司
- 长园深瑞继保自动化有限公司
- 公开公告日期：2020-05-12
- 摘要：一种基于大数据平台的故障数据集构建方法，包括如下步骤：故障发生时依据保护动作事件识别故障发生范围；依据触发保护动作时间前后两分钟确立故障发生时间范围；大数据平台汇聚了运维子站、保信子站、故障录波器、行波测距装置等装置信息，并汇总归一化处理成统一数据模型，通过大数据平台统一数据模型获取接口获取统一数据模型，并通过唯一性对象ID反解数据类型，通过模型属性值获取需求运行数据；剔除运行数据中与本次故障无关数据，完成二次数据处理，形成故障数据集。本发明在故障发生时通过统一数据模型获取通道取得相应故障范围、时间的统一数据模型，经过反解统一数据模型，数据二次萃取后构建故障数据集；提高数据使用效率，避免干扰数据存在，使故障分析更为准确高效。
4. 用于高速搜索或过滤大数据集的系统、方法和数据结构
- 月影移动有限公司
- 公开公告日期：2019-06-28
- 摘要：一种内联树数据结构和一个或多个辅助数据结构编码数据集的多条数据记录；数据集的数据字段限定树分层结构。内联树包括用于每条数据记录的一个二进制字符串，这些二进制字符串具有相同的长度、按照对应于树分层结构的顺序布置；以及包括指示字符串，该指示符字符串指示每条数据记录相对于紧邻的数据记录在树分层结构中的位置。通过询问内联树数据结构中的每个指示符字符串来引导搜索程序通过数据集，以减少对数据字段值的不必要的询问。
5. 适于大数据融合与共享结果数据集敏感性评估方法及系统
- 中国航天系统科学与工程研究院
- 公开公告日期：2019-08-06
- 摘要：适于大数据融合与共享结果数据集敏感性评估方法及系统，属于大数据融合技术领域。本发明基于动态评估机制，对大数据融合与共享过程中的不同敏感级别的多个数据源中的数据进行动态敏感度评估，并给融合共享的结果数据集标定合理的敏感度，定量评估结果数据集的敏感性，进而实现对融合共享数据集地有效访问控制，最大限度地避免重要数据内容的泄漏。
6. 基于超大数据集的数据处理方法及装置
- 深圳市华傲数据技术有限公司
- 公开公告日期：2020.07.17
- 摘要：本发明属于数据处理技术领域，提供了一种基于超大数据集的数据处理方法及装置。该方法包括：构建数组，检验超大数据集的数据，若符合指定的特定特征，则将该数据对应第一数组中字段位置的数值设置为第一数据标记值，否则，设置为第二数据标记值，形成数据集检验信息，根据预设比例值，将数据集检验信息进行划分，依次形成多个信息组，根据第一数据标记值，检验每个信息组，形成每个组的标记值检验结果，根据每个信息组位置，将每个信息组的标记值检验结果更新至第二数组。本发明基于超大数据集的数据处理方法及装置，能够对超大数据集进行数据处理，以使特定特征数据进行清晰、简要地显示、快速切换区域和定位，且运算效率高、结果可靠。
7. 非标量数据的大数据集的约简和广播操作的并行处理
- 谷歌有限责任公司
- 公开公告日期：2020.11.06
- 摘要：本申请涉及非标量数据的大数据集的约简和广播操作的并行处理的方法、系统和装置，包括编码在存储介质上的指令，用于执行梯度向量和类似结构化数据的约简，所述梯度向量和类似结构化数据例如在以由节点之间的至少两个维度上的连接定义的网格或环面拓扑组织的节点上并行生成。所述方法提供了拓扑中的节点之间的并行计算和通信。
8. 基于从较小数据集计算出的值估计从大数据集得出的值的方法和系统
- 阿提乔有限责任公司
- 公开公告日期：2016-08-03
- 摘要：本文档针对当大数据集可用时，从可用的较小数据集计算出的值估计可能从大数据集得出的值的方法和系统。当前描述的方法和系统的具体例子是从假想的数据集估计各种医疗记录相关的统计和值的方法和系统。为了从观察到的较小数据集外推期望的统计和计算值，多个模型被当前公开的方法和系统采用。这些模型可以按顺序被采用，以通过各种多维度数据集体量生成相对细粒度的估计。
9. 非标量数据的大数据集的约简和广播操作的并行处理
- 谷歌有限责任公司
- 公开公告日期：2021-01-29
- 摘要：本申请涉及非标量数据的大数据集的约简和广播操作的并行处理的方法、系统和装置，包括编码在存储介质上的指令，用于执行梯度向量和类似结构化数据的约简，所述梯度向量和类似结构化数据例如在以由节点之间的至少两个维度上的连接定义的网格或环面拓扑组织的节点上并行生成。所述方法提供了拓扑中的节点之间的并行计算和通信。
10. 一种适用于大数据集的数据并行处理方法、装置及系统
- 广东奡风科技股份有限公司
- 公开公告日期：2020-05-26
- 摘要：本发明提供了一种适用于大数据集的数据并行处理方法、装置及系统，通过以主数据集的主键列数据为基础进行分片信息的计算，并采用并行处理的方式对多个输入数据集进行分片及合并，可对大量满足条件的数据表同时进行合并，运行效率高，同时并行计算可以在多台服务器中均衡进行，避免单节点的数据处理瓶颈，通过对分片数量参数的设定即可控制整个分片的细度，具有运行资源可控、系统开销少的特点，在硬件配置较低的环境下也可以使用，不会出现内存溢出、系统宕机等问题。