大规模数据集
大规模数据集的相关文献在2004年到2022年内共计102篇,主要集中在自动化技术、计算机技术、经济计划与管理、社会科学研究方法
等领域,其中期刊论文80篇、会议论文3篇、专利文献621247篇;相关期刊52种,包括生产力研究、吉林大学学报(理学版)、应用科技等;
相关会议3种,包括2011年中国自动化大会暨钱学森诞辰一百周年及中国自动化学会五十周年会庆、2008年全国开放式分布与并行计算学术年会、第八届中国青年运筹信息管理学者大会等;大规模数据集的相关文献由227位作者贡献,包括丛伟杰、徐健、陈光喜等。
大规模数据集—发文量
专利文献>
论文:621247篇
占比:99.99%
总计:621330篇
大规模数据集
-研究学者
- 丛伟杰
- 徐健
- 陈光喜
- 王士同
- 付捷
- 何磊
- 刘建伟
- 刘芳
- 汪韶雷
- 罗雄麟
- 付兴旺
- 刘忠宝
- 刘红卫
- 吴楠
- 宁慧
- 张一凡
- 张弘
- 张诤
- 张雪洁
- 徐丽
- 李思瀚
- 李明兰
- 李霞
- 杨心竹
- 熊馨雨
- 王东宏
- 王惠文
- 王明星
- 王素红
- 皇甫伟
- 秦王晨
- 童蜜
- 胡晓彦
- 范仕良
- 蒋盛益
- 许坤
- 贾爱霞
- 赵东岩
- 赵斐
- 邓赵红
- 邹磊
- 钟昊
- 陈飞
- 韦鹏
- 骆融臻
- A·斯托姆
- M·斯皮尔琴
- P·托赞
- R·S·塞德尔
- R·巴伯
-
-
-
-
摘要:
人工智能随着大数据、云计算和物联网技术的蓬勃发展,已广泛渗透到科学研究、数字经济、健康与医疗卫生等各大领域,给人类生产生活带来了极大的便利.机器学习的模型训练和推理预测都依赖于大规模数据集,而这些数据中可能包含着用户的敏感或隐私信息.针对人工智能中日益加剧的数据安全与隐私保护需求,国内外学者获得了一系列重要研究成果.然而,如何在保护用户数据安全的同时,实现人工智能技术的高可用性和高效性仍然是学术界和工业界广泛关注的具有挑战性的研究课题.
-
-
-
-
摘要:
人工智能随着大数据、云计算和物联网技术的蓬勃发展,已广泛渗透到科学研究、数字经济、健康与医疗卫生等各大领域,给人类生产生活带来了极大的便利.机器学习的模型训练和推理预测都依赖于大规模数据集,而这些数据中可能包含着用户的敏感或隐私信息.针对人工智能中日益加剧的数据安全与隐私保护需求,国内外学者获得了一系列重要研究成果.然而,如何在保护用户数据安全的同时,实现人工智能技术的高可用性和高效性仍然是学术界和工业界广泛关注的具有挑战性的研究课题.
-
-
高志宇;
宋学坤;
肖俊生;
闫培玲;
孙新娟
-
-
摘要:
针对传统方法在检测离群点时常因冗余数据的干扰而导致检测用时较长、检测准确率偏低的问题,设计了基于神经网络的大规模数据集离群点检测算法.采用核主成分分析方法对大规模数据集进行降维处理,去除其中存在的冗余数据,利用神经网络在误差函数的基础上实现对离群点的检测.结果表明:该算法的检测时间始终低于0.4 min,且检测准确率始终保持在90%以上,说明该算法能够快速、准确地检测大规模数据集中的离群点.
-
-
孙璐;
梁永全
-
-
摘要:
针对基于密度的噪声应用空间聚类算法(density based spatial clustering of applications with noise,DBSCAN)计算复杂度较高以及无法聚类多密度数据集等问题,提出了一种网格聚类算法和DBSCAN相结合的融合聚类算法(G_FDBSCAN)。利用网格划分技术将数据集划分为稀疏区域和密集区域,分而治之,降低计算的时间复杂度和采用全局参数引起的聚类误差;改进传统的DBSCAN聚算法得到FDBSCAN,将密集区域中网格聚类的结果作为一个整体参与后续的聚类,在网格划分基础上进行邻域检索,减少邻域检索和类扩展过程中对象的无效查询和重复查询,进一步减少时间开销。理论分析和实验测试表明,改进后的算法与DBSCAN算法、DPC算法、KMEANS算法、BIRCH算法和CBSCAN算法相比,在聚类结果接近或达到最优的情况下,聚类效率分别平均提升了24倍、11倍、2倍、3倍和1倍。
-
-
曹珍富;
徐秋亮;
张玉清;
董晓蕾
-
-
摘要:
随着大数据、云计算和物联网技术的蓬勃发展,人工智能已广泛渗透到科学研究、数字经济、健康与医疗卫生等各大领域,给人类生产生活带来了极大的便利.机器学习的模型训练和推理预测都依赖于大规模数据集,而这些数据中可能包含着用户的敏感或隐私信息.针对人工智能中日益加剧的数据安全与隐私保护需求,国内外学者获得了一系列重要研究成果.然而,如何在保护用户数据安全的同时,实现人工智能技术的高可用性和高效性仍然是学术界和工业界广泛关注的具有挑战性的研究课题.
-
-
陈自豪;
陈松航;
陈豪
-
-
摘要:
在研究柔性作业车间调度问题(FJSP)中为模拟实际大型生产车间的柔性作业车间调度情景,设计了基于传统基准实例的大规模FJSP数据集.针对大规模FJSP数据集,提出了以最大完工时间、机器最大负荷、机器总负荷为优化指标构建多目标柔性作业车间调度模型,在求解时为避免算法陷入局部最优,提出了一种多种群NSGA-Ⅱ改进算法(IMNSGA-Ⅱ),该算法优化了种群初始化方法与交叉策略,对不同种群中机器部分的基因采取不同的交叉方式.在生成的大规模FJSP数据集中验证了算法的有效性和可行性.
-
-
聂聪颖;
唐晶磊
-
-
摘要:
针对自然界中植物数据规模大且分布不平衡导致的识别困难的问题,提出一种基于显著特征和全局特征融合的植物识别方法.通过多层特征融合方法改进VGG19网络以提取植物的全局特征,并对全局特征进行显著特征提取得到图像的显著特征,将显著特征和全局特征进行自适应加权特征融合得到融合特征,对融合特征进行分类识别.在PlantCLEF2016数据集上的实验结果表明,该方法的准确率可达到81%,验证了其在大规模且分布不平衡的植物识别中可行有效.
-
-
许朝祥;
丁祖敏
-
-
摘要:
许多人对大数据可能还有陌生感、距离感,其实身处高度发达的信息时代,大数据离我们真的很近,它渗透于每个行业、每个工作领域,已经成了我们日常生产、生活的重要因素。在大数据时代,通过对信息数据的不断挖掘和应用,能给各行业的发展带来新的机遇和变革。总的来说,大数据就是一种信息资产,在一定时期内能够被梳理、挖掘和使用的海量信息。大数据的价值也体现在对大规模数据集合的处理能获取有价值的信息。
-
-
周玉;
朱文豪;
房倩;
白磊
-
-
摘要:
离群点检测在数据处理中具有重要研究意义,其检测方法大致可以分为基于统计、基于距离、基于密度和基于聚类的方法.为了及时掌握当前基于聚类技术的离群点检测方法的研究现状,通过归纳与整理,将具有代表性的基于聚类的离群点检测方法进行了介绍和归类,将其主要分为静态数据集中的检测方法、数据流中的检测方法、大规模数据中的检测方法和其他方法等四大类.对每类方法所解决的问题、算法思想、应用场景以及各自的优缺点进行了详细的归纳和分析,指出目前存在的问题以及未来发展方向.
-
-
王建华;
冉煜琨
-
-
摘要:
针对目前眼动跟踪方法难以适用于智能手机、平板电脑等便携式设备的问题,提出一种基于大规模数据集的眼动跟踪方法.首先,通过众包法构建大规模数据集;然后,使用该数据集训练一个深度神经网络,用于端对端的预测.最后,训练一个更小更快的网络进行优化,使所提方法在移动设备上的运行具有一定的实时性.实验结果表明,与其他类似方法相比,所提方法具有更好的跟踪鲁棒性以及数据泛化能力.在移动设备中的运行速度可达10~15帧/s.在未校正的情况下,该方法在手机和平板电脑中的预测误差分别是1.71 cm和2.53 cm.校正后,误差分别降至1.34 cm和2.12 cm.
-
-
- 《2008年全国开放式分布与并行计算学术年会》
| 2008年
-
摘要:
对大规模结构化半结构化数据集分布式存储环境下索引结构的建立进行了研究,提出了一种基于聚簇索引与分布式B+树的混合索引结构.该结构对数据集的输入,存储及查询等操作进行了定义,并分析了索引服务器与客户端的通信模型建立.由于对记录的主关键字与其他属性进行了不同处理,在各种记录检索情况下具有良好的性能.
-
-
-
-
-
-
-
-
徐健;
陈光喜
- 《第八届中国青年运筹信息管理学者大会》
| 2006年
-
摘要:
对支持向量分类机中的一些基本方法做出详细的介绍,并进一步研究了方法的求解与改进.并通过对标准支持向量机的改造考虑了一种改进的方法,并进一步进行了相关的理论分析,通过数据实验验证了这种方法比传统的分类机在运算速度上有提高,特别是在处理较大规模的哪数据集时运算时间的效果更明显.
-
-
徐健;
陈光喜
- 《第八届中国青年运筹信息管理学者大会》
| 2006年
-
摘要:
对支持向量分类机中的一些基本方法做出详细的介绍,并进一步研究了方法的求解与改进.并通过对标准支持向量机的改造考虑了一种改进的方法,并进一步进行了相关的理论分析,通过数据实验验证了这种方法比传统的分类机在运算速度上有提高,特别是在处理较大规模的哪数据集时运算时间的效果更明显.
-
-
徐健;
陈光喜
- 《第八届中国青年运筹信息管理学者大会》
| 2006年
-
摘要:
对支持向量分类机中的一些基本方法做出详细的介绍,并进一步研究了方法的求解与改进.并通过对标准支持向量机的改造考虑了一种改进的方法,并进一步进行了相关的理论分析,通过数据实验验证了这种方法比传统的分类机在运算速度上有提高,特别是在处理较大规模的哪数据集时运算时间的效果更明显.