您现在的位置: 首页> 研究主题> 分布式数据挖掘

分布式数据挖掘

分布式数据挖掘的相关文献在1998年到2021年内共计123篇,主要集中在自动化技术、计算机技术、科学、科学研究、电工技术 等领域,其中期刊论文104篇、会议论文6篇、专利文献2973048篇;相关期刊71种,包括北京科技大学学报、郑州大学学报(理学版)、东南大学学报(自然科学版)等; 相关会议6种,包括International Conference on Engineering and Business Management2010(EBM2010)(2010年工程和商业管理国际会议)、第二十二届中国(天津)'2008IT、网络、信息技术、电子、仪器仪表创新学术会议、第三届全国搜索引擎和网上信息挖掘学术研讨会等;分布式数据挖掘的相关文献由269位作者贡献,包括杨炳儒、张克君、吉根林等。

分布式数据挖掘—发文量

期刊论文>

论文:104 占比:0.00%

会议论文>

论文:6 占比:0.00%

专利文献>

论文:2973048 占比:100.00%

总计:2973158篇

分布式数据挖掘—发文趋势图

分布式数据挖掘

-研究学者

  • 杨炳儒
  • 张克君
  • 吉根林
  • 李宏
  • 冯林
  • 孙志挥
  • 庄毅
  • 张卓
  • 曲文龙
  • 李欣
  • 期刊论文
  • 会议论文
  • 专利文献

搜索

排序:

年份

期刊

    • 李莉
    • 摘要: 随着互联网的发展和云计算技术的广泛应用,许多数据存储在不同的服务器上,分布式数据挖掘技术应运而生.智能agent在各自的站点上得到部分挖掘结果,分布式数据挖掘可以将这些部分的挖掘结果聚合成为全局的结果.文中主要处理的是分布式数据挖掘过程中的分类问题,针对一些特征的数据分别存储于不同的数据源上,提出了一种基于判断聚合模型的分类算法.该算法中每一个agent要对一个案例属于某一个目标类的可能性进行判断,然后利用判断聚合模型将这些agent的判断进行聚合,形成全局的分类结果.基于判断聚合模型的分类算法将逻辑和社会选择理论的技术应用于解决分布式数据挖掘的分类问题,这种新的算法不需要大规模地传输和转化数据,节省了传输成本,提高了分类效率,同时有效地保护了数据的安全性.
    • 冯兴杰; 赵杰
    • 摘要: 频繁模式挖掘是一种非常有效地从数据中获取知识的方法,但是随着大数据时代的来临,现有算法及其计算环境的运算速度、内外存容量面临严峻挑战。针对以上问题,紧密结合 MapReduce 模型提供的高效分布式编程和运行框架,在深入分析 H-mine 频繁模式挖掘算法的基础上,通过对 H-mine 算法频繁模式挖掘过程的并行化改进,提出了一种新颖的基于 MapReduce 模型的 H-mine 算法(简称 MRH-mine)。MRH-mine 算法实现了对 H-mine 算法在分布式运行环境下的改造,实验表明该算法在面对数据大规模增长的情况下具有良好的性能和扩展性。%Frequent pattern mining is a very effective knowledge acquisition method from the data,but with the advent of the era of big data,the existing algorithm and its computing environments computation speed and storage capacity is facing severe challenges.Fortunately,MapReduce model provides an efficient framework for distributed programming and operation frame-work.Based on depth analysis of the H-mine algorithms and parallelizing H-mine algorithms,this paper proposed a novel Ma-pReduce-based H-mine algorithm (it call the parallel algorithm MRH-mine).MRH-mine algorithm achieve the transformation of H-mine algorithm in the distributed operation environment,experimental results show that in the face of massive data growth,MRH-mine algorithm have a good performance and scalability.
    • 杨青; 孟娟
    • 摘要: 云计算平台下网络数据的海量发展,迫切需要数据挖掘技术满足用户需求.而面向服务的云数据挖掘技术不同于一般网格的分布式数据挖掘框架,需要利用有效机制完成对分布式数据挖掘应用的设计和运行,并从关键技术、关键部件描述中有效解决海量数据挖掘中的海量数据存储、挖掘算法、数据处理的互操作性等问题.
    • 张航; 亓孝博; 韦伟; 曹天人; 刘瑜
    • 摘要: Aging community intelligent community management system based on the information analysis includes the Kinect indoor monitor,the ZigBee sensor nodes and the aging community cloud server.The system analyzes information of the indoor environment and the elderly living by using distributed data mining(DDM), and offers proposals to the elderly to ensure them health.The system has feasibility in the future.%基于信息分析的养老社区智能管理系统主要由养老社区室内Kinect视频监控、ZigBee传感器节点和养老社区终端云服务器构成,文章通过分布式数据挖掘技术对室内环境和老年人起居生活信息进行处理和分析,并及时进行反馈,保证老年人的身体健康。本系统可行性强,在未来具有良好的发展前景。
    • 李挥剑
    • 摘要: 多种频繁项集挖掘(FIM)方法组合用来对大数据进行挖掘会暴露很多问题.针对暴露的问题,在MapReduce平台上对两种频繁项集挖掘算法进行了研究.采用两种新的大数据集挖掘方法:Dist-Eclat和BigFIM,前者侧重于速度,利用基于k-FIs的简易负荷平衡方案来解决问题.而后者通过先验变体对k-FIs进行挖掘后将找出的频繁项集分配给映射程序,通过优化后在真正大的数据集上运行.最后通过实验证明该方法时间复杂度较低,数据量越大优势将越明显,扩展效果越好.
    • 张华赢; 朱正国; 姚森敬; 高田; 曹军威; 韩蓄; 王淼
    • 摘要: 运用基于大数据处理架构的Naive Bayes分类方法提出了暂态电能质量评估方法, 将数据来源扩展至电网运行监测数据、 电力用户数据和公共信息数据等方面, 并将评估结果按严重程度分为暂态正常状态、 短时电压暂降状态、短时深度电压暂降状态、 短时电压失压状态. 基于MapReduce架构, 设计分布式Naive Bayes算法实现状态分类. 在分类器训练阶段, 对海量历史数据进行分布式学习, 周期性地生成评估规则库并部署到所有评估节点. 在状态评估阶段, 各评估节点基于流处理框架快速生成实时评估样本, 并根据当前规则库实时地得出评估结果. 试验结果表明, 所提出的基于大数据分析的暂态电能质量评估方法是可行, 在准确率和处理速度上都取得了较好的效果.
    • 刘滨
    • 摘要: 随着网络技术、通信技术等的不断突破,互联网、移动网、广电网等多种类现代网络及其衍生业务迅速扩张,形成泛在于网络空间的分布式计算环境.为了最大化这些数据的价值,需要利用数据挖掘技术发现其中隐藏的模式或规则,用以指导和辅助生产或运营中的管理决策行为,以提高决策水平及决策收益.然而,受到普遍存在的异构性、私有性和平台兼容性等限制,兼因行业竞争和法律约束等因素(如个人或企业的数据隐私保护问题等),互联于网络的数据源难于进行集中式挖掘,分布式数据挖掘(DDM)技术应运而生.介绍了DDM的定义与框架、适用场景和研究挑战.根据文中给出的DDM高层架构,最终结果的质量与局部数据源的类型、可用性、局部结果的质量及整合方法等密切相关.DDM的实施未必都以站点间纯粹独立挖掘的方式进行,此外,对于数据集中,系统分布式站点多的情况,也可采用DDM.当前,DDM研究领域的挑战主要有:异构与同构挖掘、动态环境下的数据多变性、通信开销、知识整合和语义异构等.当前的DDM系统被分为4类:1)基于Multi-Agent的系统,利用Agent的自治性实现局部挖掘以保护数据私有性;利用Agent的主动性减少用户参与以提高挖掘自动化水平;利用Agent的协作性实现多算法协同挖掘等;2)基于网格的系统,利用网格在资源共享、开放服务和协同工作等方面的优势,提高挖掘的可靠性和协同性;3)基于元学习的系统,通过元学习优化挖掘算法的选择与组合,并对已获知识进行多次学习以提高结果质量;4)基于CDM(collective data mining)框架的系统,将待学习的函数表示为一组基函数的分布式存在,允许各数据源选择不同的学习算法,并以全局结果正确为前提减少网络通信量.进而,对当前DDM研究存在的共性问题进行了归纳:1)结果质量问题,不考虑各个站点数据源间的内在语义联系,各站点独立挖掘本地数据,与其他站点间无语义层面的数据交互或融合,形成纯粹的“分割式”挖掘,最终导致全局结果质量受损;2)挖掘效率问题,如何调度资源以平衡挖掘负载、减少协作挖掘中的通信开销问题.针对结果质量问题,探讨本体与数据挖掘的结合.作为语义网的基础,本体能为对象语义距离度量提供有效支持.当前,在利用本体描述挖掘任务的领域背景方面,利用本体描述DM过程本身方面,都已经有研究人员进行了探索性工作:针对关联规则挖掘中需要从海量规则中遴选有效规则的问题,提出了交互式的、用于删减冗余规则的挖掘后处理方法;针对在给定知识发现过程的输入和输出类型前提下,知识发现工作流的自动构造问题,提出了解决方法.通过阐述可知,为了提升分布式挖掘过程中局部结果和最终结果的质量,策略之一就是将DDM理论和本体理论作融合,以数据源间语义距离的度量为突破口,建立语义距离度量的复合量化体系,通过构建和求解新型DDM模型来实现目标.
    • 汪丽; 张露
    • 摘要: According to the disadvantage of association rules Apriori algorithm that repeatedly scanning the database and produce a large number of candidate frequent item sets, an improved algorithm was proposed. It was achieved by MapReduce. Improved Apriori algorithm only needs to scan the entire database once, and then it can get the collection of all frequent item sets. The simulation results show that, with the increase in the number of nodes, the improved algorithm in execution time is less than the original algorithm; and the more increase with the number of nodes the more expand is achieved with this advantage. It explained that in heterogeneous cluster environment, MapReduce of the Apriori algorithm can improve the efficiency of mining association rules. The improved algorithm of association rules were applied in distributed educational decision support system, through the actual data mining, it was proved that the method is effective for educational decision - making.%针对关联规则Apriori算法多次重复扫描数据库和产生大量候选频繁项集的缺点,对其进行改进,并在MapReduce模型上得以实现.改进的Apriori算法只需要对整个数据库扫描一次,即可得到所有频繁项集的集合.仿真实验结果表明,随着节点数目的增多,改进算法比原算法执行时间要短,并且这种优势随着节点数目的增加而扩大,说明在异构集群环境下,MapReduce模型的Apriori算法能够提高关联规则挖掘的执行效率.将改进的分布式关联规则算法在分布式教育决策支持系统中应用,通过对实际数据的挖掘,证明了该方法对教育决策的有效性.
    • 刘春茂; 王超
    • 摘要: 许多数据挖掘应用中涉及的预测模型庞大并且数据集复杂。这样的应用程序急需创新的算法。该算法不仅需要有效的预测精度,而且需要有效的运行于分布式计算系统中并在合理的时间内产生结果。本文重点介绍多关系数据的预测模型,首先举例说明设计这些数据的应用模型,然后描述一个基于并行同步聚类(SCOAL)的总体框架,该框架适用于分而治之的方法进行数据分析。最终将论证基于并行同步聚类的框架在应用Map-Reduce的情况下可以有效的实现并行化。
  • 查看更多

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号