不确定数据库的近似极大频繁项集挖掘

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

近些年来，概率数据库或不确定数据库广泛地应用到了多个领域中，例如地下煤矿检测、移动物体搜索等。对于一个不确定数据库，其概率频繁项集的挖掘是国内外学者关注的热点问题。为了更好地转译和利用不确定数据库的概率属性，可能世界模型的概念经常被用到。不过，由于一个不确定数据库能产生指数级个可能世界，对于较大规模数据库，直接在可能世界上挖掘极大概率频繁项集是一项极具有挑战性的工作。
　　研究人员提出了一些算法以解决在可能世界上计算代价过大的问题，例如引入动态规划算法(DP)或者分治算法(DC)。这些算法计算的结果和通过可能世界得到的结果是相同的，但是这些方法的效率更高、计算速度更快。原因是这些算法只需要计算项集支持度的概率分布而不是生成所有的可能世界。计算卷积值的时间复杂度为O(nlogn) (n为数据库规模大小)，显然，这种方式远比在指数级的可能世界上计算项集的组合高效。
　　不过，随着数据集的增大，动态规划算法(DP)和分治算法(DC)不再十分有效。原因是当数据库规模n足够大时，算法复杂度O(nlogn)也会变得过大。为了解决这个问题，本文提出一种使用近似算法来计算极大概率频繁项集的方法，该方法以较小的精度损失为代价，极大地提高挖掘频繁项集的效率。算法包括两个过程:候选集产生和极大概率频繁项集确认。在候选集的产生阶段，论文结合切诺夫定理得到频繁项集支持度期望的界限，大大降低了频繁项候选集的规模;在极大概率频繁项集确认阶段，论文利用中心极限定理，给出了高效估计项集的频繁度的方法。同时，论文也给出了算法中涉及的相关定理的证明，进一步增强了论文提出算法的理论性和可信性。
　　为了进一步说明算法的有效性和性能，论文在六个不同类型的数据库上进行了数值实验和性能分析。在候选集产生上，论文与经典的Apriori算法进行了比较，分析了数据库规模、支持度阈值等参数对于不同算法的影响;在极大频繁项挖掘上，论文与主流的TODIS-MAX算法进行了比较，从运行时间、频繁项的精确度等方面评价了不同算法的优缺点。大量的实验结果表明，论文提出的算法有效地降低了频繁项候选集的规模，以较小挖掘精度的损失为代价，极大地提高的极大概率频繁项集的挖掘效率。

著录项

作者
聂力海;
展开▼
作者单位

大连海事大学;

展开▼
授予单位大连海事大学;
学科计算机科学与技术
授予学位硕士
导师姓名栗志扬;
年度 2018
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP311.13;
关键词
数据库; 极大概率频繁项集; 近似算法; 挖掘效率;

相似文献

中文文献
外文文献
专利

1. 元组级不确定数据库的Top-K概率频繁项集挖掘 [J] . 陈凤娟 ,马恺 . 赤峰学院学报（自然科学版） . 2018,第010期
2. 元组级不确定数据库的概率频繁项集挖掘 [J] . 陈凤娟 . 南阳理工学院学报 . 2018,第004期
3. 不确定数据库频繁项集挖掘算法研究 [J] . 陈凤娟 . 绥化学院学报 . 2016,第005期
4. 基于深度学习的不确定数据频繁项集挖掘系统 [J] . 苏韵捷 ,徐传凯 ,王金泽 . 电子设计工程 . 2020,第004期
5. 不确定数据频繁项集挖掘算法研究 [J] . ZHAO Xue-jian ,XIONG Xiao-xiao ,ZHANG Xin-hui . 计算机技术与发展 . 2019,第007期
6. 三站纯方位定位的线性近似极大似然估计算法 [C] . Zhang Guiling ,张桂林 ,Diao Lianwang . 第五届中国信息融合大会 . 2013
7. 不确定数据库加权频繁项集挖掘算法的研究 [A] . 王威 . 2019

不确定数据库的近似极大频繁项集挖掘

目录

摘要

著录项

相似文献

相关主题

期刊订阅