基于不确定数据的高平均效用序列模式挖掘算法的研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

近年来，数据挖掘可以为决策提供关键信息，已经成为大数据时代一个重要的研究方向。高效用序列模式挖掘（high utility sequential patterns mining， HUSPM）考虑时间戳、内部量化、外部效用因子来挖掘高效用序列（high utility sequential pattern，HUSP），已经成为近十年热点研究课题。然而，通常情况下序列的效用值会随着序列长度（项目数）的增加而增大，HUSPM却没有考虑序列长度对序列效用值的影响。在高平均效用项集挖掘(high average-utility itemsets mining，HAUIM）领域，学者们用平均效用值来衡量项集的重要、有用程度，可以解决项集长度对项集效用值的影响，同样本文使用平均效用值来解决序列长度对序列效用值的影响。另外，在实际生活中由于环境因素，设备限制，隐私问题等收集到的数据可能是不确定的，目前HUSPM的研究主要针对的是精确数据，在不确定数据挖掘领域还没有相关研究。
　　本研究提出了高平均效用模式挖掘算法HAUI-Miner，设计了平均效用列表（average-utility list，AU-list）结构来保存来挖掘高平均效用项集所需要的信息。HAUI-Miner使用深度优先搜索技术不需要重复扫描数据库，相比于前人算法在性能上有较大的提升。随后本文提出了潜在高效用序列模式挖掘（potential high utility sequential patterns mining，PHUSPM）算法框架，基于这个框架提出了两个算法，一个是基于效用高估的PHUSPM-UP算法，设计的剪枝策略可以有效减少搜索空间提升算法性能；另一个是基于投影数据库技术的pre-PHUSPM算法，pre-PHUSPM算法迭代生成投影数据库，随着数据库规模的减小潜在高效用序列的挖掘速度越来越快。PHUSPM依然受困于序列长度对序列效用值的影响，结合HAUIM和 PHUSPM的研究要点，提出了基于不确定数据的高平均效用序列模式挖掘算法框架，一同提出的还有两个算法MUHAUSP和 PrefixMUHAUSP。做了大量实验来验证所提算法的性能，对所提算法的正确性和完整性进行了证明。

著录项

作者
李霆;
展开▼
作者单位

哈尔滨工业大学;

展开▼
授予单位哈尔滨工业大学;
学科计算机技术
授予学位硕士
导师姓名林浚玮;
年度 2016
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP311.13;
关键词
信息检索; 数据挖掘; 高平均效用; 程序语言;

相似文献

中文文献
外文文献
专利

1. 基于模式增长的高效用序列模式挖掘算法 [J] . 唐辉军 ,王乐 ,樊成立 . 自动化学报 . 2021,第004期
2. 基于MapReduce的高效用序列模式挖掘算法 [J] . 程思远 ,马超 ,李聪聪 . 计算机系统应用 . 2015,第012期
3. 基于效用表的快速高平均效用挖掘算法 [J] . 王敬华 ,罗相洲 ,吴倩 . 计算机应用 . 2016,第011期
4. 基于优化上界的高平均效用项集垂直挖掘算法 [J] . 浦蓉 ,邵剑飞 ,胡常礼 . 计算机工程与科学 . 2020,第005期
5. 一种基于不确定数据的频繁模式分布式挖掘算法研究 [J] . 李峰 . 湖南工程学院学报（自然科学版） . 2020,第002期
6. MS-BioSM:一个基于多支持度生物序列模式挖掘算法 [C] . 张锐 ,熊赟 ,陈越 . 第二十四届中国数据库学术会议 . 2007
7. 不确定数据中频繁序列模式挖掘算法的研究 [A] . 李立波 . 2015

基于不确定数据的高平均效用序列模式挖掘算法的研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅