含正负项目的FP-Growth算法及其在日志分析中的应用研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

关联规则挖掘是数据挖掘中重要研究的方法之一，其目的是从大型数据库中发现有用的信息。人们利用数据挖掘技术从数据中获得了很多有用的信息，这些信息推动着人类科技的发展。但是，海量的数据是人们进行数据挖掘所面临的一大难题，如果没有高效率的挖掘算法，人们在进行数据挖掘时所耗费的时间将是巨大的。而且目前所研究的大多数数据挖掘都只是挖掘事务之间的正向关系，而往往忽略了事务间负关联关系的存在。但是在现实生活中的很多领域，单单对正关联规则进行挖掘是远远不够的，还需要考虑到所挖掘数据之间的负关联关系，从而提高关联规则的描述力。本文针对以上问题，对以下三点展开了研究： (1)研究了包含事务数据库中正项目和负项目的FP-Growth算法考虑到在引入负项目之后，就会使原有的数据量倍增，从而导致项集的数目过大，所构造的FP-tree的分支的长度也就会过长，FP-tree的空间占有率也会过大，挖掘效率也会随之降低。为解决这一问题，本文对FP-tree的构造方法进行了改进，即利用动态插入节点的方法构造FP-tree，而且将所有的指针倒转，从而生成一个新型的FP-tree，从而减低FP-tree的生成成本。本文还提出了一种最大频繁模式的挖掘算法—Max-IFPA算法，利用构造的新型FP-tree挖掘出所有的最大频繁项集。通过和其他算法的对比实验证明，本文所提出的挖掘算法在挖据频繁项集时比其他算法具有更高的效率。 (2)研究了基于多重最小支持度的FP-Growth算法改进过高的设置单一支持度的值，可能会使对有用的信息因出现的频率低而被遗弃，也违背了引入负项目的初衷；而过低的设置单一支持度的值，则可能会使产生大量的无用的规则。所以为解决此问题，本文在新型FP-tree的基础上，引入了最小项目支持度的概念，提出了基于多重最小支持度的最大频繁模式挖掘算法MS_IFPA，通过对不同数据项提供不同的最小支持度数值的方法，可以使在有效避免生成大量无用规则的同时，成功挖掘出对有用的规则。 (3)将改进的算法应用于取证系统的日志分析中首先在系统的客户端采集日志文件数据并提交到系统的服务器端，系统在服务器端首先用本文的算法对所提交的数据进行预处理，然后对预处理之后的数据进行证据分析、融合，最终生成取证报告以便用户查看。

著录项

作者
潘召鹏;
展开▼
作者单位

山东师范大学;

展开▼
授予单位山东师范大学;
学科计算机应用技术
授予学位硕士
导师姓名刘培玉;
年度 2019
页码
总页数
原文格式 PDF
正文语种中文
中图分类计算技术、计算机技术;自动化技术及设备;
关键词
负项目; FP-Growth算法; 日志分析;

相似文献

中文文献
外文文献
专利

1. 改进的FP-Growth算法在个性化推荐中的应用研究 [J] . 刘玥波 ,徐田翔 ,徐国庆 . 软件 . 2021,第008期
2. 改进FP-Growth算法在音乐推荐中的应用研究 [J] . 潘晓晖 ,彭炜烨 . 信息系统工程 . 2021,第008期
3. 改进的并行fp-growth算法在工业设备故障诊断中的应用研究 [J] . 张斌 ,滕俊杰 ,满毅 . 计算机科学 . 2018,第0z1期
4. 改进FP-Growth算法在旅游线路规划中的应用研究 [J] . 字云飞 ,李业丽 ,孙华艳 . 计算机与现代化 . 2018,第002期
5. FP-Growth算法在网络教学平台个性化课程推荐中的应用研究 [J] . 翟佩超 . 兰州教育学院学报 . 2016,第012期
6. 基于APRIORI的层次化聚类算法及其在IDS日志分析中的应用 [C] . 朱金清 ,中国人民大学信息学院 ,王建新 . 第二十四届中国数据库学术会议 . 2007
7. 数据流聚类算法在Web访问日志分析中的应用研究 [A] . 张倩 . 2021

含正负项目的FP-Growth算法及其在日志分析中的应用研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅