首页> 中文学位 >基于关联规则与决策树的预测方法研究及其应用
【6h】

基于关联规则与决策树的预测方法研究及其应用

代理获取

目录

声明

摘要

第1章 绪论

1.1 研究背景及意义

1.1.1 关联规则挖掘及其面临的问题

1.1.2 决策树及其面临的问题

1.2 关联规则挖掘研究现状

1.2.1 关联规则基本问题

1.2.2 关联规则种类

1.2.3 频繁项集挖掘算法

1.2.4 多层、多维的关联规则挖掘算法

1.2.5 频繁闭项集、最大频繁项集挖掘算法

1.2.6 高维数据库的关联挖掘算法

1.2.7 基于约束的频繁项集生成算法

1.2.8 生成规则的兴趣度度量与相关性分析

1.2.9 增量式更新算法

1.2.10 其他关联规则挖掘算法及应用

1.3 决策树研究现状

1.3.1 决策树基础分类方法

1.3.2 CART分类方法

1.3.3 SLIQ及SPRINT算法

1.3.4 PUBLIC算法

1.3.5 Boosting及Bagging算法

1.3.6 基于粗糙集的决策树构建算法

1.3.7 基于变精度粗糙集的决策树分类算法

1.4 论文组织

第2章 关联规则生成数量的回归分析

2.1 研究背景及意义

2.2 关联规则参数分析

2.3 回归方程的设计

2.4 回归效果检验

2.5 实验

2.5.1 实验数据及复相关系数的检验

2.5.2 显著性检验

2.5.3 回归方程的预测

2.5.4 基于UCI数据的回归方程预测

2.6 效率分析

2.7 本章总结

第3章 模糊递减支持度的关联规则发现及其应用

3.1 冠心病数据应用背景介绍

3.2 支持度-置信度模型存在的问题

3.3 已有的相关研究

3.4 模糊递减支持度-置信度模型

3.4.1 模糊递减支持度公式

3.4.2 相关定义及性质

3.4.3 规则生成

3.5 3种修正模型

3.5.1 模糊递减支持度-置信度-兴趣度模型

3.5.2 模糊递减支持度-双向置信度-兴趣度模型

3.5.3 模糊递减支持度-重合度-兴趣度模型

3.6 冠心病数据的提取

3.7 实验

3.7.1 验证本章提出的模糊递减支持度-置信度模型

3.7.2 验证本章提出的3中改进模型

3.8 本章小结

第4章 基于变精度粗糙集的决策树分类算法

4.1 基于VPRS属性选择标准

4.1.1 变精度粗糙集模型

4.1.2 双层变精度明确区的属性选择标准

4.1.3 基于加权粗糙度和复杂度的属性选择标准

4.2 结点停止条件和类标预测方法

4.2.1 结点停止条件

4.2.2 类标预测方法

4.3 算法描述

4.3.1 IVPRSDT算法

4.3.2 IVPRSDT算法的优点

4.4 实验

4.4.1 MVPRSDT算法实验与结果分析

4.4.2 IVPRSDT算法实验与结果分析

4.5 本章小结

第5章 多值属性多类标数据的决策树生成算法

5.1 多值属性多类标数据决策树的问题描述

5.2 多值属性多类标数据决策树算法

5.2.1 已有的结点属性选择标准

5.2.2 结点属性选择标准改进

5.2.3 最佳属性的评定方法

5.2.4 结点停止分裂条件

5.3 标定记录的预测分类结果

5.4 决策树生成算法

5.5 实验

5.5.1 实验数据产生

5.5.2 实验方案

5.5.3 实验结果

5.6 本章总结

结束语

参考文献

攻读学位期间发表的论文

攻读学位期间参加的科研项目

致谢

作者简介

展开▼

摘要

1.目前的关联规则挖掘通常采用支持度-置信度-兴趣度模型。在该模型下参数选取都是依靠经验来设定,而且得到的规则数量通常无法估计。如果生成的规则数量太多,则无法有效提取其中有意义的规则。为此,本文分析了该模型下的参数意义,并利用回归方法设计了多种规则条数与参数之间的方程。利用复相关系数检验了方程的拟合效果,并采用显著性检验来验证参数的系数是否显著为零。将复相关系数较大的回归方程作为拟合的最优方程。并利用冠心病数据和University of California Irvine(UCI)数据进行了验证。通过选定的最优方程,可以较好地预测给定参数下的规则的数量,同时优化参数的选择以及确定参数的选择范围。
   2.关联规则挖掘已成为现代中医寻找辨证以及用药规律的手段之一。目前,关联规则挖掘采用统一的支持度约束来生成频繁项目集。因此,无法挖掘具有潜在价值和较低支持度的长项目集。为此,本文提出新的关联规则挖掘模型:模糊递减支持度,置信度。在此基础上,通过分析生成的规则前件与后件的相关性,提出了3种修正模型:(1)模糊递减支持度,置信度,兴趣度模型。(2)模糊递减支持度,双向置信度,兴趣度模型。(3)模糊递减支持度,重合度,兴趣度模型。实验:根据医院采集的冠心病数据,提取中医的辨证相关因素和病人的用药数据。实验结果表明,本文提出的模型不仅验证了已有的辨证与用药规律,而且能够挖掘出多因素组合的辨证和多种药物之间的配伍规律。
   3.通过对已有的基于变精度粗糙集的决策树分类算法进行分析和研究,发现基于变精度粗糙集构建的决策树算法具有较好的分类效果,且能够容忍噪声数据。但以变精度粗糙集进行属性选择时,仍然具有ID3算法的不足,即往往会选择属性值较多的属性作为分裂结点,而属性值较多的属性往往却不是最优的属性。为此,本文提出了两种新的属性选择方法。第一种属性选择方法,不仅考虑当前结点的属性值个数,而且考虑下层结点的变精度明确区大小,即同时考虑树的两层结点。通过新的属性选择方法,不仅克服了ID3算法中的不足,而且具有变精度粗糙集的优点。第二种属性选择方法,使用了一种综合考虑分类精度和分支数量的属性选择新标准——加权粗糙度和复杂度。同时在结点停止分裂条件中引入了支持度和置信度,提高决策树的泛化能力。为降低噪声数据和缺失值的影响,算法使用了基于匹配度的类别预测方法。通过实验,验证了本文所提出方法的有效性。
   4.分析目前处理多值属性和多类标数据的决策树算法,针对其中属性选择困难、孩子结点的相似度计算不够精确等不足,提出了3种新的多值属性和多类标数据的决策树算法。算法中,首先提出了新的孩子结点的类标集相似度计算公式来评定属性分类效果,综合考虑两个多类标集合中元素同时出现或不出现的情况,使类标集相似度的计算更加全面和准确。其次,提出了新的结点停止分裂条件,使得结点的类标集标注更加准确。最后,给出了相应的预测方法。通过实验,验证了算法的分类效果。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号