首页> 中文学位 >信任函数建模的认知不确定性数据分析与学习
【6h】

信任函数建模的认知不确定性数据分析与学习

代理获取

目录

声明

摘要

表格索引

插图索引

算法索引

第一章 绪论

1.1 研究背景和动机

1.2 国内外研究现状

1.2.1 信任函数与证据组合

1.2.2 信任函数与机器学习

1.2.3 连续信任函数

1.2.4 小结

1.3 内容与结构安排

第二章 基础知识

2.1 信任函数理论

2.1.1 常用概念

2.1.2 证据似然函数

2.1.3 证据EM算法

2.2 决策树

第三章 基于证据似然函数的数据质量衡量方法

3.1 证据似然函数与数据质量

3.1.1 方法总述

3.1.2 多项分布数据的轮廓函数性质分析

3.1.3 影响因素的定性分析

3.2 非特异性测度量化数据质量

3.2.1 证据似然函数与非特异性测度

3.2.2 方法一:基于向量距离的一致质量函数近似方法

3.2.3 方法二:基于水平集的一致质量函数近似方法

3.3 基于非特异性测度分离的数据质量衡量方法

3.3.1 非特异性测度分离方法

3.3.2 实例分析和说明

3.4 本章小结

第四章 主动信任分类树的构建

4.1 思路介绍和基本概念提出

4.1.1 主动信任分类树基本思路

4.1.2 信息熵区间的生成

4.2 属性选择和分裂策略

4.3 查询策略

4.4 停止准则和算法总述

4.5 UCI数据集实验验证

4.5.1 完全无知样本实验结果和分析

4.5.2 不精确样本实验结果和分析

4.5.3 不确定和噪声样本实验结果和分析

4.5.4 进一步实验

4.5.5 关于非特异性测度用于分类树学习的讨论

4.6 本章小结

第五章 考虑信息源可靠性的连续识别框架信息融合

5.1 连续域信息融合方法

5.1.1 连续域信任函数概述

5.1.2 考虑信息源可靠性的信息融合

5.2 有限区间焦元质量函数的距离衡量方法

5.2.1 问题设定

5.2.2 方法提出

5.2.3 数值算例分析

5.3 证据距离与折扣生成

5.4 连续域情景折扣

5.4.1 连续域标准分解

5.4.2 定义提出

5.4.3 连续域情景折扣方法

5.5 本章小结

第六章 信任回归树与信任线性模型树研究

6.1 信任回归树学习方法

6.1.1 属性选择策略

6.1.2 信任回归树整体构建流程

6.2 连续变量的证据似然函数及线性回归参数估计

6.2.1 不确定数据线性回归的问题描述

6.2.2 基于E2M算法的线性回归参数估计

6.3 信任线性模型树学习方法

6.3.1 属性选择策略

6.3.2 信任线性模型树构建流程

6.4 本章小结

第七章 结束语

7.1 主要工作与贡献

7.2 主要创新点

7.3 研究前景展望

7.4 研究心得与体会

参考文献

致谢

在读期间发表的学术论文与取得的研究成果

展开▼

摘要

随着信息科学技术的不断发展,人类能够获取的数据量日益增加,其中有大量数据存在不精确、不确定或是可靠性存疑等情况,统称为认知不确定性数据。如何准确描述此类复杂数据并从中挖掘出更多有用信息近年来受到了越来越多的关注。信任函数理论作为一般性的认知不确定性建模和处理框架,凭借其对多种认知不确定性的合理描述以及在信息融合方面的天然优势,提出至今获得了广泛的研究和应用。伴随着众多学者的大力推进,特别是2010年以来信任函数进行统计推断这一方向的重获新生,使得信任函数理论的发展进入了新阶段,开辟出一片崭新的天地。
  利用信任函数进行统计推断作为新兴领域存在着大量研究空白,本文借由统计推断和机器学习的密切关系,选取结构简单清晰、易于解释的决策树入手,从实际问题出发开展研究。通过对认知不确定数据学习决策树的方法进行系统地分析,分别将离散输出的分类树和连续输出的回归树、线性模型树进行了推广,从而降低了训练集数据精度的要求,更为充分地利用已有数据。从信任回归树的连续不确定数据出发,本文也对连续信任函数这一理论方向进行了探讨,结合信息源可靠性获取证据折扣,从而更为合理地实现连续域的信息融合。本文首次对信任回归树和信任线性模型树的学习进行了研究,同时信任分类树中引入查询机制降低数据不确定性、基于证据似然函数的数据质量衡量、连续域情景折扣等内容此前也未有研究。
  本文将决策树学习方法全面推广至信任函数建模的不确定训练集,从而实现使用低质量数据学习获得具有较好性能的模型。考虑到认知不确定性数据的存在,本文首先对分类问题训练集的数据质量进行衡量,利用证据似然函数获得了数据规模、数据一致性和数据不确定性的量化评估。将证据似然函数视为某一致质量函数的可能性分布,本文给出了两种一致质量函数的获取方法,并用其非特异性测度实现了证据似然函数平坦程度的衡量。借助于多项分布证据似然函数的良好特性,提出了快捷方便的非特异性测度计算方法,并对数据规模、一致性和不确定性三方面带来的影响进行分离,从而实现了数据质量的分析。
  对于输出为离散类标的分类树,提出了既能够通过证据似然函数处理不确定性、又能在必要时查询精确类标降低不确定性的主动信任分类树。由于类标不确定导致信息熵难以计算,本文借由证据似然函数获取信息熵区间,并改进信息增益率计算方法,通过比较信息增益率区间选择最优的分裂属性。当不存在优势属性时,提出了一种查询策略,通过查询获得某些最有价值的不确定样本的精确类标对区间宽度进行缩减,从而获得优势属性用于子树的构建。通过UCI数据库的实验验证,在类标完全未知、不精确、不确定和存在噪声等情况下本方法均获得了良好的分类正确率。
  决策树在训练样本输出为连续变量时即为回归树,通过引入不确定数据,本文分别讨论了叶节点为常数模型的信任回归树和叶节点为线性回归模型的信任线性模型树的构建方法。推导了E2M算法估计线性回归参数的流程,并基于连续域证据距离和区间加权,提出了两种一般化的连续不确定数据误差计算方法。在每个决策节点遍历所有候选分裂属性的所有可能分裂点,选择其中能够最大化误差衰减的一项进行分裂生成两个子节点。迭代此过程即实现了不确定连续样本空间的划分,所构建的树能够更好地处理实际应用中常见的区间值数据、不确定数据和信息来源可靠性不足等情况。
  此外,本文还对连续信任函数的信息融合进行了研究,针对有限区间焦元这一实际常用设定,构建基于区间宽度的相似度矩阵并提出了连续域的证据距离衡量方法。在此基础上,利用多个信息源所提供证据之间的距离,给出了证据折扣的生成方法,从而降低了连续质量函数融合时的冲突。更为一般化地,本文对无限区间焦元也即基本信任密度的情景折扣方法进行了讨论,考虑信息源各有所长的情况,实现了利用获取的信息源可靠性元知识在连续域中进行证据折扣与融合。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号