首页> 中文学位 >混合属性数据的处理及其分类算法研究
【6h】

混合属性数据的处理及其分类算法研究

代理获取

目录

1 绪 论

1.1 研究的背景及意义

1.2 混合属性数据的处理方法研究现状

1.2.1 数值属性离散化方法

1.2.2 分类属性数值化方法

1.2.3 距离度量学习方法

1.2.4 模型学习方法

1.3 混合属性数据的分类及存在的问题

1.4 研究动机、内容及关联性

1.4.1 研究动机

1.4.2 研究内容

1.4.3 内容关联性

1.5 论文组织

2 基于微调条件概率的分类属性数值化方法

2.1 引言

2.2 相关理论基础

2.2.1 分类属性的数据转换方法

2.2.2 分类属性的 VDM 度量

2.2.3 基于 MIC 的特征选择

2.3 算法设计

2.3.1 FTCP 算法框架

2.3.2 微调的条件概率转换方法

2.3.3 改进的 MIC 特征选择方法

2.4 实验与评估

2.4.1 实验设置

2.4.2 实验结果与分析

2.5 本章小结

3 基于多视图异构融合的混合属性度量学习及嵌入学习

3.1 引言

3.2 耦合学习理论

3.2.1 分类属性内的耦合学习

3.2.2 分类属性之间的耦合学习

3.2.3 分类属性对类的耦合学习

3.3 算法设计

3.3.1 MVHF算法框架

3.3.2 多核异构融合的度量学习

3.3.3 嵌入表示学习

3.3.4 算法描述

3.4 实验与评估

3.4.1 实验设置

3.4.2 实验结果与分析

3.5 本章小结

4 基于混合属性度量学习的RBF-ELM网络

4.1 引言

4.2 相关理论基础

4.2.1 分类属性的距离度量

4.2.2 密度峰值聚类方法

4.2.3 RBF-ELM 网络

4.3 算法设计

4.3.1 MD-ELM-RBF网络架构

4.3.2 混合属性的距离度量

4.3.3 基于 DPC 方法选择 MD-ELM-RBF的中心

4.3.4 算法描述

4.4 实验与评估

4.4.1 实验设置

4.4.2 实验结果与分析

4.5 本章小结

5 基于软OneHot编码的混合属性数据流分类

5.1 引言

5.2 相关理论基础

5.2.1 数据流分类

5.2.2 分类属性编码方法

5.3 算法设计

5.3.1 混合属性数据流分类框架

5.3.2 软 OneHot 编码方法

5.3.3 改进的 HDDDM 漂移检测

5.3.4 算法描述

5.4 实验与评估

5.4.1 实验设置

5.4.2 实验结果与分析

5.5 本章小结

6 总结与展望

6.1 结论

6.2 展望

参考文献

附 录

A. 作者在攻读博士学位期间发表的论文目录

B. 作者在攻读博士学位期间参加的科研项目

C. 学位论文数据集

致谢

展开▼

摘要

随着信息技术、数据存储和采集技术的迅猛发展,现实应用中大量存在具有混合属性的结构化数据,如医疗诊断、信贷审批、股票市场分析等。由于混合属性数据中的分类属性和数值属性之间具有不同的数据特征和空间结构,因此这种数据不能直接使用单一属性数据的机器学习算法。为了在混合属性数据中能应用上述这类机器学习算法,数据处理是连接它们的重要纽带和桥梁。目前,对于具有复杂关系的混合属性数据,传统的数据处理方法难以取得令人满意的效果。因此,如何为混合属性数据进行有效的数据处理是一项挑战的任务。  本文聚焦于混合属性数据的数据处理问题,围绕分类属性数值化、距离度量学习、模型学习和数据流应用等方面展开研究,以提高分类性能和效率为目标,提出了有针对性的可行算法,并通过实验验证了所提算法的有效性。本文的主要研究内容和取得的成果如下:  ①针对条件概率转换法的条件概率是以“属性条件独立假设”为前提而导致转换性能受限的问题,探索了提高条件概率准确性的途径,借鉴微调法的思路——微调导致错误分类的那些标称值的条件概率,提出了一种微调的条件概率转换方法(简称FTCP),提高了分类属性数据的数值化质量水平。此外,为缓解FTCP方法对高维分类属性(或类标签数多)的数据集所导致的属性维度剧增问题,提供了两个应对方案:1)先使用改进的MIC特征选择法进行属性选择,再用FTCP方法数值化;2)替换为由微调条件概率改进的不增加维度的可分性分离值转换法。实验结果表明:FTCP能改善数据转换的质量,它的两个应对方案是可行的。  ②针对具有复杂耦合关系的混合属性数据在距离度量问题上的改进,研究如何从属性内、属性间和属性对类三个耦合视图中分别捕获较高质量的基本耦合信息,设计一个可融合这三个异构耦合视图信息的多核度量学习方法,从而提出了一个基于多视图异构融合(简称MVHF)的度量学习模型,实现可度量混合属性数据之间的本质距离。在此基础上,利用流形学习方法对分类值进行嵌入表示学习,增添了MVHF模型的嵌入表示能力,从而拓广了它在数值输入模型中的应用。因此,MVHF具有距离度量和嵌入表示两个功能。实验结果表明:MVHF的度量性能和嵌入性能均得到显著提高,两个功能中嵌入表示的应用性更广、更助于分类。  ③针对如何设计一个可直接高效地处理混合属性数据的分类算法,分析了快速分类算法RBF-ELM(Radial Basis Function-Extreme Learning Machine)的网络结构和参数学习,设计一个轻便型的混合属性数据度量取代在RBF-ELM的隐藏层(即RBF层)中的数值属性数据度量,并利用改进的密度峰值聚类法自适应地选择适量训练样本作为RBF中心,从而构建了一个混合属性数据的RBF-ELM网络(简称MD-RBF-ELM),实现了可直接处理混合属性数据的快速高效分类。实验结果表明:MD-RBF-ELM在分类性能和计算效率的综合权衡下能取得令人满意的效果。  ④针对在混合属性数据流中分类属性数据的有效性编码,探讨了OneHot编码应用于数据流环境的特点,为了避免当混合属性数据流中出现新的分类值时OneHot需要重新编码的问题,基于“固定OneHot的编码维度不变,用相似性大小替换它的编码值”的构想提出了一个软OneHot编码方法,可避免频繁重新编码。在此基础上,构建了一个以软OneHot编码为混合属性数据处理的数据流分类模型。实验结果表明,软OneHot编码方法在静态数据环境和数据流环境中均具有理想的表示性能,从而有助于提高分类模型的性能。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号