首页> 中文学位 >数据挖掘中的分类方法及其在质谱数据中的应用
【6h】

数据挖掘中的分类方法及其在质谱数据中的应用

代理获取

目录

文摘

英文文摘

第一章绪论

§1.1数据挖掘

§1.2质谱数据挖掘

§1.3质谱数据分类

第二章质谱数据

§2.1质谱及其特性

§2.2质谱特征

§2.3数据格式

第三章分类方法

§3.1维数的降低

§3.1.1变量选择

§3.1.2主成分分析法和偏最小二乘法

§3.2统计决策理论

§3.3线性分类方法

§3.4非线性分类方法

§3.4.1 K最近领域法

§3.4.2决策树

§3.4.3神经网络

§3.4.4支撑向量机

§3.5总结

第四章逆切片回归法与分类树的结合

§4.1逆切片回归法的思想与算法

§4.2分类树与逆切片回归法的结合

§4.3实验

§4.4讨论与总结

附表

第五章助推法(boosting)在化学计量学和质谱分析中的应用

§5.1助推法

§5.1.1助推法的算法和基本思想

§5.1.2神经网络助推法和分类树助推法

§5.2助推法模型的解释

§5.2.1预测变量的相对重要性

§5.2.2偏相关图

§5.3实验

§5.3.1实验1

§5.3.2实验2

§5.3.3实验3

§5.3.4实验4

第六章一种推广的助推算法以及它在化学二元分类问题中的应用

§6.1算法理论

§6.1.1贝叶斯最优决策律

§6.1.2 G-boosting中分类器的修正权

§6.1.3两种权的比较

§6.1.4 G-boosting中训练样本的修正权

§6.1.5 G-boosting的算法

§6.2实验

§6.3总结

第七章将来的工作和总结

§7.1质谱数据的多类学习问题

§7.1.1多类质谱数据

§7.1.2多类分类方法

§7.1.3试验结果及讨论

§7.2质谱分类中的其它问题

参考文献

科研成果简介

声明

致谢

展开▼

摘要

数据挖掘在化学中的一个重要的应用是从数据库中提取有用的信息.质谱仪是一种用来对化合物进行鉴别和特征化的仪器技术,它产生了大量的有助于化学结构解析的数据。根据质谱鉴别化合物和识别化学结构性质一直都是化学计量学中一项重要的工作。本文首先对多元统计分析,人工智能和现代数据挖掘中的各种分类方法进行了深入的讨论,其中一些方法已被用于基于质谱数据的化学结构和性质的智能识别。但是,仍然有很多的化学结构或子结构不能被现有分类器有效的识别。从而寻找更好更适合质谱数据的方法仍然是化学计量学中一个重要的工作。  本文提出了将分类树和逆切片回归法(SIR)结合的新方法,并将这种方法用于质谱数据的分类问题。分类树是数据挖掘中最常用的一种分类工具,它在自动选择变量和体现交互作用方面具有强大的功能。分类树已经被广泛的用于质谱数据的分类。但如果输入变量是以某种线性组合的方式起作用,决策树往往会因为无法体现这种方式导致模型的复杂化和准确性的降低。逆切片回归法正是一种在高维数据中找出有用的变量的线性组合来回归响应变量的方法。所以有效的结合这两种方法可以继承它们的优点,使树结构也可体现变量间的线性组合关系。  助推法(boosting)是近代分类方法中的一个重要发展,它已经被成功的用于很多领域,但是在化学计量学中,几乎没有任何的应用。在这篇论文里,我们将神经网络助推法和分类树助推法用于化学数据的分类。实  最后,我们根据贝叶斯最优决策律提出了一种推广的助推法(G-boosting)。助推法主要由两步构成,首先,通过顺序地训练具有不同权的样本,产生一系列分类器;其次通过结合这些分类器,建立一个更强大的分类器。根据贝叶斯最优决策律,我们修正了助推法中一系列分类器的权使得结合这些分类器的过程更合理。同时,为了保证在指数损失函数下的最优解的性质,样本的权被相应的修正。这种推广的助推法尤其适合二元分类问题。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号