首页> 中文学位 >使用支持向量机方法的蛋白质分类研究
【6h】

使用支持向量机方法的蛋白质分类研究

代理获取

目录

文摘

英文文摘

第1章绪论

1.1课题背景

1.2生物信息学概述

1.2.1生物信息学的产生和目的

1.2.2生物信息学的研究内容

1.2.3生物信息学科研机构

1.2.4生物信息学数据库

1.3生物信息学的应用领域

1.4研究存在的困难

1.5本文的主要研究内容和结构

1.6本章小结

第2章蛋白质序列组成分析与特征向量构造算法

2.1蛋白质的组成与表示

2.2蛋白质结构特征分析

2.3给研究带来的问题

2.4使用物理化学属性的特征向量构造算法

2.5实验结果与分析

2.5.1实验一

2.5.2实验二

2.6本章小结

第3章基于支持向量机的蛋白质分类

3.1分类简介

3.2生物信息学中的分类

3.2.1对生物数据分类的目的和意义

3.2.2生物数据分类的主要方法和思路

3.3向量空间模型

3.4支持向量机

3.4.1最优分类平面

3.4.2线性分类

3.4.3非线性分类

3.5特征提取

3.6系统框架描述

3.7实验结果

3.8本章小结

第4章结合物理化学属性和n元文法的改进分类方法

4.1特征向量维数对分类的影响

4.2 n元文法介绍

4.2.1 n元文法的概念

4.2.2 n的选择

4.2.3如何解决数据稀疏问题

4.3改进的特征向量构造方法

4.4实验结果的评价方法

4.4.1多类二元分类器评价

4.4.2多类多元分类器评价

4.5实验结果及分析

4.5.1实验一

4.5.2实验二

4.6对今后工作的建议

4.7本章小结

结论

参考文献

攻读学位期间发表的学术论文

哈尔滨工业大学硕士学位论文原创性声明

哈尔滨工业大学硕士学位论文使用授权书

致谢

展开▼

摘要

本文以机器学习中的支持向量机作为主要分类方法,将主要精力放在如何从生物信息序列中提取出对分类有用的特征上.通过对蛋白质序列自身的结构特征的分析,可以发现直接利用序列不能进行有效的分类,因为从信息学的角度来看,蛋白质序列只是由20个符号按照某种人们未知的规律所组成的字符序列;氨基酸的物理化学属性是可以将氨基酸进行互相区分及替换的一种信息,这些信息有助于分类特征的描述,通过实验证实了使用氨基酸的物理化学属性作为特征可以取得不错的分类效果;支持向量机是一个强大的有指导机器学习方法,本文介绍了支持向量机方法的理论基础和实验方法,并通过实验结果分析了影响分类效果的几个因素;我们提出了一种结合物理化学属性和n元文法或信息增益的改进特征提取方案,在这种方案下,原有的分类准确率得到了进一步提高;另外,在我们的实验过程中得到了一些可能对将来的研究有用的序列片段,我们希望在生物学家帮助下得出这些片段的生物学意义.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号