首页> 中文学位 >基于潜在语义分析的蛋白质家族分类技术的研究
【6h】

基于潜在语义分析的蛋白质家族分类技术的研究

代理获取

目录

文摘

英文文摘

第1章绪论

1.1课题背景

1.2国内外在该方向的研究现状

1.2.1蛋白质序列家族分类及远的同源性检测的研究现状

1.2.2潜在语义分析的研究现状

1.3基于潜在语义分析的蛋白质家族分类和远的同源性检测

1.3.1蛋白质序列的表示

1.3.2建立蛋白质序列和蛋白质家族的潜在语义空间

1.3.3实现基于LSA的蛋白质序列家族分类和远的同源性检测

1.4本课题的研究内容及组织结构

第2章蛋白质序列的表示

2.1单词k-spectrum

2.1.1 k-spectrum的概念

2.1.2使用k-spectrum表示蛋白质序列

2.2单词pattern

2.2.1 pattern的概念

2.2.2 pattern的生成

2.2.3特征选择

2.2.4使用pattern表示蛋白质序列

2.3单词motif

2.3.1 motif的生成和查找

2.3.2 MEME中motif的优点

2.3.3使用motif表示蛋白质序列

2.4本章小结

第3章潜在语义分析和支持向量机

3.1使用潜在语义分析的必要性

3.2潜在语义分析的思想及特点

3.3潜在语义分析的实现

3.3.1特征表示

3.3.2奇异值分解

3.3.3蛋白质序列的表示

3.4支持向量机

3.4.1支持向量机的概念

3.4.2支持向量机原理

3.4.3支持向量机的实现

3.5本章小结

第4章基于潜在语义分析的蛋白质家族分类

4.1使用的数据库

4.2采用生物学单词和支持向量机实现蛋白质家族分类

4.2.1分类系统结构

4.2.2实验及结果分析

4.3基于潜在语义分析和支持向量机的蛋白质家族分类

4.3.1分类系统结构

4.3.2实验结果及分析

4.4本章小结

第5章基于潜在语义分析的蛋白质远的同源性检测

5.1实验数据

5.2蛋白质序列远的同源性检测的系统结构

5.3评价标准

5.4实验结果及分析

5.4.1使用不同单词和支持向量机时的实验结果及分析

5.4.2使用潜在语义分析和支持向量机时的实验结果及分析

5.5本章小结

结论

参考文献

附录

攻读学位期间发表的学术论文

哈尔滨工业大学硕士学位论文原创性声明

哈尔滨工业大学硕士学位论文使用授权书

致谢

展开▼

摘要

本文主要研究了以下两方面的内容:在向量化蛋白质序列过程中所使用的生物学单词,以及用来解决单词多义性问题的潜在语义分析技术.为了克服其他方法中向量化蛋白质时计算代价昂贵的缺点,本文采用语言学的观点,分别使用三种生物学单词表示蛋白质序列.各种生物学单词在表示蛋白质序列时都可能存在多义性和同义性现象,本文使用潜在语义分析技术来解决这个问题.潜在语义分析通过挖掘大的数据集中各词语之间的潜在联系而建立一个潜在语义空间,在该语义空间内表示蛋白质序列能够消除单词的同义性和多义性的影响.本文使用支持向量机实现蛋白质序列的家族分类和远的同源性检测.我们比较三种生物学单词的差别,以及各单词使用潜在语义分析后的性能变化.在SCOP数据库上进行的实验表明,潜在语义分析技术有效提高了蛋白质家族分类和远的同源性检测的性能.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号