文摘
英文文摘
第1章绪论
1.1课题背景
1.2国内外在该方向的研究现状
1.2.1蛋白质序列家族分类及远的同源性检测的研究现状
1.2.2潜在语义分析的研究现状
1.3基于潜在语义分析的蛋白质家族分类和远的同源性检测
1.3.1蛋白质序列的表示
1.3.2建立蛋白质序列和蛋白质家族的潜在语义空间
1.3.3实现基于LSA的蛋白质序列家族分类和远的同源性检测
1.4本课题的研究内容及组织结构
第2章蛋白质序列的表示
2.1单词k-spectrum
2.1.1 k-spectrum的概念
2.1.2使用k-spectrum表示蛋白质序列
2.2单词pattern
2.2.1 pattern的概念
2.2.2 pattern的生成
2.2.3特征选择
2.2.4使用pattern表示蛋白质序列
2.3单词motif
2.3.1 motif的生成和查找
2.3.2 MEME中motif的优点
2.3.3使用motif表示蛋白质序列
2.4本章小结
第3章潜在语义分析和支持向量机
3.1使用潜在语义分析的必要性
3.2潜在语义分析的思想及特点
3.3潜在语义分析的实现
3.3.1特征表示
3.3.2奇异值分解
3.3.3蛋白质序列的表示
3.4支持向量机
3.4.1支持向量机的概念
3.4.2支持向量机原理
3.4.3支持向量机的实现
3.5本章小结
第4章基于潜在语义分析的蛋白质家族分类
4.1使用的数据库
4.2采用生物学单词和支持向量机实现蛋白质家族分类
4.2.1分类系统结构
4.2.2实验及结果分析
4.3基于潜在语义分析和支持向量机的蛋白质家族分类
4.3.1分类系统结构
4.3.2实验结果及分析
4.4本章小结
第5章基于潜在语义分析的蛋白质远的同源性检测
5.1实验数据
5.2蛋白质序列远的同源性检测的系统结构
5.3评价标准
5.4实验结果及分析
5.4.1使用不同单词和支持向量机时的实验结果及分析
5.4.2使用潜在语义分析和支持向量机时的实验结果及分析
5.5本章小结
结论
参考文献
附录
攻读学位期间发表的学术论文
哈尔滨工业大学硕士学位论文原创性声明
哈尔滨工业大学硕士学位论文使用授权书
致谢