声明
摘要
第1章绪论
1.1引言
1.2选题意义与目的
1.2.1选题意义
1.2.2选题目的
1.3国内外研究现状
1.4研究内容及研究目标
1.4.1研究内容
1.4.2研究目标
1.5本文的章节安排及内容
第2章测序技术与蛋白质结合位点
2.1高通量测序技术
2.1.1 454技术
2.1.2 Solexa技术
2.1.3 SOLiD技术
2.2 ChIP-seq技术
2.3DNase-Seq技术
2.4转录因子结合位点
2.5 PWM模型
2.6 GEM预测软件
2.7本章小结
第3章DNase-Seq数据获取与酶切倾向性校正
3.1蛋白质结合位点预测所需数据获取
3.1.1 DNase-Seq数据获取
3.1.2 HG19参考基因组数据获取
3.2 DNase-Seq数据碱基倾向性数据获取
3.3 DNase-Ⅰ酶切倾向性分析模型
3.3.1循环神经网络
3.3.2RNN前向输出流程
3.3.3RNN的训练方法
3.3.4RNN网络模型实现
3.4.1 bias消除模型提取数据
3.4.2 DNaSe-Seq数据消除bias模型
3.5本章小结
第4章转录因子结合位点识别
4.1蛋白质预测结合位点获取
4.1.1 ChIP-seq数据提取
4.1.2 PWM矩阵获取与FIMO预测平台
4.2蛋白质结合位点识别特征
4.2.1确定预测位点与识别特征
4.2.2 DNase-Seq数据筛选
4.3蛋白质结合位点识别模型
4.3.1卷积神经网络
4.3.2卷积与池化工作原理
4.3.3卷积神经网络的传播过程
4.3.4卷积神经网络的训练方法
4.3.4蛋白质结合位点识模型建立
4.4本章小结
第5章转录因子结合位点识别模型评价
5.1样本数据处理及评价指标选取
5.1.1正负样本数据获取
5.1.2样本数据划分
5.1.3模型评价指标
5.2识别模型效果评价
5.3对模型多分类及应用的讨论
5.3.1对PWM矩阵接近的蛋白结合位点分类的讨论
5.3.1对识别模型应用的讨论
5.4本章小结
结论
参考文献
攻读硕士学位期间发表的论文和取得的科研成果
致谢