首页> 中文学位 >作物复杂性状遗传关联分析及基于线性模型的多因素维度缩减方法的开发
【6h】

作物复杂性状遗传关联分析及基于线性模型的多因素维度缩减方法的开发

代理获取

目录

声明

Acknowledgements

Abstract

摘要

Contents

1 Introduction

1.1 Literature Review and Background Knowledge

1.1.1 Linkage and Association

1.1.2 Population Structure

1.1.3 Statistical Testing

1.1.4 Correction for Multiple Testing

1.2 Challenges and Our Proposals

2 GWAS for Yield Traits of Upland Cotton

2.1 Introduction

2.2 Methods

2.2.1 Plant Materials and Field Experiment

2.2.2 SNP Genotyping and Quality Control

2.2.3 Statistical Analysis

2.3 Results

2.3.1 GWAS Analysis for Four Yield Traits

2.3.2 Prediction of Best Lines and Superior Lines

2.3.3 Candidate Genes by Comparative Analysis

2.4 Discussion

3 GWAS for Plant Height and Heading Date of Xieyou9308

3.1 Introduction

3.2 Materials and Methods

3.2.1 Plant Materials and SNP Genotyping

3.2.2 Genetic Models and Statistical Analysis

3.3 Results

3.3.1 Structure of Linkage Disequilibrium

3.3.2 Estimated Heritability and Predicted Genetic Effects

3.3.3 Breeding Value Prediction and Candidate Genes

3.4 Discussion

4 Mapping QTX for Quality Traits in Tobacco

4.1 Introduction

4.2 Materials and Methods

4.2.1 Plant Growth and Sample Preparation

4.2.2 Data Generation of Four Omies Genetypes

4.2.3 Statistical Annalysis

4.3 Results

4.3.1 Association Mapping for Chromium Content Based on Omies Data

4.3.2 Association Mapping for Total Sugar Content Based on Omics Data

4.4 Discussion

5 Linear model implementation for MDR

5.1 Introduction

5.2 Materials and Methods

5.2.1 The Original MDR Kernel Algorithm

5.2.2 LMDR Kernel Algorithm

5.2.3 Simulations

5.2.4 Real Data Analysis

5.3 Results

5.3.1 Type Ⅰ Error Rate and Success Rate of LMDR

5.3.2 Genetic Property of LMDR and Correlation with MDR

5.3.3 Real Data Results

5.4 Discussion

Reference

展开▼

摘要

剖析复杂性状、复杂疾病的遗传机理,对作物高效育种和精准医疗有非常重要的意义。连锁分析和关联分析是剖析复杂性状的两种主要途径。其中,连锁分析利用家系内目标位点与分子标记的连锁共分离信息来定位目标位点区段,在过去的二十多年被广泛应用。近来,随着高通量测序技术发展,全基因组测序数据(如单核苷酸多态性标记—SNP)大量涌现,掀起了人类疾病和作物复杂性状全基因组关联的研究(GWAS)热潮。这些研究中,有一些已经取得不错的结果,但大多数GWAS研究都未解决“遗传率丢失”的问题。所谓的“遗传率丢失”现象指的是通过GWAS定位找到的目标SNP只能解释传统家系研究估计得到的总遗传变异方差(遗传率)的一小部分。由于当前大部分GWAS研究通常只考虑单位点效应,忽视了基因间互作、基因与环境互作,这被认为是造成这种差异的一种可能解释。
  在本研究中,根据已有数据特性,我们探索和设计了一些新的关联策略来应对这一挑战。这些方法策略分别应用于棉花、水稻和烟草的全基因组关联分析。此外,本研究还使用线性模型框架重构了MDR方法(多因素维度缩减方法)的核心算法,开发了称为LMDR的新方法。本文共分五个章节,其主要内容概括如下。
  第一章首先介绍了GWAS的一些基本概念和遇到的挑战,以及对于这些挑战我们提出的一些应对策略。
  第二章中,基于316份陆地棉品种测得的约40万个SNP标记,我们对四个纤维产量性状进行了全基因组关联分析。棉花是常异花授粉作物,在这份数据中我们也发现了一些杂合基因型,但GWAS常用的简单加模型不能处理这些杂合基因型。因此,我们采用了全模型来探索陆地棉产量性状的遗传基础,该全模型同时包含了加性,显性,上位性以及环境互作效应的检测。分析结果显示,虽然杂合子的比例并不高(约0.07),显性相关的效应却贡献了大部分的总遗传率。这表明少数的杂合基因型仍对表型变异有较大的影响,并在分子水平上揭示了杂合优势对棉花产量性状的重要性。此外,通过全模型与相应简化模型结果的比较,该研究也为“遗传率丢失”提供一个可能解释。
  第三章中,我们采取了多种全基因组关联策略来研究超级杂交稻协优9308高产的遗传基础;所用材料为由协优9308衍生的重组自交系(RIL)群体,我们对138份重组自交系后代进行了重测序,并开展关联分析。由于GWAS研究通常是基于自然群体,首先我们就GWAS研究在这个实验群体的可行性进行了检查和讨论。随后,我们同时采取三种关联研究策略(包括传统的无先验知识的全基因组关联分析,和两个分别基于先验QTL和已注释基因的关联分析)对株高和抽穗期两个性状进行一个整体比较分析。研究结果发现,多种关联策略共同找到的位点相对比较可靠,可优先用于后续研究。此外,作为一个例子,这项研究表明了GWAS不仅可以在实验群体中进行,而且多策略关联分析还可以补充或精细以前的QTL定位结果,以更精确的QTL信息为后续基因克隆和分子标记辅助选择服务。
  第四章中,我们以烟叶中铬含量和总糖含量为例,对四组学数据(即基因组学,转录组学,蛋白质组学和代谢组学)和复杂表型间的关联进行了探讨,以确定相应的数量性状SNP(QTSs),数量性状转录本(QTTs),数量性状蛋白(QTPs)和数量性状代谢物(QTMs)。这些中间分子表型(或内表型)有助于阐明复杂性状的遗传变异机理。
  最后一章中,我们使用线性模型框架重建了MDR的核心算法。MDR是一种基于机器学习的检测基因互作方法。然而,它缺乏明确的统计性质,例如p值是通过置换检验或中心极限定理得到的。LMDR克服这些限制。通过模拟研究,我们发现,LMDR不仅能提供合理的统计性质,而且不需要置换检验就可以得到p值,所以计算效率高;此外,LMDR也更易拓展到meta分析和条件分析。同时,LMDR非常容易实现,兼容目前MDR的大多数扩展方法。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号