首页> 中国专利> 一种基于三代PacBio和Hi-C技术组装和注释湖羊基因组的方法

一种基于三代PacBio和Hi-C技术组装和注释湖羊基因组的方法

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明属于生物信息技术领域，具体涉及一种基于三代PacBio和Hi‑C技术组装和注释湖羊基因组的方法，所述的方法包括如下步骤：(1)采集湖羊基因组片段；(2)构建基因组文库和转录组文库；(3)基因组大小和杂合率评估；(4)基因组组装、纠错和评估；(5)Hi‑C辅助组装、评估和纠错；(6)基因组注释和评估。本发明组装了湖羊染色体级别的高质量基因组，这不仅为湖羊种群遗传资源保护与利用研究提供了宝贵的基因组资源，而且为进一步研究湖羊特有畜禽品种的环境适应机制奠定了坚实的基础。

著录项

公开/公告号CN113122642A

专利类型发明专利
公开/公告日2021-07-16

原文格式PDF
申请/专利权人中国农业科学院兰州畜牧与兽药研究所;
展开▼

申请/专利号CN202110409764.6
发明设计人卢曾奎;刘建斌;袁超;杨博辉;岳耀敬;郭婷婷;牛春娥;李建烨;
展开▼

申请日2021-04-16
分类号C12Q1/6888(20180101);C12Q1/6806(20180101);C12Q1/6869(20180101);C40B50/06(20060101);
代理机构11504 北京力量专利代理事务所(特殊普通合伙);
代理人戴治娟
地址 730050 甘肃省兰州市七里河区硷沟沿335号
入库时间 2023-06-19 11:52:33

说明书

技术领域

本发明属于生物信息技术领域，具体涉及一种基于三代PacBio和Hi-C技术组装和注释湖羊基因组的方法。

背景技术

湖羊是世界著名的多胎绵羊品种，其肉质鲜美细嫩、膻味少、净肉率高。湖羊为稀有白色羔皮羊品种，在国外市场素有“东方软宝石”之美称，湖羊在2000年和2006年先后两次被农业部被列入了《国家畜禽遗传资源保护目录》。随着国家生态保护战略的实施，绵羊饲养方式由放牧逐渐转变为半舍饲或舍饲，这在无形中增加了绵羊养殖的生产成本。湖羊不但适合圈养还可以密养，这大大降低了养殖成本。此外，湖羊具有性成熟早、常年发情、前期生长速度快、产羔数多、泌乳量高、母性好和适应性强等独有特性，符合现代集约化养羊业的需求且显著增加农牧民的经济效益。湖羊作为我国特有的优良地方绵羊种质资源，已成为我国规模化高效经济杂交和新品种培育的最佳母本，在缓解我国羊肉需求紧张和价格居高不下的态势中发挥着独特的优势地位和作用。加快湖羊遗传选育进展，对我国绵羊种质创新及其产业化具有重大意义。

基因组序列组装能够为湖羊的遗传选育等生物研究提供参考基因序列。而染色体水平的基因组在应用层面上具备了更高的实用价值，比较基因组学及重测序、三维基因组研究工作，都需要高质量的染色体水平基因组。虽然湖羊的基因组已被组装，但由于组装技术的限制和实际情况的复杂性，目前关于湖羊的基因组学研究中，湖羊的基因组尚未完成染色体水平的组装，这使得湖羊遗传特性研究和新品种培育领域缺乏高质量的参考基因组。PacBio测序是基于光信号的三代测序技术，以单分子测序为特征，可以在在目标DNA分子复制过程中捕获序列信息，因其测序读长较长，对于基因组中复杂区域尤其是复杂结构变异的研究具较大的优势。Hi-C技术源于染色体构象捕获技术，利用高通量测序技术，结合生物信息分析方法，研究全基因组范围内整个染色质DNA在空间位置上的关系，获得高分辨率的染色质三维结构信息。Hi-C数技术用于基因组组装，能够将杂乱的基因序列组装到染色体水平。本研究结合三代PacBio和Hi-C技术，并采用二代、三代转录组文库校正拼装序列，首次构建了湖羊染色体水平的参考基因组，提高了湖羊基因组装质量，推动了湖羊基因组学的研究进展，为湖羊遗传特性研究和新品种培育奠定基础。

发明内容

针对上述技术问题，一种基于三代PacBio和Hi-C技术组装和注释湖羊基因组的方法，所述的方法包括如下步骤：

(1)采集湖羊基因组片段：分别从血液和组织提取湖羊的DNA和RNA；

(2)构建基因组文库和转录组文库：针对步骤(1)提取得到的DNA片段分别构建二代DNA文库、三代DNA文库和Hi-C文库，获得湖羊基因组文库；针对步骤(1)提取得到的RNA测序构建二代转录组文库和三代全长转录组文库，获得湖羊转录组文库；并对构建所得的基因组文库和转录组文库进行过滤；

(3)采用步骤(2)获得的二代DNA文库评估获得的湖羊基因组大小和杂合率；

(4)基因组组装、纠错和评估：利用步骤(3)获得湖羊的基因组大小和杂合率结果，选择mecat2软件对步骤(2)所述的三代DNA文库进行组装得到原始组装结果；使用smrtlink7.0的纠错软件arrow基于步骤(2)得到的三代全长转录组文库对原始组装结果进行纠错，使用pilon软件基于步骤(2)得到的二代转录组文库进行再纠错；

(5)Hi-C辅助组装、纠错和评估：对步骤(4)获得的纠错后的组装结果进行Hi-C辅助组装，构建互作图谱，进行可视化纠错，得到湖羊基因组；

(6)基因组注释和评估：重复序列的识别；非编码RNA的预测；编码基因结构预测和功能注释：使用De novo从头预测、homolog同源预测和转录组证据支持3种方法进行编码基因的结构预测，参数设置为默认参数；使用MAKER软件，将上述3种方法预测得到的基因集整合成一个基因集；最后借助于蛋白数据库InterPro、GO、KEGG_ALL、KEGG_KO、SwissProt、TrEMBL和NR对基因集中的蛋白进行功能注释。

优选地，步骤(4)所述的原始组装是通过mecat2软件得到，参数设置为：MIN_READ_LENGTH＝10000,CNS_OPTIONS＝"-r 0.6 -a 1000 -c 4 -l 2000"，ASM_OVLP_OPTIONS＝"-n 100 -z 10 -b 2000 -e 0.5 -j 1 -u 0 -a 400"。

优选地，步骤(4)所述的纠错软件arrow的版本为v2.2.2，参数设置为默认参数；pilon软件的版本为v1.22，参数设置为默认参数。

优选地，步骤(5)所述的Hi-C辅助组装是指使用ALLHi C软件将纠错后的组装结果进行组装；互作图谱利用Juicer软件构建，使用JucieBox软件进行可视化纠错。

优选地，步骤(5)所述的Hi-C辅助组装所需要的序列是将步骤(4)质控得到的clean data使用BWA软件进行比对，使用Lachesis软件将离酶切位点500bp以外的序列去除，得到的数据进行Hi-C辅助组装。

优选地，步骤(6)所述的重复序列的识别是结合基于RepBase库的同源预测方法、基于自身序列比对及重复序列特征的De novo从头预测方法检测重复序列；还利用了TRF软件寻找基因组中串联重复序列；非编码RNA的预测：非编码RNA的注释过程中，根据tRNA的结构特征，利用tRNAscan-SE软件来寻找基因组中的tRNA序列。

优选地，步骤(1)所述的DNA提取自湖羊血液和肝脏组织；RNA提取自湖羊组织，所述的湖羊组织是指心脏、肝脏、肺脏、脾脏、瘤胃和肌肉的混合。

8.如权利要求1所述的方法，其特征在于，步骤(2)所述的二代DNA文库的构建方法为：通过超声波破碎仪随机打断成长度为300-350bp的片段；DNA片段进行末端修复、加A尾、加测序接头、纯化、PCR扩增；

三代DNA文库的构建方法为：使用g-Tubes剪切提取获得的湖羊DNA；DNA片段纯化和浓缩；DNA片段进行末端修复、加测序接头；目的片段筛选；杂交测序引物和DNA聚合酶绑定；

Hi-C文库的构建方法为：使用多聚甲醛固定提取获得的湖羊DNA的构象；限制性内切酶处理交联的DNA，产生粘性末端；DNA末端补平修复，并同时引入生物素，标记寡核苷酸末端；使用DNA连接酶连接DNA片段；蛋白酶消化解除与DNA的交联状态，纯化DNA并随机打断为300～500bp片段；使用亲和素磁珠捕获标记的DNA，对DNA片段进行末端修复、加A尾、加测序接头、纯化、PCR扩增；

二代转录组文库的构建方法为：从提取获得的湖羊RNA中富集mRNA；通过超声波破碎仪将富集到的mRNA随机打断成200bp的片段；以片段化的mRNA为模板，利用随机引物反转录合成一链cDNA，合成第二链cDNA时dNTPs中的dTTP用dUTP代替；cDNA片段进行纯化、末端补平、加A尾、加测序接头；使用USER酶消化二链cDNA，使其文库中只含有一链cDNA；cDNA进行PCR富集；获得湖羊的二代转录组文库；

三代全长转录组文库的构建方法为：合成mRNA的全长cDNA；纯化扩增的全长cDNA，去除1kb以下的小片段cDNA；对全长cDNA进行末端修复，连接SMRT哑铃型接头；进行核酸外切酶消化未连接接头的片段，再次使用PB磁珠进行纯化，获得湖羊的三代转录组文库。

优选地，二代DNA文库的测序数据过滤条件为：(1)去除含有接头序列的reads；(2)去除重复reads；(3)当单端测序read中的一端含有的N的含量超过该条read长度比例的10％时，需要去除此对paired reads；(4)当单端测序read中的一端含有的Q<＝5的碱基数超过该条read长度比例的50％时，需要去除此对reads；

三代DNA文库的测序数据过滤条件为：(1)去除含有接头序列的reads；(2)去除长度短于1000bp的reads；(3)去除低质量reads；

Hi-C文库的测序数据过滤条件为：(1)去除含有接头序列的reads；(2)去除测序read两端连续质量小于20的碱基；(3)当测序read最终长度小于50bp时，去除此条reads；(4)仅保留成对reads；

二代转录组文库测序数据过滤条件为：(1)去除含有接头序列的reads；(2)去除3’端；(3)去除低质量reads；

三代全长转录组文库的测序数据过滤条件为：(1)使用SMRTlink软件(参数设置为最短Subreads长度＝50，最大Subreads长度＝15,000，最小测序循环数＝3，最低预测准确性＝0.99)对原始测序数据进行预处理，对单分子测序的高质量reads进行拆分得到subreads，同一高质量reads得到的subreads经过自我纠错形成环化一致序列；(2)通过检测嵌合体序列、5’和3’端测序引物，对环化一致序列进行分类，找出全长非嵌合序列用于后续分析。

本发明的第二目的是提供所述的方法组装和注释得到的湖羊基因组序列。

本发明的有益效果是：1.本发明提供了一种基于三代PacBio和Hi-C技术组装和注释湖羊基因组的方法，所述的方法使得湖羊基因组达到染色体级别，取得高质量的参考基因组，并对湖羊的基因结构和基因功能进行了全面注释，对于湖羊的遗传改良和保护至关重要，为湖羊遗传特性研究和新品种培育奠定基础。2.本发明的组装方法获得了连续性更好的湖羊参考基因组，为后续进行大规模基因组进化和功能研究提供保障。3.本发明构建组装获得的湖羊基因组质量是现有文献中公开的最高水平，最终确定湖羊基因组顺序及方向确定的染色体长度2.71Gb，contigs N50＝19.49Mb，scaffoldN50＝106.11Mb，contig长度锚定率为98.77％，contig数量锚定率为58.25％。PacBio组装和Hi-C辅助组装，并纠错后能完整比对BUSCO的基因占93.80％；4.采用本发明方法鉴定到的重复序列更多，基因注释的完整性更高，注释到的基因数目更加接近于绵羊的平均基因数量。

附图说明

图1湖羊基因组组装路线示意图

图2 K-mer深度和K-mer种类数频率分布图

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地说明，应当理解地是，以下实施例仅是本发明的一部分实施例而不是全部的实施例。在下述实施例的基础上，本领域技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，均属于本发明的保护范围。

名词解释：

以下实施例中所述的“reads”是高通量测序平台产生的序列标签。

以下实施例所述的“contig”是拼接软件基于reads之间的overlap区，拼接获得的序列。

以下实施例所述的“Contig N50”是reads拼接后会获得一些不同长度的Contigs。将所有的Contig长度相加，能获得—个Contig总长度。然后将所有的Contigs按照从长到短进行排序，如获得Contig 1，Contig 2，Contig3，……，Contig 25。

将Contig按照这个顺序依次相加，当相加的长度达到Contig总长度的—半时，最后—个加上的Contig长度即为ContigN50。举例：Contig l Contig 2Contig 3Contig 4＝Contig总长度*1/2时，Contig 4的长度即为Contig N50。ContigN50可以作为基因组拼接的结果好坏的一个判断标准。

以下实施例所述的“Scaffold”是基因组de novo测序，通过reads拼接获得Contigs后，往往还需要构建454Paired-end库或llluminaMate-pair库，以获得一定大小片段(如3Kb、6Kb、10Kb、20Kb)两端的序列。基于这些序列，可以确定—些Contig之间的顺序关系，这些先后顺序已知的Contigs组成Scaffold。

以下实施例所述的“Scaffold N50”，Scaffold N50与Contig N50的定义类似。Contigs拼接组装获得—些不同长度的Scaffolds。将所有的Scaffold长度相加，能获得一个Scaffold总长度。然后将所有的Scaffolds按照从长到短进行排序，如获得Scaffold 1，Scaffold 2.Scaffold3，……，Scaffold 25。将Scaffold按照这个顺序依次相加，当相加的长度达到Scaffold总长度的一半时，最后一个加上的Scaffold长度即为Scaffold N50。举例：Scaffold l Scaffold 2Scaffold 3Scaffold 4Scaffold 5＝Scaffold总长度*1/2时，Scaffold 5的长度即为Scaffold N50。ScaffoldN50可以作为基因组拼接的结果好坏的—个判断标准。

以下实施例所述的“smartlink软件”是深圳市华杰智控技术有限公司推出的实现PLC远程控制、远程下载、远程组网和监控的软件。同时支持PLC、触摸屏、伺服器、运动控制器、仪表仪器等设备远程控制。

实施例一、一种基于三代PacBio和Hi-C技术组装和注释湖羊基因组的方法

1材料与方法

1.1样品采集

在浙江省湖州市湖羊中心产区选择健康的成年公羊1只，早晨空腹通过颈静脉采血5ml加入EDTA-K2抗凝剂的采血管中，保存于-20℃冰箱。之后屠宰并立即分割心脏、肝肺、肺脏、脾脏、瘤胃和肌肉组织，迅速用预冷的生理盐水将组织表面的血液冲洗干净，切割成0.5cm

1.2文库构建及测序

采用血液基因组提取试剂盒(天根生化科技北京有限公司，北京)和CTAB(十六烷基三甲基溴化胺)法提取湖羊血液和肝脏组织中的DNA并进行质检，分成三份用于二代、三代和Hi-C文库构建。使用TRlzol Reagent(Invitrogen，美国)提取湖羊心脏、肝脏、肺脏、脾脏、瘤胃和肌肉组织中的总RNA并进行质检，用于二代转录组和三代全长转录组文库构建。

二代DNA文库构建：通过超声波破碎仪(Covaris，美国)随机打断成长度为300-350bp的片段；DNA片段进行末端修复、加A尾、加测序接头、纯化、PCR扩增；使用Qubit 2.0(Invitrogen，美国)和Agilent 2100(Agilent，美国)对构建文库的浓度和片段大小进行质量检测；构建好的文库通过Illumina Hiseq PE150测序。二代DNA文库用于基因组大小和杂合率评估。Illumina Hiseq PE150平台测序结果显示湖羊基因组大小约为2707.70Mb，杂合率为0.30％，基因组杂合率较低，适宜于进行三代DNA文库的构建，并且该结果为后续选择组装策略提供了依据。

三代DNA文库构建：使用g-Tubes(Covaris，美国)将基因组DNA剪切至～20kb大小；DNA片段纯化和浓缩；DNA片段进行末端修复、加测序接头；目的片段筛选(20kb)；杂交测序引物和DNA聚合酶绑定；使用Qubit 2.0(Invitrogen，美国)和Agilent 2100(Agilent，美国)对构建文库的浓度和片段大小进行质量检测；构建好的文库通过PacBio Sequel II平台进行测序。

Hi-C文库构建：使用多聚甲醛固定DNA构象；限制性内切酶处理交联的DNA，产生粘性末端；DNA末端补平修复，并同时引入生物素，标记寡核苷酸末端；使用DNA连接酶连接DNA片段；蛋白酶消化解除与DNA的交联状态，纯化DNA并随机打断为300～500bp片段；使用亲和素磁珠捕获标记的DNA，对DNA片段进行末端修复、加A尾、加测序接头、纯化、PCR扩增；使用Qubit 2.0(Invitrogen，美国)和Agilent 2100(Agilent，美国)对构建文库的浓度和片段大小进行质量检测；构建好的文库通过Illumina HiSeq PE150测序。

二代转录组文库构建：使用带有Oligo(dT)的磁珠进行mRNA富集；通过超声波破碎仪(Covaris，美国)将富集到的mRNA随机打断成约200bp的片段；以片段化的mRNA为模板，利用随机引物反转录合成一链cDNA，合成第二链cDNA时dNTPs中的dTTP用dUTP代替；cDNA片段进行纯化、末端补平、加A尾、加测序接头；使用USER酶消化二链cDNA，使其文库中只含有一链cDNA；cDNA进行PCR富集；使用Qubit 2.0(Invitrogen，美国)和Agilent 2100(Agilent，美国)对构建文库的浓度和片段大小进行质量检测；构建好的文库通过Illumina Hiseq2500平台进行双端测序。

三代全长转录组文库构建：使用Clonetech SMARTerTM PCR cDNA Synthesis Kit合成mRNA的全长cDNA；使用PB磁珠纯化扩增的全长cDNA，去除部分1kb以下的小片段cDNA；对全长cDNA进行末端修复，连接SMRT哑铃型接头；进行核酸外切酶消化未连接接头的片段，再次使用PB磁珠进行纯化，获得测序文库；使用Qubit 2.0(Invitrogen，美国)和Agilent2100(Agilent，美国)对构建文库的浓度和片段大小进行质量检测；构建好的文库通过PacBio测序仪进行全长转录组测序。

1.3测序数据质控

DNA和RNA测序结束后得到原始数据(Raw reads)，使用Fast QC软件进行过滤获得高质量序列(Clean reads)。

二代DNA测序数据过滤条件为：1)去除含有接头序列的reads；2)去除重复reads；3)当单端测序read中的一端含有的N的含量超过该条read长度比例的10％时，需要去除此对paired reads；4)当单端测序read中的一端含有的低质量(<＝5)碱基数超过该条read长度比例的50％时，需要去除此对paired reads。质控后共获得263714204027bp的cleandata。

三代DNA测序数据过滤条件为：1)去除含有接头序列的reads；2)去除长度短于1000bp的reads；3)去除低质量reads。质控后共获得2746197213bp的clean data。

Hi-C测序数据过滤条件为：1)去除含有接头序列的reads；2)去除测序read两端连续质量小于20的碱基；3)当测序read最终长度小于50bp时，去除此条reads；4)仅保留成对reads。质控后共获得2712458560bp的clean data。

二代转录组测序数据过滤条件为：1)去除含有接头序列的reads；2)去除3’端；3)去除低质量reads。质控后3个肝脏样品平均获得6348278500bp的clean data。

三代全长转录组测序数据过滤条件为：1)使用SMRTlink软件(参数设置为最短Subreads长度＝50，最大Subreads长度＝15,000，最小测序循环数＝3，最低预测准确性＝0.99)对原始测序数据进行预处理，对单分子测序的高质量reads进行拆分得到subreads，同一高质量reads得到的subreads经过自我纠错形成环化一致序列；2)通过检测嵌合体序列、5’和3’端测序引物，对环化一致序列进行分类，找出全长非嵌合序列用于后续分析。质控后具有polyA的全长非嵌合序列为225533426bp。

1.4基因组大小和杂合率评估

获得的高质量序列(Clean reads)，采用基于K-mer的分析方法来估计基因组大小、杂合率和重复序列信息，其主要目的是了解该基因组的复杂程度。通过Illumina HiseqPE150平台测序后获得湖羊的二代基因文库，共包括263714204027bp的clean data，测序质量正常，测序错误率正常。选择K＝17，可以产生的K-mer种类数为4

1.5基因组组装、纠错和评估

利用1.4获得的湖羊基因组大小和杂合率结果，选择mecat2软件得到原始组装结果，参数设置为：MIN_READ_LENGTH＝10000,CNS_OPTIONS＝"-r 0.6 -a 1000 -c 4 -l2000",ASM_OVLP_OPTIONS＝"-n 100 -z 10 -b 2000 -e 0.5 -j 1 -u 0 -a 400"。

使用smrtlink 7.0的纠错软件arrow(v2.2.2，默认参数)基于三代全长转录组文库对原始组装结果进行纠错，使用pilon软件(v1.22，默认参数)基于二代转录组文库据进行再纠错。

原始组装并纠错后获得2746197213bp的基因组序列，Contig number为1983，Contigs N50为19488550bp，Scaffoldnumber为855，ScaffoldN50为106112921bp。

组装和纠错后对基因组进行评估，统计A、G、C、T和N在基因组中的占比和GC含量；选择绵羊基因组中CLR(Continuous Long Reads)subreads，使用minimap2软件(默认参数)比对到组装好的基因组，统计reads的比对率、覆盖基因组程度和深度分布情况，由此评估组装的完整性和测序覆盖的均匀性；

基于OrthoDB中的单拷贝同源基因集，使用BUSCO预测这些基因并统计其完整度、碎片化程度和可能的丢失率，由此评估整个组装结果中基因区的完整性；

用BWA将reads比对到参考基因组，用GATK进行SNP calling并过滤，统计纯合和杂合SNP个数，根据比对结果统计insersize。

1.6 Hi-C辅助组装和评估

利用纠错后的组装结果进行Hi-C辅助组装，得到最终的基因组组装结果。质控得到的clean data使用BWA软件进行比对，使用Lachesis软件将离酶切位点500bp以外的序列去除，得到的数据进行辅助组装。基于顺式互作(同一染色体内的互作)远大于反式互作(不同染色体间的互作)，且顺式互作中线性距离越近则互作越强的原理，将contigs或者scaffolds进行聚类、排序、定向，得到染色体水平基因组。将辅助组装后的基因组，利用Juicer软件构建互作图谱，使用JucieBox软件对其进行可视化纠错。基于OrthoDB中的单拷贝同源基因集，使用BUSCO软件预测这些基因并统计其完整度，碎片化程度及可能的丢失率。(表1)Hi-C辅助组装后获得2712458560bp的基因组序列，Contig number为1155，Contigs N50为19488550bp，Scaffold number为27，ScaffoldN50为106112921bp，能完整比对BUSCO的基因占93.80％。

构建流程图如图1所示。

1.7基因组注释和评估

重复序列的识别：结合基于RepBase库(http://www.girinst.org/repbase)的同源预测方法(RepeatMasker和RepeatProteinMask)、基于自身序列比对(RepeatModeler)及重复序列特征(LTR-FINDER)的De novo从头预测方法检测重复序列。此外，De novo从头预测方法还利用了TRF软件寻找基因组中串联重复序列。

非编码RNA的预测：非编码RNA的注释过程中，根据tRNA的结构特征，利用tRNAscan-SE软件来寻找基因组中的tRNA序列。由于rRNA具有高度的保守性，因此可以选择近缘物种的rRNA序列作为参考序列，通过BLASTN比对来寻找基因组中的rRNA。利用Rfam家族的协方差模型，采用Rfam自带的INFERNAL软件预测基因组上的miRNA和snRNA序列信息。

基因结构预测和功能注释：使用De novo从头预测(Augustus和Genscan软件)、homolog同源预测(选择C.hircus、H.sapiens、O.aries_rambouillet_v1.0和O.aries_Oar_v4.0作为同源物种)和转录组证据支持(trans.orf/ISOseq)3种方法进行编码基因的结构预测，参数设置为默认参数。使用MAKER软件(默认参数)，将上述3种方法预测得到的基因集整合成一个非冗余的、更加完整的基因集。最后借助于外源蛋白数据库(InterPro、GO、KEGG_ALL、KEGG_KO、SwissProt、TrEMBL和NR)对基因集中的蛋白进行功能注释。

使用BUSCO软件，基于直系同源数据库OrthoDB对基因组组装的完整性进行定量评估。BUSCO抽样了数百个基因组，从中选择单拷贝直系同源＞90％的基因构建了六种主要的系统进化分枝的基因集。

2结果

2.1湖羊基因组大小和杂合率评估

通过IlluminaHiseq PE150平台测序后，共获得263714204027bp的clean data，测序质量正常，测序错误率正常。随机抽取10000对reads数据，通过Blast软件比对NCBI核苷酸数据库(NT库)，比对结果显示文库数据中不含有明显的外源污染，建库测序成功。K-mer分析结果显示，K＝17时可以产生的K-mer总数为235255399504，K-mer深度为84(图2)。因此预估湖羊基因组大小约为2707.70Mb，杂合率为0.30％，重复序列比例为61.13％，基因组GC含量约为42％。

2.2湖羊基因组Hi-C辅助组装结果评估

通过PacBio组装湖羊基因组序列长度为2.75Gb，contig N50＝19.49Mb，共1983条contigs(表1)。通过Hi-C辅助组装，最终确定湖羊基因组顺序及方向确定的染色体长度2.71Gb，contigs N50＝19.49Mb，scaffoldN50＝106.11Mb，contig长度锚定率为98.77％，contig数量锚定率为58.25％(表1)。湖羊基因组GC含量为42.48％(1166852686bp)。PacBio组装和Hi-C辅助组装后能完整比对BUSCO的基因占93.80％。

表1湖羊基因组PacBio组装Hi-C辅助组装情况

2.3湖羊基因组注释

通过TRF、Repeatmasker、Proteinmask和De novo方法进行湖羊基因组重复序列注释。去掉4种方法的重叠部分结果，重复序列大小为1459204637bp，占湖羊基因组的53.12％。

非编码RNA中注释到tRNA、rRNA、miRNA和snRNA个数分别为263901(0.7038％)、237(0.0101％)、524(0.0016％)和2045(0.0084％)。

通过MAKER软件整合De novo从头预测、homolog同源预测和转录组证据支持的结果后，在湖羊基因组中共预测到20469个编码蛋白质的基因，平均基因长度为43932.86bp，平均CDS序列长度为1483.00bp，平均每个基因外显子数目为11.86个，平均外显子长度为207.70bp，平均内含长度为4551.17bp(表2)。

表2湖羊基因组预测结果统计

借助外源蛋白数据库InterPro、GO、KEGG_ALL、KEGG_KO、SwissProt、TrEMBL和NR对湖羊基因集中的蛋白进行功能注释，共注释到20200个编码蛋白质的基因，占上述7种蛋白数据库的98.69％(表3)。使用BUSCO软件进行湖羊基因组注释评估，能完整比对BUSCO的基因有3762个，占比为91.7％。

表3湖羊基因组注释结果统计

2.4与已报道的绵羊基因组比较分析

通过Illumina、PacBio和Hi-C技术组装出了高质量染色体水平的湖羊基因组。本发明所述的湖羊基因组组装中Contigs N50为19.49Mb，ScaffoldN50为106.11Mb，相较于现有技术公开的湖羊、朗布依埃羊(Rambouillet sheep)、马可波罗羊(Marco Polo sheep)、特克赛尔羊(Texel)、雪羊(Snow sheep)以及摩弗仑羊(mouflon)，序列长度更长，质量明显提高，鉴定到的重复序列更多，基因注释的序列完整性更高，注释基因数目更加接近于绵羊的平均基因数量(表4)。另外本发明首次完成了湖羊基因组的注释。

表4各品种绵羊基因组组装和注释效果比较分析

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于三代PacBio和Hi-C技术组装和注释湖羊基因组的方法 [P] . 中国专利： CN113122642A . 2021-07-16
2. 一种基于三代PacBio和Hi-C技术组装和注释贵德黑裘皮羊基因组的方法 [P] . 中国专利： CN113005189A . 2021-06-22
3. METHOD AND SYSTEM FOR COMBINED ASSEMBLY OF SECOND GENERATION SEQUENCE AND THIRD GENERATION SEQUENCE GENOMES [P] . 世界知识产权组织专利： WO2018176474A1 . 2018-10-04

机译：第二代序列和第三代序列基因组的组合组装的方法和系统
4. METHOD AND DEVICE FOR HAPLOTYPE PHASING OF DIPLOID GENOME BASED ON THIRD GENERATION CAPTURE SEQUENCING [P] . 世界知识产权组织专利： WO2018232580A1 . 2018-12-27

机译：基于第三代捕获排序的双基因组表型配对方法和装置
5. GENOME SHUFFLING METHOD FOR AUTOGAMOUS PLANTS UTILIZING DOMINANT MALE STERILITY OBTAINED BY GENE ENGINEERING TECHNIQUE, AND RECURRENT SELECTION BREEDING SYSTEM BASED ON THE GENOME SHUFFLING METHOD [P] . 美国专利： US2014101788A1 . 2014-04-10

机译：利用基因工程技术获得优势雄性不育的自生植物的基因组重排方法及基于基因组重排方法的轮虫选择育种系统