摘要:
金钱松是中国特有的孑遗单种属裸子植物,现存的自然种群数量很少,多被引种栽培,也是著名的庭院观赏树种.迄今为止,其遗传背景和基因组信息并不清楚,对于金钱松的保护及其遗传结构研究迫切需要基因组资源.采用Illumina HiSeqTM 2500高通量测序平台对金钱松叶片进行转录组测序,经de novo组装共获得70761条Unigene,平均长度为699 bp,N50的长度为1300 bp,Q20和Q30序列分别占96.59%和91.29%.通过对7个不同的蛋白质和功能域数据库进行比对和功能注释,有43674条Unigene(61.72%)注释成功.在GO数据库中,有28355条Unigene按功能被划分成3大类56个小类,以执行生物过程的类区所占比例最多.通过KEGG pathway分析,有14623条Unigene注释成功,发现了显著性富集的32条代谢通路,以代谢相关的基因最多.在KOG数据库中,有15931条Unigene被分配到26个基因功能大类中,其中以参与一般功能、转录、翻译、修饰及蛋白运输的基因最为丰富.此外,利用MISA软件对转录组序列进行EST-SSR位点搜索与分析,共检测到2260条Unigene含有2462个EST-SSR位点,分布频率为3.48%,其中有180条序列含有一个以上EST-SSR位点,83条序列含有复合EST-SSR位点,以三核苷酸重复基元类型最为丰富,占42.53%(1047个EST-SSR),重复次数主要以5~8次为主.这些重要的转录组序列为进一步了解金钱松生物学过程的分子机制提供了有价值的信息,并为未来的功能基因组分析、分子标记开发和群体遗传学分析提供了丰富的资源.