首页> 中国专利> 一种SSR分子标记冗余性的生物信息学分析方法

一种SSR分子标记冗余性的生物信息学分析方法

摘要

本发明公开了一种SSR分子标记冗余性的生物信息学分析方法,包括以下步骤:A1,下载公共数据库中的相关SSR分子标记或者自己开发的SSR分子标记;A2,对所述SSR分子标记进行预处理,转化成FASTA格式;A3,把处理好的FASTA文件备份一个文件,后缀名为“.bk”,使用该备份文件作为输入,对各个物种的SSR分子标记分别比对,查询相似性序列;A4,从A3得到的结果中按照相似匹配分值不低于81%;同时没有gap;来过滤一对引物,然后提取相似引物编号;A5,把所有相似引物写入一行,输出最终结果文件out.list。同一研究者开发时间不同造成在同一物种中开发的SSR分子标记存在有冗余,利用本发明的方法可以达到去冗余的目的。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2015-02-18

    未缴年费专利权终止 IPC(主分类):G06F19/16 授权公告日:20130612 终止日期:20131223 申请日:20101223

    专利权的终止

  • 2013-06-12

    授权

    授权

  • 2013-01-09

    著录事项变更 IPC(主分类):G06F19/16 变更前: 变更后: 申请日:20101223

    著录事项变更

  • 2011-09-28

    实质审查的生效 IPC(主分类):G06F19/16 申请日:20101223

    实质审查的生效

  • 2011-08-17

    公开

    公开

说明书

技术领域

本发明涉及分子生物技术领域和计算机技术领域,尤其涉及一种SSR分子标记冗余性的生物信息学分析方法。

背景技术

SSR(Simple Sequence Repeat)作为重要的分子标记已经广泛应用于遗传图谱加密、基因定位、基因发掘、遗传多样性分析和分子标记辅助选择育种等研究方面。不同研究者由于不同的研究目的,从公共数据库中的序列和自有序列中开发的SSR标记可能存在冗余性,这样大大增加了研究的工作量。

为了减少研究的重复性,降低经济成本,需要有相关工具去发掘冗余引物。目前,有一些软件可以分析序列的冗余性,比如BLASTclust(BLAST包,http://blast.ncbi.nlm.nih.gov/Blast.cgi?CMD=Web&PAGE_TYPE=BlastDocs&DOC TYPE=Download)、CD-HIT(http://www.bioinformatics.org/project/filelist.php?group_id=350)和seqmatchall(EMBOSS包,http://emboss.sourceforge.net/)。这些程序只能分析一对引物的正向或反向引物,不能同时分析一对引物是否冗余,而seqmatchall不能分析序列的反向互补序列,所以没有合适的软件分析一对引物的冗余性。

对SSR研究热度现在处于上升趋势,对SSR标记中的冗余性分析也势在必行,目前没有相关程序分析SSR分析标记。

发明内容

针对以上问题开发了SSR分子标记冗余性大规模分析的方法,方便研究者充分利用网络资源,同时提高研究者的工作效率,为进一步生物学研究奠定基础。具体是本发明提供一种SSR分子标记冗余性的生物信息学分析方法。

一种SSR分子标记冗余性的生物信息学分析方法,包括以下步骤:

A1,下载公共数据库中的相关SSR分子标记或者自己开发的SSR分子标记;

A2,对脚本进行预处理,转化成FASTA格式;

A3,把处理好的FASTA文件备份一个文件,后缀名为“.bk”,使用该备份文件作为输入,对各个物种的SSR分子标记分别比对,查询相似性序列;

A4,从A3得到的结果中按照相似匹配分值不低于81%同时没有gap过滤一对引物,然后提取相似引物编号;

A5,把所有相似引物写入一行,输出最终结果文件out.list。

所述的生物信息学分析方法,步骤A4利用extr_ps2.pl脚本从A3得到的结果中按照相似匹配分值不低于81%同时没有gap过滤一对引物,然后提取相似引物编号;匹配分值计算公式如下:

S=al×100+(m×(-3))

S:匹配分值;a:查询序列和目标序列匹配上的序列长度(bp);l:目标序列长度(bp);m:错配个数。

SSR分子标记已经在水稻、小麦、玉米、玫瑰、棉花、金针菇、橡胶树、柳树和豇豆等物种上被大量开发并得到广泛应用。但是由于不同研究者开发标准不同,同一研究者开发时间不同造成在同一物种中开发的SSR分子标记存在有冗余,利用本发明的方法可以达到去冗余的目的。

附图说明

图1:SSR分子标记冗余性分析方法流程图;

图2:两种冗余引物。A:正式匹配;B:反式匹配。

具体实施方式

以下结合具体实施例,对本发明进行详细说明。

为了解决SSR分子标记的冗余性,利用生物信息学方法,开发了一种SSR分子标记冗余性的生物信息学分析方法,具体做法如下(见图1):

1、下载公共数据库中的相关SSR分子标记或者自己开发的SSR分子标记,格式为“ID forword_primer reverse_prmer”;

2、利用pre_fasta2.pl脚本,该脚本用来对所述SSR分子标记或者自己开发的SSR分子标记进行预处理,转化成FASTA格式,生成的文件格式如下:

>BNL1047_f_20

GCTTGTCATCTCCATTGCTG

>BNL1047_r_20

TAGCCCGGTTCATGTTCTTC

一对引物分成正向和反向,其中f表示正向,r表示反向,后面的数值表示该引物序列的长度。具体原理是:

读取文件的每行$$1为引物编号,$2为正向引物,同时计算其长度$lf,$3为正向引物同时计算其长度$lr,然后按照上面的格式输出。

3、把处理好的FASTA文件备份一个文件,后缀名为“.bk”,作为输入文件(-iprimer.fasta.bk),原文件作为数据库文件(-dprimer.fasta)。利用BLAST(2.2.24-win版)软件(ftp://ftp.ncbi.nih.gov/blast/executables/blast+/2.2.24/)对各个物种的SSR分子标记分别比对,查询相似性序列。所用的主要参数为:-p blastn-a 2-F F-m 8。

4、利用extr_ps2.pl脚本,该脚本功能是从得到的结果中按照相似匹配分值不低于81%,同时没有gap,来过滤一对引物,然后提取相似引物编号。匹配分值计算公式如下:

S=al×100+(m×(-3))

S:匹配分值;a:查询序列和目标序列匹配上的序列长度(bp);l:目标序列长度(bp);m:错配个数。

相似引物有两种情况。一种是正式匹配即一对引物和另外一对引物正向序列匹配、反向序列匹配(图2A),另一种反式匹配就是一对引物的正向和另外一对引物的反向序列匹配(图2B)。利用该脚本把这两种情况提取出来得到冗余引物,但是由于在该结果中存在有编号相同但顺序相反的情况,比如:

BNL1047    BNL1061

BNL1061    BNL1047

为了解决这种问题,我们利用哈希表得到没有重复行的结果文件“renum.2”。

5、利用redu_num.pl脚本,该脚本功能是把所有相似引物写入一行,输出最终结果文件out.list。

在上一步得到的renum.2结果文件中,存在交叉重复,比如:

BNL3512    BNL4060

BNL3512    BNL3547

BNL3547    BNL4060

上面显示结果表面BNL3512、BNL4060和BNL3547是相似序列,为了更好的处理这种重复,我们利用该脚本定义哈希表同时进行排序,最后实现相似引物写入一行的功能。

利用该方法(流程图见图1),分析了棉花、大豆、水稻和玉米的SSR分子标记。棉花、大豆、水稻和玉米的SSR分子标记分别从CMD(http://www.cottonmarker.org)、Soybase(http://soybase.org/MarkerDB/index.php)、GRAMENE(http://www.gramene.org/markers/microsat/)和MaizeGDB(http://www.maizegdb.org/sequence.php)下载,数量分别为11938对、1015对、18800对和2047对。我们利用该套脚本程序分析SSR冗余标记,在棉花、大豆、水稻和玉米中分别有494(4.14%)、0(0.00%)、2338(12.36%)和30(1.45%)对冗余标记(表1)。所有的冗余SSR引物中棉花、玉米和水稻的正式与反式匹配数分别是170/119、11/4和3640/2414(表2)。

表1:SSR标记冗余性分布

表2:SSR引物对冗余性类型

冗余标记的发掘可以在进行SSR标记研究时去除,减少研究者的工作量和合成成本。

SSR分子标记已经在水稻、小麦、玉米、玫瑰、棉花、金针菇、橡胶树、柳树和豇豆等物种上被大量开发并得到广泛应用。但是由于不同研究者开发标准不同,同一研究者开发时间不同造成在同一物种中开发的SSR分子标记存在有冗余,利用本发明的方法可以达到去冗余的目的。

应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号