首页> 中文期刊> 《通信学报》 >高错误率长序列基因组数据敏感序列识别并行算法

高错误率长序列基因组数据敏感序列识别并行算法

         

摘要

为解决现有算法难以有效识别高错误率长序列基因组数据中敏感序列的问题,提出一种CPU和GPU协同计算识别的并行算法CGPU-F3SR。该算法通过将基因组数据中的长序列分割为多条短序列,引入布隆过滤机制,以免对分割短序列重复计算;采用k-mer编码策略并行地提取所有短序列中的错误信息,并提出改进的序列相似度计算模型,以提高识别准确率;采取CPU和GPU协同并行加速短序列相似度计算,以提升识别效率;进而高效、准确地识别出高错误率长序列基因组数据中的2类敏感序列——短串联重复序列和疾病相关序列。在长度为100~400 kbp的长序列基因组数据中敏感序列识别的实验结果表明,与其他同类并行算法相比,所提CPU/GPU并行算法CGPU-F3SR识别准确率和查准率分别平均提升7.77%和43.07%,假阳性率平均降低7.41%,识别吞吐量平均提高2.44倍。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号