首页> 外文期刊>Information Systems >Indexing schemes for similarity search in datasets of short protein fragments
【24h】

Indexing schemes for similarity search in datasets of short protein fragments

机译:短蛋白质片段数据集中相似性检索的索引方案

获取原文
获取原文并翻译 | 示例
           

摘要

We propose a family of very efficient hierarchical indexing schemes for ungapped, score matrix-based similarity search in large datasets of short (4-12 amino acid) protein fragments. This type of similarity search has importance in both providing a building block to more complex algorithms and for possible use in direct biological investigations where datasets are of the order of 60 million objects. Our scheme is based on the internal geometry of the amino acid alphabet and performs exceptionally well, for example outputting 100 nearest neighbours to any possible fragment of length 10 after scanning on average less than 1 % of the entire dataset.
机译:我们提出了一个非常有效的层次索引方案,用于在短(4-12个氨基酸)蛋白质片段的大型数据集中进行基于空位,基于评分矩阵的相似性搜索。这种类型的相似性搜索在为更复杂的算法提供构建模块以及在可能将其用于数据集约为6000万个对象的直接生物学研究中可能使用时都非常重要。我们的方案基于氨基酸字母的内部几何结构,并且表现出色,例如,在平均扫描少于整个数据集的1%之后,将100个最近的邻居输出到长度为10的任何可能片段。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号