首页> 外文会议>International Conference on Similarity Search and Applications >Scalable Similarity Search for Molecular Descriptors
【24h】

Scalable Similarity Search for Molecular Descriptors

机译:可扩展的相似性搜索分子描述符

获取原文

摘要

Similarity search over chemical compound databases is a fundamental task in the discovery and design of novel drug-like molecules. Such databases often encode molecules as non-negative integer vectors, called molecular descriptors, which represent rich information on various molecular properties. While there exist efficient indexing structures for searching databases of binary vectors, solutions for more general integer vectors are in their infancy. In this paper we present a time- and space-efficient index for the problem that we call the succinct intervals-splitting tree algorithm for molecular descriptors (SITAd). Our approach extends efficient methods for binary-vector databases, and uses ideas from succinct data structures. Our experiments, on a large database of over 40 million compounds, show SITAd significantly outperforms alternative approaches in practice.
机译:相似性搜索化学复合数据库是在发现和设计新型药物状分子的基本任务中。这些数据库通常编码分子作为非负整数载体,称为分子描述符,其代表有关各种分子特性的丰富信息。虽然存在用于搜索二进制向量数据库的有效索引结构,但是更通用整数向量的解决方案在其初期阶段。在本文中,我们为我们称之为分子描述符(Sitad)调用的问题的时间和空间有效的索引。我们的方法扩展了二进制矢量数据库的有效方法,并使用来自简洁数据结构的想法。我们的实验,在一个超过4000万化合物的大型数据库,表现出锡塔达德在实践中显着优于替代方法。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号