首页> 美国卫生研究院文献>Bioinformatics >A novel methodology on distributed representations of proteins using their interacting ligands
【2h】

A novel methodology on distributed representations of proteins using their interacting ligands

机译:利用蛋白质的相互作用配体对蛋白质进行分布式表征的新方法

代理获取
本网站仅为用户提供外文OA文献查询和代理获取服务,本网站没有原文。下单后我们将采用程序或人工为您竭诚获取高质量的原文,但由于OA文献来源多样且变更频繁,仍可能出现获取不到、文献不完整或与标题不符等情况,如果获取不到我们将提供退款服务。请知悉。

摘要

MotivationThe effective representation of proteins is a crucial task that directly affects the performance of many bioinformatics problems. Related proteins usually bind to similar ligands. Chemical characteristics of ligands are known to capture the functional and mechanistic properties of proteins suggesting that a ligand-based approach can be utilized in protein representation. In this study, we propose SMILESVec, a Simplified molecular input line entry system (SMILES)-based method to represent ligands and a novel method to compute similarity of proteins by describing them based on their ligands. The proteins are defined utilizing the word-embeddings of the SMILES strings of their ligands. The performance of the proposed protein description method is evaluated in protein clustering task using TransClust and MCL algorithms. Two other protein representation methods that utilize protein sequence, Basic local alignment tool and ProtVec, and two compound fingerprint-based protein representation methods are compared.
机译:动机有效表达蛋白质是一项至关重要的任务,它直接影响许多生物信息学问题的表现。相关蛋白通常结合相似的配体。已知配体的化学特征捕获蛋白质的功能和机理特性,表明基于配体的方法可用于蛋白质表示。在这项研究中,我们提出了SMILESVec,一种基于简化分子输入线输入系统(SMILES)的方法来表示配体,并且提出了一种通过基于配体描述蛋白质来计算蛋白质相似度的新方法。利用它们的配体的SMILES字符串的词嵌入来定义蛋白质。使用TransClust和MCL算法在蛋白质聚类任务中评估了提出的蛋白质描述方法的性能。比较了使用蛋白质序列的其他两种蛋白质表示方法,基本局部比对工具和ProtVec,以及两种基于指纹的复合蛋白质表示方法。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号