首页> 外文期刊>Revista EIA >DETECCIóN DE HOMóLOGOS REMOTOS USANDO PROPIEDADES FISICOQUíMICAS↓DETEC??O DE HOMóLOGOS REMOTOS USANDO PROPRIEDADES FISICOQUíMICAS
【24h】

DETECCIóN DE HOMóLOGOS REMOTOS USANDO PROPIEDADES FISICOQUíMICAS↓DETEC??O DE HOMóLOGOS REMOTOS USANDO PROPRIEDADES FISICOQUíMICAS

机译:用理化性质检测远程同系物↓用理化性质检测远程同系物

获取原文
           

摘要

En este artículo se presenta un nuevo método para la detección de homólogos remotos en proteínas llamado CDA (Análisis de Distribución Característica). El método utiliza distribuciones de las propiedades fisicoquímicas de los aminoácidos para cada proteína. Dada una familia SCOP se calcula su correspondiente distribución característica promediando los valores de las distribuciones para las proteínas que la componen. La hipótesis en está investigación es que cada familia F tiene una distribución característica que permite diferenciar las secuencias del resto de las proteínas en el conjunto de datos. Debido a que existen muchas propiedades, alrededor de 554 en el AAindex, se seleccionó un conjunto de 72 índices para crear las distribuciones. Cada distribución característica se usa como un clasificador de familias SCOP. Por último, se utiliza una clasificador Bayesiano para combinar la información de los clasificadores individuales creados a partir de las distribuciones para llegar a una mejor decisión. Encontramos que cada familia tiene un conjunto de propiedades físicoquímicas que permiten una mejor discriminación de sus secuencias. El método CDA alcanza una tasa de Aciertos Positivos (TP) de 0,793, una tasa de Falsos Positivos (FP) de 0,005 y un puntaje ROC de 0,918. El método propuesto mejora la exactitud de algunas de las estrategias existentes tales como SVM-PCD y SVM-RQA.↓Neste artigo apresenta-se um novo método para a detec??o de homólogos remotos em proteínas chamado CDA (Análises de Distribui??o Característica). O método utiliza distribui??es das propriedades fisicoquímicas dos aminoácidos. Dada uma família SCOP calcula-se sua correspondente distribui??o característica promediando os valores das distribui??es para as proteínas que a comp?em. A hipótese nesta investiga??o é que cada família F tem uma distribui??o característica que permite diferenciar as sequências em F do resto de proteínas. Ao existir muitas propriedades, ao redor de 554 no AAindex, selecionou-se um conjunto de 72 índices para criar as distribui??es. Cada distribui??o característica usa-se como um classificador de famílias SCOP. Por último, utiliza-se um classificador Bayesiano para combinar a informa??o dos classificadores individuais criados a partir das distribui??es. O método CDA atinge uma taxa de acertos positivos de 0,793, uma taxa de falsos positivos de 0,005 e uma pontua??o ROC de 0,918. O método proposto melhora a exatid?o de algumas das estratégias existentes tais como SVM-PCD e SVM-RQA.
机译:本文提出了一种检测蛋白质中远程同源物的新方法,称为CDA(特征分布分析)。该方法使用每种蛋白质的氨基酸物理化学特性分布。给定一个SCOP家族,通过平均组成它的蛋白质的分布值来计算其对应的特征分布。这项研究的假设是,每个F族都有一个特征分布,可以将序列与数据集中的其余蛋白质区分开。因为有许多属性,AA索引中大约有554个,所以选择了一组72个索引来创建分布。每个特征分布都用作SCOP系列分类器。最后,使用贝叶斯分类器来组合来自分布创建的各个分类器的信息,以得出更好的决策。我们发现每个家族都有一套理化特性,可以更好地区分其序列。 CDA方法可实现0.793的正面命中率(TP),0.005的虚假率(FP)和0.918的ROC得分。 ↓本文提出了一种用于检测蛋白质中远程同源物的新方法,称为CDA(分布分析? o特征)。或方法采用分布的两种氨基酸的理化性质。给定一个家族,SCOP通过平均组成蛋白质的分布值来计算其相应的特征分布。在这项研究中假设每个F家族都有一个分布式特征,可以区分其余蛋白质的F序列。由于存在许多属性,大约554没有AAindex,因此我们选择了一组72个索引来创建此分布。每个功能分布都用作SCOP系列分类器。最后,使用贝叶斯分类器将来自分布式日的两个单独的分类器非正式地组合在一起。 CDA方法获得的阳性分类单元为0.793,错误肯定的分类单元为0.005,桥体或ROC为0.918。或基于一些现有策略(例如SVM-PCD和SVM-RQA)提出的方法。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号