En este artículo se presenta un nuevo método para la detección de homólogos remotos en proteínas llamado CDA (Análisis de Distribución Característica). El método utiliza distribuciones de las propiedades fisicoquímicas de los aminoácidos para cada proteína. Dada una familia SCOP se calcula su correspondiente distribución característica promediando los valores de las distribuciones para las proteínas que la componen. La hipótesis en está investigación es que cada familia F tiene una distribución característica que permite diferenciar las secuencias del resto de las proteínas en el conjunto de datos. Debido a que existen muchas propiedades, alrededor de 554 en el AAindex, se seleccionó un conjunto de 72 índices para crear las distribuciones. Cada distribución característica se usa como un clasificador de familias SCOP. Por último, se utiliza una clasificador Bayesiano para combinar la información de los clasificadores individuales creados a partir de las distribuciones para llegar a una mejor decisión. Encontramos que cada familia tiene un conjunto de propiedades físicoquímicas que permiten una mejor discriminación de sus secuencias. El método CDA alcanza una tasa de Aciertos Positivos (TP) de 0,793, una tasa de Falsos Positivos (FP) de 0,005 y un puntaje ROC de 0,918. El método propuesto mejora la exactitud de algunas de las estrategias existentes tales como SVM-PCD y SVM-RQA.↓Neste artigo apresenta-se um novo método para a detec??o de homólogos remotos em proteínas chamado CDA (Análises de Distribui??o Característica). O método utiliza distribui??es das propriedades fisicoquímicas dos aminoácidos. Dada uma família SCOP calcula-se sua correspondente distribui??o característica promediando os valores das distribui??es para as proteínas que a comp?em. A hipótese nesta investiga??o é que cada família F tem uma distribui??o característica que permite diferenciar as sequências em F do resto de proteínas. Ao existir muitas propriedades, ao redor de 554 no AAindex, selecionou-se um conjunto de 72 índices para criar as distribui??es. Cada distribui??o característica usa-se como um classificador de famílias SCOP. Por último, utiliza-se um classificador Bayesiano para combinar a informa??o dos classificadores individuais criados a partir das distribui??es. O método CDA atinge uma taxa de acertos positivos de 0,793, uma taxa de falsos positivos de 0,005 e uma pontua??o ROC de 0,918. O método proposto melhora a exatid?o de algumas das estratégias existentes tais como SVM-PCD e SVM-RQA.
展开▼