首页> 美国卫生研究院文献>AMIA Annual Symposium Proceedings >Variable-length Positional Modeling for Biological Sequence Classification
【2h】

Variable-length Positional Modeling for Biological Sequence Classification

机译:用于生物序列分类的变长位置建模

代理获取
本网站仅为用户提供外文OA文献查询和代理获取服务,本网站没有原文。下单后我们将采用程序或人工为您竭诚获取高质量的原文,但由于OA文献来源多样且变更频繁,仍可能出现获取不到、文献不完整或与标题不符等情况,如果获取不到我们将提供退款服务。请知悉。

摘要

Selecting the most informative features in supervised biological classification problems is a decisive preprocessing step for two main reasons: (1) to deal with the dimensionality reduction problem, and (2) to ascribe biological meaning to the underlying feature interactions. This paper presents a filter-based feature selection method that is suitable for positional modeling of biological sequences. The basic motivation is the problem of using a positional model of fixed length that sub-optimally describes biological sequences in a specific classification problem. The core filtering criterion is the F-score and the source features are the positional probabilities describing variable-length interactions among residues. The proposed method was evaluated on human splice sites classification using a linear SVM classifier. The method yields to superior classification accuracy compared to the individual positional models, while it maintains the space complexity of the individual models, in a time-efficient way and independently of the classifier.
机译:在受监督的生物分类问题中选择信息最丰富的特征是决定性的预处理步骤,其主要有两个原因:(1)处理降维问题,(2)将生物学意义归因于潜在的特征相互作用。本文提出了一种基于过滤器的特征选择方法,适用于生物序列的位置建模。基本动机是使用固定长度的位置模型的问题,该模型不能最佳地描述特定分类问题中的生物序列。核心过滤标准是F分数,源特征是描述残基之间可变长度相互作用的位置概率。使用线性SVM分类器对人剪接位点分类对提出的方法进行了评估。与单个位置模型相比,该方法具有更高的分类精度,同时它以省时的方式且独立于分类器,从而保持了单个模型的空间复杂性。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号