首页> 美国卫生研究院文献>other >Identifying Plant Pentatricopeptide Repeat Coding Gene/Protein Using Mixed Feature Extraction Methods
【2h】

Identifying Plant Pentatricopeptide Repeat Coding Gene/Protein Using Mixed Feature Extraction Methods

机译:使用混合特征提取方法鉴定植物五肽重复编码基因/蛋白质

代理获取
本网站仅为用户提供外文OA文献查询和代理获取服务,本网站没有原文。下单后我们将采用程序或人工为您竭诚获取高质量的原文,但由于OA文献来源多样且变更频繁,仍可能出现获取不到、文献不完整或与标题不符等情况,如果获取不到我们将提供退款服务。请知悉。

摘要

>Motivation: Pentatricopeptide repeat (PPR) is a triangular pentapeptide repeat domain that plays a vital role in plant growth. In this study, we seek to identify PPR coding genes and proteins using a mixture of feature extraction methods. We use four single feature extraction methods focusing on the sequence, physical, and chemical properties as well as the amino acid composition, and mix the features. The Max-Relevant-Max-Distance (MRMD) technique is applied to reduce the feature dimension. Classification uses the random forest, J48, and naïve Bayes with 10-fold cross-validation.>Results: Combining two of the feature extraction methods with the random forest classifier produces the highest area under the curve of 0.9848. Using MRMD to reduce the dimension improves this metric for J48 and naïve Bayes, but has little effect on the random forest results.>Availability and Implementation: The webserver is available at: .
机译:>动机:五肽重复序列(PPR)是一个三角形的五肽重复域,在植物生长中起着至关重要的作用。在这项研究中,我们试图使用特征提取方法的混合物来识别PPR编码基因和蛋白质。我们使用四种单特征提取方法,重点关注序列,物理和化学性质以及氨基酸组成,并混合特征。最大相关最大距离(MRMD)技术用于减小特征尺寸。分类使用具有10倍交叉验证的随机森林,J48和朴素贝叶斯。>结果:将两种特征提取方法与随机森林分类器结合使用可在0.9848曲线下产生最大面积。使用MRMD减小尺寸可以改善J48和朴素贝叶斯的度量标准,但对随机森林结果几乎没有影响。>可用性和实现:该Web服务器位于:。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号