【24h】

Data Mining of Pancreatic Cancer Protein Databases

机译:胰腺癌蛋白质数据库的数据挖掘

获取原文

摘要

Data mining of protein databases poses special challenges because many protein databases are non-relational whereas most data mining and machine learning algorithms assume the input data to be a type of relational database that is also representable as an ARFF file. We developed a method to restructure protein databases so that they become amenable for various data mining and machine learning tools. Our restructuring method enabled us to apply both decision tree and support vector machine classifiers to a pancreatic protein database. The SVM classifier that used both GO term and PFAM families to characterize proteins gave us over 73% accuracy in predicting whether a protein is involved in pancreatic cancer.
机译:蛋白质数据库的数据挖掘构成了特殊挑战,因为许多蛋白质数据库是非关系,而大多数数据挖掘和机器学习算法假设输入数据是一种类型的关系数据库,也可以作为ARFF文件表示。我们开发了一种重构蛋白质数据库的方法,以便它们对各种数据挖掘和机器学习工具进行适用。我们的重组方法使我们能够应用两个决策树并支持向胰蛋白质数据库的向量机分类器。使用术语和PFAM系列表征蛋白质的SVM分类器使我们在预测蛋白质涉及胰腺癌是否参与其中超过73%的精度。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号