首页> 外文学位 >An entity resolution framework for deduplicating proteins.
【24h】

An entity resolution framework for deduplicating proteins.

机译:用于重复数据消除蛋白质的实体解析框架。

获取原文
获取原文并翻译 | 示例

摘要

This thesis describes the design and implementation of a new framework PERF for deduplicating protein mentions using of a wide range of protein attributes. A mention refers to any recorded information about a protein, whether it is derived from a database, a high-throughput study, or literature text mining, among others. This framework is easily extendable to the deduplication of protein-protein interactions (PPIs). PERF translates mentions into instances of a Framework XML schema to facilitate mention comparisons. This framework also uses "virtual attribute dependencies" to "enhance" mentions with additional attribute values. PERF computes a likelihood measure based upon the textual similarity of mention attributes, and the overlap between protein classes implied by each mention's non-sequence attributes. A prototype of the framework was implemented, and preliminary tests indicate that the framework can clearly separate duplicate mentions from non-duplicate mentions.
机译:本文介绍了一种新的框架PERF的设计和实现,该框架用于使用多种蛋白质属性对蛋白质进行重复数据删除。提及是指有关蛋白质的任何已记录信息,无论其是来自数据库,高通量研究还是文献文本挖掘等。该框架很容易扩展到蛋白质-蛋白质相互作用(PPI)的重复数据删除。 PERF将提及翻译成Framework XML模式的实例,以促进提及比较。该框架还使用“虚拟属性依赖项”来“增强”带有附加属性值的提及。 PERF基于提及属性的文本相似性以及每个提及的非序列属性所隐含的蛋白质类别之间的重叠来计算可能性度量。该框架的原型已实现,初步测试表明该框架可以清楚地将重复提及与非重复提及区分开。

著录项

  • 作者

    Lochovsky, Lucas.;

  • 作者单位

    University of Toronto (Canada).;

  • 授予单位 University of Toronto (Canada).;
  • 学科 Biology Bioinformatics.; Computer Science.
  • 学位 M.Sc.
  • 年度 2008
  • 页码 120 p.
  • 总页数 120
  • 原文格式 PDF
  • 正文语种 eng
  • 中图分类 自动化技术、计算机技术;
  • 关键词

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号