首页> 外文会议>Eighth Pacific Symposium on Biocomputing (PSB), Jan 3-7, 2003, Kauai, Hawaii >PLAYING BIOLOGY'S NAME GAME: IDENTIFYING PROTEIN NAMES IN SCIENTIFIC TEXT
【24h】

PLAYING BIOLOGY'S NAME GAME: IDENTIFYING PROTEIN NAMES IN SCIENTIFIC TEXT

机译:玩生物的名称游戏:在科学文本中识别蛋白质名称

获取原文
获取原文并翻译 | 示例

摘要

A growing body of work is devoted to the extraction of protein or gene interaction information from the scientific literature. Yet, the basis for most extraction algorithms, i.e. the specific and sensitive recognition of protein and gene names and their numerous synonyms, has not been adequately addressed. Here we describe the construction of a comprehensive general purpose name dictionary and an accompanying automatic curation procedure based on a simple token model of protein names. We designed an efficient search algorithm to analyze all abstracts in MEDLINE in a reasonable amount of time on standard computers. The parameters of our method are optimized using machine learning techniques. Used in conjunction, these ingredients lead to good search performance.
机译:越来越多的工作致力于从科学文献中提取蛋白质或基因相互作用信息。然而,大多数提取算法的基础,即对蛋白质和基因名称及其众多同义词的特异性和灵敏识别,尚未得到充分解决。在这里,我们描述了基于蛋白质名称的简单标记模型的综合通用名称词典的构建以及随附的自动管理程序。我们设计了一种有效的搜索算法,可以在合理的时间内在标准计算机上分析MEDLINE中的所有摘要。我们的方法的参数使用机器学习技术进行了优化。这些成分结合使用可带来良好的搜索性能。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号