首页> 美国卫生研究院文献>BMC Bioinformatics >Building a biomedical tokenizer using the token lattice design pattern and the adapted Viterbi algorithm
【2h】

Building a biomedical tokenizer using the token lattice design pattern and the adapted Viterbi algorithm

机译:使用令牌格设计模式和适应的Viterbi算法构建生物医学令牌生成器

代理获取
本网站仅为用户提供外文OA文献查询和代理获取服务,本网站没有原文。下单后我们将采用程序或人工为您竭诚获取高质量的原文,但由于OA文献来源多样且变更频繁,仍可能出现获取不到、文献不完整或与标题不符等情况,如果获取不到我们将提供退款服务。请知悉。

摘要

BackgroundTokenization is an important component of language processing yet there is no widely accepted tokenization method for English texts, including biomedical texts. Other than rule based techniques, tokenization in the biomedical domain has been regarded as a classification task. Biomedical classifier-based tokenizers either split or join textual objects through classification to form tokens. The idiosyncratic nature of each biomedical tokenizer’s output complicates adoption and reuse. Furthermore, biomedical tokenizers generally lack guidance on how to apply an existing tokenizer to a new domain (subdomain). We identify and complete a novel tokenizer design pattern and suggest a systematic approach to tokenizer creation. We implement a tokenizer based on our design pattern that combines regular expressions and machine learning. Our machine learning approach differs from the previous split-join classification approaches. We evaluate our approach against three other tokenizers on the task of tokenizing biomedical text.
机译:背景标记化是语言处理的重要组成部分,但是还没有广泛接受的针对英语文本(包括生物医学文本)的标记化方法。除了基于规则的技术外,生物医学领域中的标记化还被视为分类任务。基于生物医学分类器的令牌生成器通过分类将文本对象拆分或合并以形成令牌。每个生物医学令牌生成器输出的特质都使采用和重用变得复杂。此外,生物医学令牌生成器通常缺乏有关如何将现有令牌生成器应用于新域(子域)的指南。我们确定并完成了一种新颖的令牌生成器设计模式,并提出了一种系统的令牌生成器创建方法。我们基于结合正则表达式和机器学习的设计模式实现标记器。我们的机器学习方法与以前的拆分联接分类方法不同。我们在标记生物医学文本的任务上,与其他三个标记器一起评估了我们的方法。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号