首页> 美国卫生研究院文献>AMIA Annual Symposium Proceedings >Identifying Discourse Connectives in Biomedical Text
【2h】

Identifying Discourse Connectives in Biomedical Text

机译:在生物医学文本中识别话语连接词

代理获取
本网站仅为用户提供外文OA文献查询和代理获取服务,本网站没有原文。下单后我们将采用程序或人工为您竭诚获取高质量的原文,但由于OA文献来源多样且变更频繁,仍可能出现获取不到、文献不完整或与标题不符等情况,如果获取不到我们将提供退款服务。请知悉。

摘要

Discourse connectives are words or phrases that connect or relate two coherent sentences or phrases and indicate the presence of discourse relations. Automatic recognition of discourse connectives may benefit many natural language processing applications. In this pilot study, we report the development of the supervised machine-learning classifiers with conditional random fields (CRFs) for automatically identifying discourse connectives in full-text biomedical articles. Our first classifier was trained on the open-domain 1 million token Penn Discourse Tree Bank (PDTB). We performed cross validation on biomedical articles (approximately 100K word tokens) that we annotated. The results show that the classifier trained on PDTB data attained a 0.55 F1-score for identifying discourse connectives in biomedical text, while the cross-validation results in the biomedical text attained a 0.69 F1-score, a much better performance despite a much smaller training size. Our preliminary analysis suggests the existence of domain-specific features, and we speculate that domain-adaption approaches may further improve performance.
机译:话语连接词是将两个连贯的句子或短语联系起来或关联起来的词或短语,表示话语关系的存在。话语连接词的自动识别可能会使许多自然语言处理应用受益。在这项初步研究中,我们报告了带有条件随机字段(CRF)的受监督机器学习分类器的发展,该分类器用于自动识别全文生物医学文章中的语篇连接词。我们的第一个分类器接受了开放域100万令牌Penn话语树库(PDTB)的培训。我们对带有注释的生物医学文章(约10万个单词标记)进行了交叉验证。结果表明,在PDTB数据上训练的分类器在生物医学文本中识别话语连接词时获得0.55 F1分数,而在生物医学文本中的交叉验证结果在0.69 F1分数下,尽管训练量小得多,但性能却好得多尺寸。我们的初步分析表明存在领域特定功能,并且我们推测领域自适应方法可能会进一步提高性能。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号