首页> 外文会议>International conference on computational linguistics >Unsupervised Word Segmentation in Context
【24h】

Unsupervised Word Segmentation in Context

机译:上下文中的无监督分词

获取原文

摘要

This paper extends existing word segmentation models to take non-linguistic context into account. It improves the token F-score of a top performing segmentation models by 2.5% on a 27k utterances dataset. We posit that word segmentation is easier in-context because the learner is not trying to access irrelevant lexical items. We use topics from a Latent Dirichlet Allocation model as a proxy for "activities" contexts, to label the Providence corpus. We present Adaptor Grammar models that use these context labels, and we study their performance with and without context annotations at test time.
机译:本文扩展了现有的分词模型,以考虑非语言环境。在27k话语数据集上,它将性能最佳的细分模型的令牌F分数提高了2.5%。我们认为,分词在上下文中更容易,因为学习者不会尝试访问不相关的词汇项。我们使用潜在Dirichlet分配模型中的主题作为“活动”上下文的代理,以标记Providence语料库。我们介绍使用这些上下文标签的Adapter Grammar模型,并在测试时研究带有或不带有上下文注释的适配器的性能。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号