首页> 外文会议>Annual meeting of the Association for Computational Linguistics >Improving Chinese Word Segmentation on Micro-blog Using Rich Punctuations
【24h】

Improving Chinese Word Segmentation on Micro-blog Using Rich Punctuations

机译:使用丰富的标点符号改善微博上的中文分词

获取原文

摘要

Micro-blog is a new kind of medium which is short and informal. While no segmented corpus of micro-blogs is available to train Chinese word segmentation model, existing Chinese word segmentation tools cannot perform equally well as in ordinary news texts. In this paper we present an effective yet simple approach to Chinese word segmentation of micro-blog. In our approach, we incorporate punctuation information of unlabeled micro-blog data by introducing characters behind or ahead of punctuations, for they indicate the beginning or end of words. Meanwhile a self-training framework to incorporate confident instances is also used, which prove to be helpful. Experiments on micro-blog data show that our approach improves performance, especially in OOV-recall.
机译:微博客是一种简短而非正式的新型媒介。尽管没有分段的微博客语料可用于训练中文分词模型,但是现有的中文分词工具的性能无法与普通新闻文本一样好。在本文中,我们提出了一种有效而简单的微博客中文分词方法。在我们的方法中,我们通过在标点符号的后面或前面引入字符来合并未标记的微博客数据的标点符号信息,因为它们指示单词的开头或结尾。同时,还使用了一个包含自信实例的自我训练框架,这被证明是有帮助的。对微博客数据进行的实验表明,我们的方法可以改善性能,尤其是在OOV调用中。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号