...
【24h】

Improvement of POS tagger and kana kanji converter by an untagged corpus

机译:无标签语料库对POS标记器和假名汉字转换器的改进

获取原文
获取原文并翻译 | 示例
   

获取外文期刊封面封底 >>

       

摘要

A tagged corpus plays an important role in natural language processing based on a stochastic language model and increasing the corpus size improves the accuracy. It is, however, necessary for a meaningful improvement to increase a corpus size more than exponentially and an annotation cost needed for it is not negligible. In this paper, we discuss the usage of an untagged corpus. In the experiments, using an untagged corpus improved the predictive power of a stochastic language model and the accuracy of a kana-kanji converter based on it. But for a tagger the improvement was slight.
机译:带标签的语料库在基于随机语言模型的自然语言处理中起着重要的作用,并且增加语料库的大小可以提高准确性。但是,有意义的改进有必要使语料库的大小增加到指数级以上,并且所需的注释成本不可忽略。在本文中,我们讨论了未标记语料库的用法。在实验中,使用未标记的语料库提高了随机语言模型的预测能力以及基于该模型的假名-汉字转换器的准确性。但是对于标记器来说,改进很小。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号