...
【24h】

Improvement of POS tagger and kana kanji converter by an untagged corpus

机译:通过未标记的语料库改进POS标签和Kana Kanji转换器

获取原文
获取原文并翻译 | 示例
   

获取外文期刊封面封底 >>

       

摘要

A tagged corpus plays an important role in natural language processing based on a stochastic language model and increasing the corpus size improves the accuracy. It is, however, necessary for a meaningful improvement to increase a corpus size more than exponentially and an annotation cost needed for it is not negligible. In this paper, we discuss the usage of an untagged corpus. In the experiments, using an untagged corpus improved the predictive power of a stochastic language model and the accuracy of a kana-kanji converter based on it. But for a tagger the improvement was slight.
机译:标记的语料库在基于随机语言模型的自然语言处理中起着重要作用,并且增加了语料库尺寸提高了精度。 然而,有意义的改进是必要的,因为增加了语料库尺寸,而不是指数级,并且不可忽略的注释成本并不可忽略。 在本文中,我们讨论了未标记的语料库的使用情况。 在实验中,使用未标记的语料库改善了随机语言模型的预测力和基于它的Kana-Kanji转换器的准确性。 但是对于标签而言,改善很小。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号