【24h】

On certain aspects of Kazakh part-of-speech tagging

机译:关于哈萨克州术语标签的某些方面

获取原文

摘要

We compare and discuss various approaches to the problem of part of speech (POS) tagging of texts written in Kazakh, an agglutinative and highly inflectional Turkic language. In Kazakh a single root may produce hundreds of word forms, and it is difficult, if at all possible, to label enough training data to account for a vast set of all possible word forms in the language. Thus, current state of the art statistical POS taggers may not be as effective for Kazakh as for morphologically less complex languages, e.g. English. Also the choice of a POS tag set may influence the informativeness and the accuracy of tagging.
机译:我们比较并讨论在哈萨克,凝聚和高度折射突厥语中撰写的文本的一部分语音(POS)标记的各种方法。 在哈萨克人中,单根可能产生数百个单词形式,很难,如果可能的话,可以将足够的训练数据标记,以解释语言中的大量所有可能的单词形式。 因此,最新的统计POS标记器的状态可能对哈萨克斯的状态无论是不那么复杂的语言,例如,均无复杂的语言。 英语。 此外,POS标签集的选择可能会影响识别性和标记的准确性。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号