首页> 外文会议>International workshop on language cognition and computational models >Part-of-Speech Annotation of English-Assamese code-mixed texts: Two Approaches
【24h】

Part-of-Speech Annotation of English-Assamese code-mixed texts: Two Approaches

机译:英语 - assamese代码混合文本的词性注释:两种方法

获取原文

摘要

In this paper, we discuss the development of a part-of-speech tagger for English-Assamese code-mixed texts. We provide a comparison of 2 approaches to annotating code-mixed data a) annotation of the texts from the two languages using monolingual resources from each language and b) annotation of the text through a different resource created specifically for code-mixed data. We present a comparative study of the efforts required in each approach and the final performance of the system. Based on this, we argue that it might be a better approach to develop new technologies using code-mixed data instead of monolingual, 'clean' data, especially for those languages where we do not have significant tools and technologies available till now.
机译:在本文中,我们讨论了用于英语issamese代码混合文本的言语态标记的开发。我们提供了向注释代码混合数据的方法a)使用来自每种语言的单语言资源和b)通过专门为代码混合数据创建的不同资源注释文本的两种语言的文本的注释。我们提出了对每个方法所需的努力和系统的最终表现的比较研究。基于此,我们认为使用代码混合数据而不是单声道,“清洁”数据来开发新技术可能是一种更好的方法,尤其是我们在此语言,我们没有直到现在可以提供重要的工具和技术。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号