【24h】

Discourse Tagging for Indian Languages

机译:印度语言的话语标记

获取原文

摘要

Indian Language Discourse Project is to develop large corpus annotated with various types of discourse relations which are explicit and implicit. As an initial step towards it we have annotated corpus in three languages, Hindi, Tamil and Malayalam belonging to the two major language families in India- Indo Aryan and Dravidian. In this paper we describe our initial experiments in annotating all the three language corpus and the domains of the corpus belongs to health. The initial experiment brought out various types of discourse connectives in the three languages and how they vary amongst the languages. The preliminary study itself revealed that there is cross linguistic variation among the three languages. We have shown the inter annotator agreement for all the three languages.
机译:印度语言话语项目是开发具有各种类型的话语关系的大型语料库,这些话语是明确和隐含的。 作为迈向它的最初步骤,我们已经用三种语言,印度,泰米尔和马拉雅拉姆属于印度的两种主要语言系列的缩写语料库 - 印度 - 印度雅利安和Dravidian。 在本文中,我们描述了初步实验,用于注释所有三种语言语料库和语料库的域属于健康。 初始实验带出了三种语言中的各种类型的话语连接以及它们在语言中的各种类型。 初步研究本身透露,这三种语言之间存在交叉语言变异。 我们已经为所有三种语言显示了互联网协议。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号