首页> 外文会议>Workshop on applying NLP tools to similar languages, varieties and dialects >Statistical Morph Analyzer (SMA++) for Indian Languages
【24h】

Statistical Morph Analyzer (SMA++) for Indian Languages

机译:印度语言的统计变形分析仪(SMA ++)

获取原文

摘要

Statistical morph analyzers have proved to be highly accurate while being comparatively easier to maintain than rule based approaches. Our morph analyzer (SMA++) is an improvement over the statistical morph analyzer (SMA) described in Malladi and Mannem (2013). SMA++ predicts the gender, number, person, case (GNPC) and the lemma (L) of a given token. We modified the SMA in Malladi and Mannem (2013), by adding some rich machine learning features. The feature set was chosen specifically to suit the characteristics of Indian Languages. In this paper we apply SMA++ to four Indian languages viz. Hindi, Urdu, Telugu and Tamil. Hindi and Urdu belong to the Indic language family. Telugu and Tamil belong to the Dravidian language family. We compare SMA++ with some state-of-art statistical morph analyzers viz. Morfette in Chrupala et al. (2008) and SMA in Malladi and Mannem (2013). In all four languages, our system performs better than the above mentioned state-of-art SMAs.
机译:统计变形分析仪已经证明是高度准确的,同时比基于规则的方法更容易维护。 我们的Morph分析仪(SMA ++)是对Malladi和Mannem(2013年)描述的统计变形分析仪(SMA)的改进。 SMA ++预测给定令牌的性别,数量,人,案例(GNPC)和LEMMA(L)。 通过添加一些丰富的机器学习功能,我们修改了Malladi和Mannem(2013)的SMA。 专门选择该功能集以适应印度语言的特征。 在本文中,我们将SMA ++应用于四个印度语言viz。 印地语,乌尔都语,泰卢固和泰米尔。 印地语和乌尔都语属于indical语言家庭。 Telugu和Tamil属于Dravidian语言家庭。 我们将SMA ++与一些最先进的统计变形分析仪VIZ进行比较。 在Chrupala等人的Morfette。 (2008年)和Maladi和Mannem(2013年)的SMA。 在所有四种语言中,我们的系统比上述最先进的SMA表现更好。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号