【24h】

Statistical Morph Analyzer (SMA++) for Indian Languages

机译:印度语统计形态分析器(SMA ++)

获取原文
获取原文并翻译 | 示例

摘要

Statistical morph analyzers have proved to be highly accurate while being comparatively easier to maintain than rule based approaches. Our morph analyzer (SMA++) is an improvement over the statistical morph analyzer (SMA) described in Malladi and Mannem (2013). SMA++ predicts the gender, number, person, case (GNPC) and the lemma (L) of a given token. We modified the SMA in Malladi and Mannem (2013), by adding some rich machine learning features. The feature set was chosen specifically to suit the characteristics of Indian Languages. In this paper we apply SMA++ to four Indian languages viz. Hindi, Urdu, Telugu and Tamil. Hindi and Urdu belong to the Indic language family. Telugu and Tamil belong to the Dravidian language family. We compare SMA++ with some state-of-art statistical morph analyzers viz. Morfette in Chrupala et al. (2008) and SMA in Malladi and Mannem (2013). In all four languages, our system performs better than the above mentioned state-of-art SMAs.
机译:与基于规则的方法相比,统计形态分析器已被证明具有很高的准确性,同时维护起来也相对容易。我们的形态分析仪(SMA ++)是对Malladi和Mannem(2013)中描述的统计形态分析仪(SMA)的改进。 SMA ++可以预测给定令牌的性别,人数,人员,情况(GNPC)和引理(L)。通过添加一些丰富的机器学习功能,我们在Malladi和Mannem(2013)中修改了SMA。专门选择了功能集以适合印度语言的特征。在本文中,我们将SMA ++应用于四种印度语言。印地语,乌尔都语,泰卢固语和泰米尔语。印地语和乌尔都语属于印度语家族。泰卢固语和泰米尔语属于德拉维语族。我们将SMA ++与一些最新的统计形态分析仪进行比较。 Chrupala等人的Morfette。 (2008)和SMA在Malladi和Mannem(2013)。在所有四种语言中,我们的系统都比上述最新的SMA表现更好。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号