首页> 外文会议>Workshop on e-Commerce and NLP >Enhancing Aspect Extraction in Hindi
【24h】

Enhancing Aspect Extraction in Hindi

机译:增强印地语体提取

获取原文

摘要

Aspect extraction is not a well-explored topic in Hindi, with only one corpus having been developed for the task. In this paper, we discuss the merits of the existing corpus in terms of quality, size, sparsity, and performance in aspect extraction tasks using established models. To provide a better baseline corpus for aspect extraction, we translate the SemEval 2014 aspect-based sentiment analysis dataset and annotate the aspects in that data. We provide rigorous guidelines and a replicable methodology for this task. We quantitatively evaluate the translations and annotations using inter-annotator agreement scores. We also evaluate our dataset using state-of-the-art neural aspect extraction models in both monolingual and multilingual settings and show that the models perform far better on our corpus than on the existing Hindi dataset. With this, we establish our corpus as the gold-standard aspect extraction dataset in Hindi.
机译:在印地语中,体素提取不是一个很好的研究主题,只有一个语料库被开发用于该任务。在本文中,我们使用建立的模型讨论了现有语料库在方面提取任务的质量、大小、稀疏性和性能方面的优点。为了为方面提取提供更好的基线语料库,我们翻译了SemEval 2014基于方面的情绪分析数据集,并对数据中的方面进行了注释。我们为这项任务提供了严格的指导方针和可复制的方法。我们使用注释者间的一致性分数对翻译和注释进行定量评估。我们还使用最先进的神经方面提取模型在单语和多语环境下对我们的数据集进行了评估,结果表明,这些模型在我们的语料库中的表现远远好于现有的印地语数据集。基于此,我们将语料库建立为印地语方面提取的黄金标准数据集。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号