...
首页> 外文期刊>Journal of mathematical sciences >Recovering Word Forms by Context for Morphologically Rich Languages
【24h】

Recovering Word Forms by Context for Morphologically Rich Languages

机译:通过语境丰富的语言的上下文恢复词形

获取原文
获取原文并翻译 | 示例

摘要

In this work, we focus on “sentence-level unlemmatization,” the task of generating a grammatical sentence given a lemmatized one; this task is usually easy to do for humans but may present problems for machine learning models. We treat this setting as a machine translation problem and, as a first try, apply a sequence-to-sequence model to the texts of Russian Wikipedia articles, evaluate the effect of the different training sets sizes quantitatively and achieve the BLUE score of 67, 3 using the largest training set available. We discuss preliminary results and flaws of traditional machine translation evaluation methods for this task and suggest directions for future research.
机译:在这项工作中,我们专注于“句子级非词形化”,即在给定词形还原的情况下生成语法句子的任务;这项任务通常对人类来说很容易完成,但可能会给机器学习模型带来问题。我们将此设置视为机器翻译问题,并作为第一次尝试,将序列到序列模型应用于俄语维基百科文章的文本,定量评估不同训练集大小的影响,并使用可用的最大训练集获得 67,3 的 BLUE 分数。本文讨论了传统机器翻译评估方法的初步结果和缺陷,并提出了未来研究的方向。

著录项

  • 来源
    《Journal of mathematical sciences》 |2023年第4期|527-532|共6页
  • 作者单位

    St.Petersburg Department of Steklov Mathematical Institute RAS;

    St.Petersburg Department of Steklov Mathematical Institute RAS||St.Petersburg State University;

  • 收录信息
  • 原文格式 PDF
  • 正文语种 英语
  • 中图分类 数学;
  • 关键词

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号