首页> 中文期刊>云南民族大学学报(自然科学版) >融合上下文语义信息的汉越平行短语对抽取方法

融合上下文语义信息的汉越平行短语对抽取方法

     

摘要

越南语是一种典型的资源稀缺型语言,汉越平行语料较为稀少,但在如维基百科、双语新闻等网站上存在大量的汉越可比语料.而从可比语料中抽取平行短语对任务能够有效缓解低资源机器翻译中面临的数据稀疏性问题.考虑到上下文语义信息对抽取高质量的双语短语对有重要支撑.提出了融合上下文语义信息的汉越平行短语对抽取方法.首先使用汉、越单语语料训练汉、越向量矩阵;然后预训练编码器,通过注意力机制将句子编码信息和短语编码信息进行结合,生成含有上下文语义信息的单语短语向量,同时将平行短语对作为约束,使汉越短语向量在语义空间中距离最小化,非平行短语对的距离最大化,得到汉越双语短语向量表示;最后利用预训练好的编码器来对平行短语对分类器进行训练.实验结果证明,所训练的分类器的准确度达到75.62%,同时,为了检测抽取出来的平行短语对质量,将其添加到SMT的训练语料中,与基线系统相比,提升了0.93Bleu.

著录项

  • 来源
  • 作者单位

    昆明理工大学 信息工程与自动化学院 云南 昆明650500;

    昆明理工大学 云南省人工智能重点实验室 云南 昆明650500;

    昆明理工大学 信息工程与自动化学院 云南 昆明650500;

    昆明理工大学 云南省人工智能重点实验室 云南 昆明650500;

    昆明理工大学 信息工程与自动化学院 云南 昆明650500;

    昆明理工大学 云南省人工智能重点实验室 云南 昆明650500;

    昆明理工大学 信息工程与自动化学院 云南 昆明650500;

    昆明理工大学 云南省人工智能重点实验室 云南 昆明650500;

    昆明理工大学 信息工程与自动化学院 云南 昆明650500;

    昆明理工大学 云南省人工智能重点实验室 云南 昆明650500;

  • 原文格式 PDF
  • 正文语种 chi
  • 中图分类 信息处理(信息加工);
  • 关键词

    上下文语义信息; 半监督自编码器; 平行短语对抽取; 汉-越; 可比语料;

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号