首页> 中文期刊> 《中文信息学报》 >基于半监督的汉缅双语词典构建方法

基于半监督的汉缅双语词典构建方法

         

摘要

汉缅双语词典是开展机器翻译、跨语言检索等研究的重要数据资源.当前在种子词典的基础上使用迭代自学习的方法在平行语料中抽取双语词典取得了较好的效果,然而针对低资源语言汉语-缅语的双语词典抽取任务,由于双语平行资源匮乏,基于迭代自学习的方法不能得到有效的双语词向量表示,致使双语词典抽取模型准确度较低.研究表明,可比语料中相似词语往往具有相似的上下文,为此,该文提出了一种基于半监督的汉缅双语词典构建方法,通过利用预训练语言模型来构建双语词汇的上下文特征向量,对基于可比语料和小规模种子词典的迭代自学习方法得到的汉缅双语词汇进行语义增强.实验结果表明,该文提出的方法相较于基线方法有明显的性能提升.

著录项

  • 来源
    《中文信息学报》 |2021年第7期|47-53|共7页
  • 作者单位

    昆明理工大学 信息工程与自动化学院 云南 昆明 650500;

    昆明理工大学 云南省人工智能重点实验室 云南 昆明 650500;

    昆明理工大学 信息工程与自动化学院 云南 昆明 650500;

    昆明理工大学 云南省人工智能重点实验室 云南 昆明 650500;

    昆明理工大学 信息工程与自动化学院 云南 昆明 650500;

    昆明理工大学 云南省人工智能重点实验室 云南 昆明 650500;

    昆明理工大学 信息工程与自动化学院 云南 昆明 650500;

    昆明理工大学 云南省人工智能重点实验室 云南 昆明 650500;

    昆明理工大学 信息工程与自动化学院 云南 昆明 650500;

    昆明理工大学 云南省人工智能重点实验室 云南 昆明 650500;

    昆明理工大学 信息工程与自动化学院 云南 昆明 650500;

    昆明理工大学 云南省人工智能重点实验室 云南 昆明 650500;

  • 原文格式 PDF
  • 正文语种 chi
  • 中图分类 信息处理(信息加工);
  • 关键词

    汉缅双语; 种子词典; 迭代自学习; 预训练语言模型; 上下文特征; 半监督;

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号