首页> 中文期刊> 《现代图书情报技术》 >基于BERT和多相似度融合的句子对齐方法研究

基于BERT和多相似度融合的句子对齐方法研究

         

摘要

【目的】实现双语句子的自动对齐,为构建双语平行语料库、跨语言信息检索等自然语言处理任务提供技术支持。【方法】将BERT预训练引入句子对齐方法中,通过双向Transformer提取特征,每一个词汇由位置嵌入向量、单词嵌入向量、句子切分嵌入向量三种向量叠加表征词汇的语义信息,进而对源语言与译文、目标语言与译文实施双向度量,融合BLEU得分、余弦相似度和曼哈顿距离三种相似度进行句子对齐。【结果】通过两种任务验证方法的有效性。在平行语料库过滤任务中,召回率为97.84%;在可比语料过滤任务中,当噪声比率分别为20%、50%、90%时,精确率依次为99.47%、98.31%、95.00%。【局限】文本向量化与相似度计算方法可以采用更具有语义表征的方式进行改进。【结论】本方法在平行语料过滤和可比语料过滤两个任务中均优于基线系统,能够获得大规模、高质量的平行语料。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号