基于跨语言双语预训练及Bi-LSTM的汉-越平行句对抽取方法

机译：基于跨语言双语预训练及Bi-LSTM的汉-越平行句对抽取方法

获取原文

页面导航

摘要
著录项
相似文献
相关主题

摘要

汉越平行句对抽取是缓解汉越平行语料库数据稀缺的重要方法.平行句对抽取可转换为同一语义空间下的句子相似性分类任务,其核心在于双语语义空间对齐.传统语义空间对齐方法依赖于大规模的双语平行语料,越南语作为低资源语言获取大规模平行语料相对困难.针对这个问题本文提出一种利用种子词典进行跨语言双语预训练及Bi-LSTM(Bi-directional Long Short-Term Memory)的汉-越平行句对抽取方法.预训练中仅需要大量的汉越单语和一个汉越种子词典,通过利用汉越种子词典将汉越双语映射到公共语义空间进行词对齐.再利用Bi-LSTM和CNN(Convolutional Neural Networks)分别提取句子的全局特征和局部特征从而最大化表示汉-越句对之间的语义相关性.实验结果表明,本文模型在F1得分上提升7.1%,优于基线模型.

机译：汉越平行句对抽取是缓解汉越平行语料库数据稀缺的重要方法.平行句对抽取可转换为同一语义空间下的句子相似性分类任务,其核心在于双语语义空间对齐.传统语义空间对齐方法依赖于大规模的双语平行语料,越南语作为低资源语言获取大规模平行语料相对困难.针对这个问题本文提出一种利用种子词典进行跨语言双语预训练及Bi-LSTM(Bi-directional Long Short-Term Memory)的汉-越平行句对抽取方法.预训练中仅需要大量的汉越单语和一个汉越种子词典,通过利用汉越种子词典将汉越双语映射到公共语义空间进行词对齐.再利用Bi-LSTM和CNN(Convolutional Neural Networks)分别提取句子的全局特征和局部特征从而最大化表示汉-越句对之间的语义相关性.实验结果表明,本文模型在F1得分上提升7.1%,优于基线模型.

著录项

来源
《Chinese National Conference on Computational Linguistic》|2020年|457-466|共10页
会议地点
作者
刘畅; 高盛祥; 余正涛; 黄于欣; 尤丛丛;
展开▼
作者单位

展开▼
会议组织
原文格式 PDF
正文语种
中图分类
关键词
汉-越; 平行句对抽取; 跨语言预训练; 公共语义空间; Bi-LSTM;

机译：汉-越;平行句对抽取;跨语言预训练;公共语义空间;Bi-LSTM;
入库时间 2022-08-26 13:53:44

相似文献

外文文献
中文文献
专利

1. 一种基于本体约束的知识抽取方法 [J] . Computer Science and Application . 2011,第3期

机译：一种基于本体约束的知识抽取方法
2. 一种基于本体约束的知识抽取方法 An Approach of Knowledge Extraction Restrained by Ontology [J] . Computer Science and Application . 2011,第1期

机译：一种基于本体约束的知识抽取方法 An Approach of Knowledge Extraction Restrained by Ontology
3. 一种基于曲率平滑预调点约束的五轴高速数控加工路径NURBS拟合优化方法 [J] . 杨高杰, 徐祥, 史中权, 南京航空航天大学学报（英文版） . 2021,第003期

机译：一种基于曲率平滑预调点约束的五轴高速数控加工路径NURBS拟合优化方法
4. 基于多语言联合训练的汉-英-缅神经机器翻译方法 [C] . 满志博, 毛存礼, 余正涛, Chinese National Conference on Computational Linguistic . 2020

机译：基于多语言联合训练的汉-英-缅神经机器翻译方法

基于跨语言双语预训练及Bi-LSTM的汉-越平行句对抽取方法

摘要

著录项

相似文献

相关主题

期刊订阅