首页> 中国专利> 一种基于Bi-LSTM算法的老汉双语平行句子抽取方法

一种基于Bi-LSTM算法的老汉双语平行句子抽取方法

页面导航

摘要
著录项
相似文献

摘要

本发明公开了一种基于Bi‑LSTM算法的老汉双语平行句子抽取方法，属于自然语言处理和机器学习技术领域。首先将篇章级对齐的语料作为输入，由于老挝语与中文的句子成分排序大致是一致的，所以先将篇章级的语料通过标点符号，处理为单个的对齐语句，之后将对齐的语句进行拆分，组成两个文本。这两个文本中包含一些非对齐的语句，之后将这些对齐的语句进行分词，分词之后，将两个文本组合为一个统一文本，因包含中文以及老挝语，以及是否为对齐的标志，作为训练数据，将得到的中文以及老挝语分词之后的句子作为Bi‑LSTM的输入，经过Bi‑LSTM的输出得到的结果，通过曼哈顿距离公式，计算两个句子的相似度，进而从篇章级的双语语料库中抽取出平行句对。

著录项

公开/公告号CN110362820B

专利类型发明专利
公开/公告日2022.11.01

原文格式PDF
申请/专利权人昆明理工大学;
展开▼

申请/专利号CN201910520523.1
发明设计人周兰江;贾善崇;张建安;
展开▼

申请日2019.06.17
分类号G06F40/289(2020.01);G06F40/216(2020.01);G06F40/58(2020.01);
代理机构
代理人
地址 650093 云南省昆明市五华区学府路253号
入库时间 2022-11-28 17:54:03

相似文献

专利
中文文献
外文文献

1. 一种基于Bi-LSTM算法的老汉双语平行句子抽取方法 [P] . 中国专利： CN110362820A . 2019-10-22
2. 基于跨语言双语预训练及Bi-LSTM的汉-越平行句对抽取方法 [P] . 中国专利： CN112287695A . 2021-01-29
3. Bilingual sentence extraction device, bilingual sentence extraction method and program [P] . 日本专利： JP6678087B2 . 2020-04-08

机译：双语句子提取装置，双语句子提取方法和程序
4. Method for labeling semantic role of bilingual parallel sentence pair [P] . 美国专利： US9411802B2 . 2016-08-09

机译：双语平行句子对的语义角色标注方法
5. METHOD FOR LABELING SEMANTIC ROLE OF BILINGUAL PARALLEL SENTENCE PAIR [P] . 美国专利： US2013204606A1 . 2013-08-08

机译：双语平行句子对语义角色的标注方法