Chinese-Japanese Parallel Sentence Extraction from Quasi-Comparable Corpora

机译：准可比语料库中日平行句的提取

获取原文

页面导航

摘要
著录项
相似文献
相关主题

摘要

Parallel sentences are crucial for statistical machine translation (SMT). However, they are quite scarce for most language pairs, such as Chinese-Japanese. Many studies have been conducted on extracting parallel sentences from noisy parallel or comparable corpora. We extract Chinese-Japanese parallel sentences from quasi-comparable corpora, which are available in far larger quantities. The task is significantly more difficult than the extraction from noisy parallel or comparable corpora. We extend a previous study that treats parallel sentence identification as a binary classification problem. Previous method of classifier training by the Cartesian product is not practical, because it differs from the real process of parallel sentence extraction. We propose a novel classifier training method that simulates the real sentence extraction process. Furthermore, we use linguistic knowledge of Chinese character features. Experimental results on quasi-comparable corpora indicate that our proposed approach performs significantly better than the previous study.

机译：平行句子对于统计机器翻译（SMT）至关重要。但是，对于大多数语言对（例如，日语-日语）来说，它们是相当稀缺的。关于从嘈杂的平行语料库或类似语料库中提取平行句，已经进行了许多研究。我们从准可比语料库中提取中日平行句子，该句子的数量要大得多。该任务比从嘈杂的并行语料库或类似语料库中提取要困难得多。我们扩展了先前的研究，该研究将并行句子识别视为二进制分类问题。笛卡尔积的先前分类器训练方法不切实际，因为它不同于并行句子提取的实际过程。我们提出了一种新颖的分类器训练方法，可以模拟真实句子的提取过程。此外，我们使用汉字特征的语言知识。在准可比语料库上的实验结果表明，我们提出的方法的性能明显优于先前的研究。

著录项

来源
《Workshop on building and using comparable corpora》|2013年|34-42|共9页
会议地点
作者
Chenhui Chu; Toshiaki Nakazawa; Sadao Kurohashi;
展开▼
作者单位

展开▼
会议组织
原文格式 PDF
正文语种
中图分类
关键词

相似文献

外文文献
中文文献
专利

1. Integrated Parallel Sentence and Fragment Extraction from Comparable Corpora: A Case Study on Chinese-Japanese Wikipedia [J] . CHENHUI CHU, TOSHIAKI NAKAZAWA, SADAO KUROHASHI ACM transactions on Asian language information processing . 2016,第2期

机译：相似语料库中的并行句和片段的集成提取：以中日维基百科为例
2. Extracting Parallel Sentences from Nonparallel Corpora Using Parallel Hierarchical Attention Network [J] . Shaolin Zhu, Yong Yang, Chun Xu Computational intelligence and neuroscience . 2020,第4期

机译：使用并行分层注意网络从非平行语料库中提取并行句子
3. An Efficient Framework for Extracting Parallel Sentences from Non-Parallel Corpora [J] . Cuong Hoang, Anh-Cuong Le, Phuong-Thai Nguyen, Fundamenta Informaticae . 2014,第2期

机译：从非平行语料库中提取平行句子的有效框架
4. Chinese-Japanese Parallel Sentence Extraction from Quasi-Comparable Corpora [C] . Chenhui Chu, Toshiaki Nakazawa, Sadao Kurohashi Workshop on building and using comparable corpora . 2013

机译：Quasi-Jaiman-Mapiants Pantel Alriplut从准比较的语料库中提取
5. Parallel Sentence Detection in Comparable Corpora with Bilingual Word Embeddings for Low-Resource Languages [D] . Cadigan, John. 2018

机译：与低资源语言的双语单词嵌入式的同类语料中的并行句子检测
6. Extracting Parallel Sentences from Nonparallel Corpora Using Parallel Hierarchical Attention Network [O] . Shaolin Zhu, Yong Yang, Chun Xu 2020

机译：使用并行分层注意网络从非平行语料库中提取并行句子
7. Inversion Transduction Grammar Constraints for Mining Parallel Sentences from Quasi-comparable Corpora [O] . Dekai Wu, Pascale Fung 2008

机译：准可比语料库挖掘平行句的反演转导语法约束

Chinese-Japanese Parallel Sentence Extraction from Quasi-Comparable Corpora

摘要

著录项

相似文献

相关主题

期刊订阅