首页> 外文期刊>電子情報通信学会技術研究報告. 言語理解とコミュニケーション. Natural Language Understanding and Models of Communication >平易なコーパスを用いないテキスト平易化のための単言語パラレルコーパスの構築
【24h】

平易なコーパスを用いないテキスト平易化のための単言語パラレルコーパスの構築

机译:构建单一语言并行语料库,易于使用的纹理,没有简单的语料库

获取原文
获取原文并翻译 | 示例
           

摘要

統計的機械翻訳の枠組みを用いたテキスト平易化が近年活発に研究されているが、その学習に必要な単言語パラレルコーパスを人手で構築することはコストが高い。そのため、公開されておりテキスト平易化のために自由に利用できるのは、English Wikipedia とSimple English Wikipedia のコンパラブルコーパスから単言語アライメントによって自動的に構築された英語のパラレルコーパスのみであるが、Simple English Wikipedia のように平易に書かれた大規模なコーパスは英語以外の多くの言語では利用できない。そこで、我々は日本語をはじめとする任意の言語でのテキスト平易化を実現することを目指し、生コーパスのみからテキスト平易化のための単言語パラレルコーパスを自動構築する手法を提案する。我々はまず文のリーダビリティを計算し、生コーパスを難解な文からなるコーパスと平易な文からなるコーパスに分解する。そして、単語分散表現を用いて計算される単語アライメントに基づく文間類似度によって、難解な文と平易な文の文アライメントを求める。我々の提案手法は、ラベル付きデータや辞書などの外部知識を必要とせず、生コーパスのみを用いてテキスト平易化のための単言語パラレルコーパスを自動構築するので、任意の言語に適用できる。フレーズベース統計的機械翻訳を用いたテキスト平易化の実験の結果、提案手法は平易なコーパスを用いずに入力文よりも平易な同義文を生成することができた。
机译:虽然近年来,近年来它一直活跃,近年来它一直活跃,但建立其学习所需的单一语言并行语料库是非常昂贵的。因此,只有英国维基百科和简单的英语维基百科建造了英国平行语料,只有英国平行语料库是由英语维基百科和简单的英语维基百科的综合语料库建造,而是简单的大型畜士就像英语维基百科一样不使用英语以外的许多语言提供。因此,我们提出了一种自动从原始语料库自动构建文本培训的单一并行语料库的方法,旨在以任何包括日语在内的语言实现文本脚趾。我们首先分解了句子的可读性,并分解了由半合格的句子和公平句子组成的语料库。然后,通过基于使用单词色散表示计算的词对齐的句子句子句子,我们寻求半详细句子和句子纹理的陈述。我们所提出的方法不需要外部知识,例如标记的数据和词典,并且它可以应用于任何语言,因为它会自动构造一个单一语言并行语料库,以便仅与原始语料库轻松使用。由于基于文本的统计机器翻译的实验,所提出的方法可以在不使用简单语料库的情况下产生比输入句子的简单互连文本。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号