...
首页> 外文期刊>電子情報通信学会論文誌, D. 情報·システム >ドメインとスタイルを考慮したWebテキストの選択による 音声対話システム用言語モデルの構築
【24h】

ドメインとスタイルを考慮したWebテキストの選択による 音声対話システム用言語モデルの構築

机译:通过考虑域和样式来选择Web文本,为语音对话系统构建语言模型

获取原文
获取原文并翻译 | 示例

摘要

音声対話システムにおいて,ユーザの多様な発話を頑健に認識するためには,タスクドメインに合致した十分な量のテキストデータでN-gram言語モデルを構築することが望ましい.しかし,新たに音声対話システムを作成する際に,ユーザが入力すると想定される発話を大量に用意することは困難である.そこで本論文では,Webから学習データを収集?選択することにより効率的に言語モデルを構築する手法を提案する.Webの検索クエリは,対話システムが対象とするドメインについて記述された文書から作成する.これにより検索?収集されたWebテキストの多くは,対話システムのユーザの発話スタイルとマッチしたものではなく,言語モデルの学習データとしてこれらのすべてを使用するのは適切でない.そこで,別の対話システムで収集されたユーザ発話コーパスを併用することで,発話スタイルの近い文を選択する.ソフトウェアサポートと観光案内の二つのドメインにおいて評価を行った結果,パープレキティ及び音声認識精度の有意な改善が得られた.また実験結果の分析により,Webテキストを選択する際に,文のスタイルを考慮することの重要性が確認された.
机译:为了在语音对话系统中稳定地识别用户的各种语音,期望构建具有与任务域匹配的足够数量的文本数据的N-gram语言模型。但是,当创建新的语音对话系统时,很难准备用户期望输入的大量语音。因此,在本文中,我们提出了一种通过从Web上收集和选择学习数据来有效构建语言模型的方法。 Web搜索查询是从描述交互式系统目标域的文档中创建的。由此搜索和收集的许多Web文本与对话系统用户的语音样式不匹配,因此不适合将所有这些文本用作语言模型的训练数据。因此,通过将另一个对话系统收集的用户说话语料库一起使用,可以选择具有相似语音风格的句子。作为在两个方面的评估的结果,软件支持和游客信息,在困惑度和语音识别准确性方面获得了显着的改善。对实验结果的分析还证实了选择网络文本时考虑句子样式的重要性。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号