首页> 外文期刊>電子情報通信学会技術研究報告 >音声対話システムのためのN-gramに基づくキーワードからの文生成
【24h】

音声対話システムのためのN-gramに基づくキーワードからの文生成

机译:基于N-gram的语音对话系统句子生成

获取原文
获取原文并翻译 | 示例
           

摘要

A probabilistic answer selection on spoken dialog system requires a lot of question-and-answer pair as a training data. However, it costs much to collect a sufficient amount of transcription of user's utterance, or to make the question database manually. In this paper, a sentence generation method based on word N-gram to build a question database of a spoken dialog system from given keywords. First, the best word sequences between the keywords are searched based on N-gram. Then, they are concatenated each other and rescored to get the final sentences to be used for the training data. The proposed method was experimented on a public speech-oriented information guidance system. It has been shown that the conventional method with only keywords could get the correct response rate of 59.6%, whereas the proposed method which uses the generated sentences as training data got 65.1%, when using recognized text. Experiments on task-independent N-gram (Web / Newspaper model) also showed that the proposed method can achieve higher accuracy than the conventional method. Comparisons of various parameters were also investigated.%質問と応答の対応を文対文で統計的にモデル化する音声対話システムにおいては,学習のために大量の質問文と応答文のペアが必要である.しかし,質問文データを用意するためにユーザの実際の発話を収集・書き起こしするのはコストが高く,人手で可能な質問文のバリエーションを考えて収集するのも経験と労力を要する.本研究では,この統計的応答選択システムのための質問文をキーワードから自動生成する手法を提案する.文に含まれるべきキーワードが複数与えられたとき,それらのキーワード間の区間および両端に出現しうる尤度上位の単語列をN-gram確率に基づいて探索し,区間どとに得られた単語列を結合・再評価を行い,最終的にデータベースに与える文を選び出す.音声情報案内タスクの音声対話システムにおいて実験した結果,入力に音声認識結果を用いるときに,応答をキーワードと直接対応付ける場合に59.6%の応答正解率であったのが,そのキーワードから生成した文と対応付ける本手法を用いることで65.1%に改善された.さらに,タスク非依存の一般的なN-gramを使用した場合も,同様に性能の改善が見られた.生成する文数や,単語列探索時のビーム幅などの様々なパラメータによる性能の変化についても報告する.
机译:口语对话系统上的概率答案选择需要大量的问答对作为训练数据。但是,收集足够多的用户话语转录或手动创建问题数据库会花费很多。本文提出了一种基于单词N-gram的句子生成方法,利用给定的关键词建立语音对话系统的问题数据库。首先,基于N-gram搜索关键字之间的最佳单词序列。然后,将它们彼此串联并重新计分以获得最终句子以用于训练数据。该方法在面向公众语音的信息指导系统上进行了实验。结果表明,仅使用关键词的传统方法正确率达到59.6%,而使用识别出的文本时,以生成的句子作为训练数据的方法获得了65.1%的正确率。在与任务无关的N-gram(Web /报纸模型)上进行的实验也表明,与传统方法相比,该方法可以获得更高的准确性。还对各种参数的比较进行了研究。 ,质问文データを用意するためにユーザの実际の発话を收集・书き起こしするのはコストが高く,人手で可能な质问文のバリエーションションえて考えて收集するのも経験と労力を要する。 ,この统计的応答选択システムのための质问文をキーワードから自动生成する手法を进行する。文に含まれるべきキーワードがードが复数与えられたとき,それらのキーワード间の区间および両端に出现しうる尤度上位の単语列をN-gram确实率に基づいて探索し,区间どとに得られた単语列を结合・再评価を行い,最终的にデータベースに与える文を选び出す。いて実験した结果,入力に音声认识结果を用いるときに,応答をキーワードと直接対応付ける场合に59.6%の応答正解率であったのが,そのキーワードから生成した文と対応付ける本手法を用いることで65.1 %に改善された。さらに,タスク非依存の一般的なN-gramを使用した场合も,同様に性能の改善が见られた。生成する文数や,単语列探索时のビーム幅などの様々タによるラメータによる性能の変化についても报告する。

著录项

  • 来源
    《電子情報通信学会技術研究報告》 |2009年第355期|p.71-76|共6页
  • 作者单位

    名古屋工業大学 大学院工学研究科 創成シミュレーション工学専攻 〒466-8555 名古屋市昭和区御器所町;

    名古屋工業大学 大学院工学研究科 創成シミュレーション工学専攻 〒466-8555 名古屋市昭和区御器所町;

    名古屋工業大学 大学院工学研究科 創成シミュレーション工学専攻 〒466-8555 名古屋市昭和区御器所町;

    名古屋工業大学 大学院工学研究科 創成シミュレーション工学専攻 〒466-8555 名古屋市昭和区御器所町;

  • 收录信息
  • 原文格式 PDF
  • 正文语种 jpn
  • 中图分类
  • 关键词

    音声対話システム; N-gram; 文生成; 探索;

    机译:口语对话系统;N-gram;句子生成;搜索;

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号