首页> 外文期刊>電子情報通信学会技術研究報告 >Google N-gramを用いた音声認識のタスク汎用性評価の試み
【24h】

Google N-gramを用いた音声認識のタスク汎用性評価の試み

机译:尝试使用Google N-gram评估语音识别的任务多功能性

获取原文
获取原文并翻译 | 示例
           

摘要

近年,多様な発話に対応可能な音声対話システムの研究が行われている.その1つのアプローチにタスク外発話を検出し,Web検索で処理する方法がある.しかし,一般に音声対話システムの言語モデルはタスク内の発話を認識できるようドメインを限定して構築されているため,多様性があるタスク外発話を精度良く認識できない.そこで,タスク外発話においてもある程度の認識性能を出せる汎用性の高い言語モデルが必要となる.本報告では,大規模テキストコーパスであるGoogle N-gram(正式名称:Web日本語Nグラム第1版)を用いて言語モデルを構築し,その汎用性を3種類の音声データで評価した.読みは形態素解析器mecabを用いて自動的に付与した.3種類の音声データにおける単語正解率と単語正解精度を求めた結果,Google N-gramから構築した言語モデルは,音声データのドメインに合っている言語モデルよりも性能が劣るものの,新聞コーパスモデルと同等の単語正解率を得た.ただし,今回評価したGoogle N-gramの言語モデルはあくまでもベースラインであり,誤った読み付与を含んでいるなどの問題点がある.これらを改善すれば,より性能を向上できると考えられる.また,構築したGoogle N-gramの言語モデルは3-gramであり,Google N-gramの最大の特徴であるデータ量を有効に活用して4-gramや5-gram のモデルを構築すれば,さらなる性能の向上が期待できる.%In recent years, spoken dialogue systems capable of responding to various utterances have been studied. For example, there is an approach that detects out-of-task utterances and process them by the Web retrieval. However, inrngeneral, a language model in a spoken dialogue system is built to recognize in-task utterances. Therefore, it is difficult for a spoken dialogue system to recognize various out-of-task utterances with high accuracy. In this report, we constructed a tri-gram language model using the Google N-gram, which is a large text Corpus, and evaluated the versatility of the model with three types of speech data. As the Google N-gram does not include readings, they are automatically given by the morphological analyzer mecab. Results on word correct rate and word accuracy show that the language model built from Google N-gram is inferior to the models that customized for the domain. However, the model has equal performance to the JNAS, the Newspaper language model, on word correct rate. It should be mentioned that the evaluations contained in this report are the first trial and baseline results of the model. Because there are still several problems, such as wrong reading included in the Corpus, we can expect improvements in the performance by correcting them. In addition, as the language model built here is a tri-gram model, If 4-gram or 5-gram models are introduced, further improvement is also expected.
机译:近年来,已经开始研究可以处理各种话语的口语对话系统,一种方法是检测任务之外的话语并通过Web搜索对其进行处理,但是,通常来说,是一种用于口语对话系统的语言模型。由于通过限制域来构造,使得可以识别任务内的话语,因此不可能准确地识别任务外的话语,这是多种多样的,因此,可以识别任务外的某些话语是高度通用的。在此报告中,需要使用语言模型,在此报告中,使用大型文本语料库Google N-gram(正式名称:Web Japanese N-gram,第1版)构建了语言模型,并将其通用性分为三种类型。使用形态分析仪微机自动分配读数,获得三种语音数据中的单词准确率和单词准确度,从而使用Google N-gram构建语言模型。尽管其性能不及与语音数据域匹配的语言模型,但我们获得了与报纸语料库模型相当的单词准确率,但是,这次评估的Google N-gram语言模型仅是一个基线,并且是不正确的。如果对这些内容进行改进,则可以认为可以进一步提高性能;此外,构建的Google N-gram语言模型为3-gram,而Google N-gram为%近年来,通过有效利用数据量构建4克和5克模型,可以预期能够响应各种语言的口语对话系统,这是克的主要特征。已经研究了话语,例如,有一种方法可以检测出任务外的话语并通过Web检索对其进行处理。然而,一般而言,语音对话系统中的语言模型是用来识别任务中的话语的。 ,很难口语在此报告中,我们使用了Google N-gram(一个大型文本语料库)构建了一个Tri-gram语言模型,并使用三个登录系统评估了该模型的多功能性,从而可以高精度地识别各种任务外语音。语音数据的类型。由于Google N-gram不包含读数,因此由词法分析仪mecab自动给出。单词正确率和单词准确性的结果表明,由Google N-gram构建的语言模型不如模型针对该领域进行了定制,但是该模型在单词正确率方面具有与JNAS(报纸语言模型)相同的性能。应该指出的是,本报告中包含的评估是该模型的首次试用和基线结果。仍然存在一些问题,例如语料库中的错误阅读,我们可以通过纠正它们来改善性能。此外,由于此处构建的语言模型是三元语法模型,如果是4-gram o引入了5克模型,并且有望进一步改进。

著录项

  • 来源
    《電子情報通信学会技術研究報告》 |2009年第355期|p.189-194|共6页
  • 作者单位

    奈良先端科学技術大学院大学 情報科学研究科;

    奈良先端科学技術大学院大学 情報科学研究科,ヤフー株式会社;

    奈良先端科学技術大学院大学 情報科学研究科;

    奈良先端科学技術大学院大学 情報科学研究科;

    奈良先端科学技術大学院大学 情報科学研究科;

  • 收录信息
  • 原文格式 PDF
  • 正文语种 jpn
  • 中图分类
  • 关键词

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号