Google N-gramを用いた音声認識のタスク汎用性評価の試み

久保　慶伍; 三宅　純平; 川波　弘道; 猿渡　洋; 鹿野　清宏

首页> 外文期刊>電子情報通信学会技術研究報告 >Google N-gramを用いた音声認識のタスク汎用性評価の試み

【24h】

Google N-gramを用いた音声認識のタスク汎用性評価の試み

机译：尝试使用Google N-gram评估语音识别的任务多功能性

获取原文

获取原文并翻译 | 示例

掌桥外文数据库（机构版） >>

开具论文收录证明 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

近年，多様な発話に対応可能な音声対話システムの研究が行われている.その1つのアプローチにタスク外発話を検出し，Web検索で処理する方法がある.しかし，一般に音声対話システムの言語モデルはタスク内の発話を認識できるようドメインを限定して構築されているため，多様性があるタスク外発話を精度良く認識できない.そこで，タスク外発話においてもある程度の認識性能を出せる汎用性の高い言語モデルが必要となる.本報告では，大規模テキストコーパスであるGoogle N-gram（正式名称：Web日本語Nグラム第1版）を用いて言語モデルを構築し，その汎用性を3種類の音声データで評価した.読みは形態素解析器mecabを用いて自動的に付与した.3種類の音声データにおける単語正解率と単語正解精度を求めた結果，Google N-gramから構築した言語モデルは，音声データのドメインに合っている言語モデルよりも性能が劣るものの，新聞コーパスモデルと同等の単語正解率を得た.ただし，今回評価したGoogle N-gramの言語モデルはあくまでもベースラインであり，誤った読み付与を含んでいるなどの問題点がある.これらを改善すれば，より性能を向上できると考えられる.また，構築したGoogle N-gramの言語モデルは3-gramであり，Google N-gramの最大の特徴であるデータ量を有効に活用して4-gramや5-gram のモデルを構築すれば，さらなる性能の向上が期待できる.%In recent years, spoken dialogue systems capable of responding to various utterances have been studied. For example, there is an approach that detects out-of-task utterances and process them by the Web retrieval. However, inrngeneral, a language model in a spoken dialogue system is built to recognize in-task utterances. Therefore, it is difficult for a spoken dialogue system to recognize various out-of-task utterances with high accuracy. In this report, we constructed a tri-gram language model using the Google N-gram, which is a large text Corpus, and evaluated the versatility of the model with three types of speech data. As the Google N-gram does not include readings, they are automatically given by the morphological analyzer mecab. Results on word correct rate and word accuracy show that the language model built from Google N-gram is inferior to the models that customized for the domain. However, the model has equal performance to the JNAS, the Newspaper language model, on word correct rate. It should be mentioned that the evaluations contained in this report are the first trial and baseline results of the model. Because there are still several problems, such as wrong reading included in the Corpus, we can expect improvements in the performance by correcting them. In addition, as the language model built here is a tri-gram model, If 4-gram or 5-gram models are introduced, further improvement is also expected.

机译：近年来，已经开始研究可以处理各种话语的口语对话系统，一种方法是检测任务之外的话语并通过Web搜索对其进行处理，但是，通常来说，是一种用于口语对话系统的语言模型。由于通过限制域来构造，使得可以识别任务内的话语，因此不可能准确地识别任务外的话语，这是多种多样的，因此，可以识别任务外的某些话语是高度通用的。在此报告中，需要使用语言模型，在此报告中，使用大型文本语料库Google N-gram（正式名称：Web Japanese N-gram，第1版）构建了语言模型，并将其通用性分为三种类型。使用形态分析仪微机自动分配读数，获得三种语音数据中的单词准确率和单词准确度，从而使用Google N-gram构建语言模型。尽管其性能不及与语音数据域匹配的语言模型，但我们获得了与报纸语料库模型相当的单词准确率，但是，这次评估的Google N-gram语言模型仅是一个基线，并且是不正确的。如果对这些内容进行改进，则可以认为可以进一步提高性能；此外，构建的Google N-gram语言模型为3-gram，而Google N-gram为％近年来，通过有效利用数据量构建4克和5克模型，可以预期能够响应各种语言的口语对话系统，这是克的主要特征。已经研究了话语，例如，有一种方法可以检测出任务外的话语并通过Web检索对其进行处理。然而，一般而言，语音对话系统中的语言模型是用来识别任务中的话语的。，很难口语在此报告中，我们使用了Google N-gram（一个大型文本语料库）构建了一个Tri-gram语言模型，并使用三个登录系统评估了该模型的多功能性，从而可以高精度地识别各种任务外语音。语音数据的类型。由于Google N-gram不包含读数，因此由词法分析仪mecab自动给出。单词正确率和单词准确性的结果表明，由Google N-gram构建的语言模型不如模型针对该领域进行了定制，但是该模型在单词正确率方面具有与JNAS（报纸语言模型）相同的性能。应该指出的是，本报告中包含的评估是该模型的首次试用和基线结果。仍然存在一些问题，例如语料库中的错误阅读，我们可以通过纠正它们来改善性能。此外，由于此处构建的语言模型是三元语法模型，如果是4-gram o引入了5克模型，并且有望进一步改进。

著录项

来源
《電子情報通信学会技術研究報告》 |2009年第355期|p.189-194|共6页
作者
久保　慶伍; 三宅　純平; 川波　弘道; 猿渡　洋; 鹿野　清宏;
展开▼
作者单位

奈良先端科学技術大学院大学　情報科学研究科;

奈良先端科学技術大学院大学　情報科学研究科,ヤフー株式会社;

奈良先端科学技術大学院大学　情報科学研究科;

奈良先端科学技術大学院大学　情報科学研究科;

奈良先端科学技術大学院大学　情報科学研究科;

展开▼
收录信息
原文格式 PDF
正文语种 jpn
中图分类
关键词

相似文献

外文文献
中文文献
专利

1. Google N-gramを用いた音声認識のタスク汎用性評価の試み [J] . 久保慶伍, 三宅純平, 川波弘道, 電子情報通信学会技術研究報告. 音声. Speech . 2009,第356期

机译：尝试使用Google N-gram评估语音识别任务的多功能性
2. Google N-gramを用いた音声認識のタスク汎用性評価の試み [J] . 久保慶伍, 三宅純平, 川波弘道, 電子情報通信学会技術研究報告. 言語理解とコミュニケーション. Natural Language Understanding and Models of Communication . 2009,第355期

机译：尝试使用Google N-gram评估语音识别任务的多功能性
3. Google N-gramを用いた音声認識のタスク汎用性評価の試み [J] . 久保　慶伍, 三宅　純平, 川波　弘道, 電子情報通信学会技術研究報告 . 2009,第356期

机译：尝试使用Google N-gram评估语音识别的任务多功能性
4. 音声駆動型身体的引き込みキャラクタシステムにおける音声認識による動作·情動表現提示の評価 [C] . 藤井亮, 四方拓, 服部憲治, 計測自動制御学会システムインテグレーション部門講演会 . 2013

机译：语音驱动物理退缩字符系统语音识别的操作与情感表示呈现评估
5. AIモニタリングシステムを?いた?事現場における事故防?のための5Gネットワークの評価 [D] . 野崎 ?地 2020

机译：利用AI监控系统评估5G网络以预防现场事故
6. タッチパネル型スクリーニングテストを用いた多系統萎縮症と皮質性小脳萎縮症における認知機能の評価および情動機能の評価 [O] . Kawahara, Yuko 2016

机译：触摸屏筛查评估多系统萎缩和小脑皮质萎缩的认知功能和情绪功能

Google N-gramを用いた音声認識のタスク汎用性評価の試み

摘要

著录项

相似文献

相关主题

期刊订阅