首页> 外文期刊>電子情報通信学会技術研究報告 >初等中等教育における授業音声認識のための言語モデルの検討
【24h】

初等中等教育における授業音声認識のための言語モデルの検討

机译:中小学课堂语音识别语言模型研究

获取原文
获取原文并翻译 | 示例
       

摘要

Automatic speech recognition (ASR) of lectures on elementary and secondary education is addressed. Most of conventional studies of lecture speech recognition target on lectures in universities or oral presentations in technical conferences, in which lecturers make their speech for adult audiences. On the contrary, in elementary school or junior high-school, lecture audience is immature people. Lecturers (teachers) often make utterances in a different way from talks to adult audiences. Specifically, teachers try to select easy words and phrases, some of which are only for kids. For ASR of elementary school lectures, a language model which covers such linguistic phenomena is required. In this paper, suitable vocabulary and language model for elementary school lectures are discussed. Word 3-gram language model trained with texts for adults (Corpus of spontaneous Japanese and one-year newspaper articles) cannot cover a half of 3-grams (about 3000 kinds) appeared in 13 lectures in school. We got higher adjusted testset perplexity about 343. Word 3-gram language model trained with small texts for kids (1.2M words from kids-oriented web sites), we can cover one-third of 3-grams, which are not modeled in the language model for adult. We confirmed that it is significant to collect text corpora for ASR of elementary school lectures.%初等中等教育における授業音声の音声認識の研究を行う.これまでの講義の音声認識は主に大学などの高等教育における学習支援を対象として行われており,初等中等教育を対象としたものはほとんど行われていなかった.初等中等教育でも初期段階,すなわち小学校授業の学習・教育支援は社会的意義が大きく重要である.小学校授業での発話は,児童向けの発話であるため,言いまわしおよび使用される語彙において大学の講義などの成人向けの発話と大きく異なる.このため本研究では,小学校授業の音声認識用の言語モデルの検討を行った.13件の授業音声の分析を行ったところ,よびかけに関する発話が27.7%と多く存在することを確認した.大人向けのテキストコーパス(日本語話し言葉コーパスおよび新聞記事1年分)で単語3-gram言語モデルを学習しても,カバーできない単語3-gramがテストデータのおよそ半数,3000種類存在することがわかり,補正パープレキシティも340程度と大きいことがわかった.小学生向けのWEBサイトから(約1.2M単語)を用いて言語モデルを学習したところ,大人向けテキストでカバーできなかった3-gramの3000種類のうち,1000種類をカバーできることがわかった.さらに,CSJと併用して言語モデルを学習することで,大人向け新聞記事1年分で学習した言語モデルとほぼ同程度のテストセットパープレキシティを得ることができた.子ども向けWEBサイトから小学校授業の言語モデルを学習する重要性を確認した.
机译:解决了基础和中等教育讲座的自动语音识别(ASR)问题。演讲语音识别的大多数常规研究都以大学演讲或技术会议的口头报告为目标,其中讲师为成人观众发表演讲。相反,在小学或初中,听众是不成熟的人。讲师(老师)通常以与演讲和成人听众不同的方式发声。具体来说,教师会尝试选择简单的单词和短语,其中一些仅适用于孩子。对于小学讲堂的ASR,需要一种涵盖这种语言现象的语言模型。本文讨论了适合小学课程的词汇和语言模型。用成人文字(自发日语的Corpus和一年的报纸文章)训练的单词3-gram语言模型不能覆盖在学校的13堂课中出现的3-gram(约3000种)的一半。我们获得了更高的调整后的测试集困惑度,大约为343。用小文本为孩子训练的Word 3-gram语言模型(来自面向孩子的网站的120万个单词),我们可以覆盖三分之一的3-gram,这在本教程中没有建模。成人语言模型。我们确认收集小学语篇ASR的文本语料库很重要。%初等中等教育における授业音声の音声认识の研究を行う。等等とでも行われており,初等中等教育を対象としたものはほとんど行われていなかった。初授业での発话は,児童向けの発话であるため,言いまわしおよび使用される语汇において大学の讲义などの成人向けの発话と大きく异なる。このため本研究では,小型学校の検讨を行った.13件の授业音声の分析を行ったところ,よびかけに关する発话が27.7%と多く存在することを确认した。大人向けのテキストコーパス(日本语话し言葉コーパスおよび新闻记事1年分)で単语3-gram言语默デルを学习しても,カバーできない単语3-gramがテストデータのおよそ半数,3000种存在することがわかり,补正パープレキシティも340程度と大きいことがわかった。小学生向けのWEBサイトから(约1.2M単语)を用いて言语モデルを学习をところ,大人向けテキストでカバーできなかった3-gramの3000种のうち,1000种をカバーできることがわかった。さらに, CSJと并用して言语モデルを学习することで,大人向け新闻记事1年分で学习で言语モデルとほぼ同程度のテストセットパープレキシティを得ることができた。子ども向けWEBサイトから小学校授业の言语モデルを学习する固有を确认した。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号