首页> 外文期刊>電子情報通信学会技術研究報告. 音声. Speech >初等中等教育における授業音声認識のための言語モデルの検討
【24h】

初等中等教育における授業音声認識のための言語モデルの検討

机译:中小学班级语音识别语言模型的检验

获取原文
获取原文并翻译 | 示例
           

摘要

初等中等教育における授業音声の音声認識の研究を行う.これまでの講義の音声認識は主に大学などの高等教育における学習支援を対象として行われており,初等中等教育を対象としたものはほとんど行われていなかった.初等中等教育でも初期段階,すなわち小学校授業の学習·教育支援は社会的意義が大きく重要である.小学校授業での発話は,児童向けの発話であるため,言いまわしおよび使用される語彙において大学の講義などの成人向けの発話と大きく異なる.このため本研究では,小学校授業の音声認識用の言語モデルの検討を行うた.13件の授業音声の分析を行ったところ,よびかけに関する発話が27.7%と多く存在することを確認した.大人向けのテキストコーパス(日本語話し言葉コーパスおよび新聞記事1年分)で単語3-gram言語モデルを学習しても,カバーできない単語3-gramがテストデータのおよそ半数,3000種類存在することがわかり,補正パープレキシティも340程度と大きいことがわかった.小学生向けのWEBサイトから(約1.2M単語)を用いて言語モデルを学習したところ,大人向けテキストでカバーできなかった3-gramの3000種類のうち,1000種類をカバーできることがわかった.さらに,CSJと併用して言語モデルを学習することで,大人向け新聞記事1年分で学習した言語モデルとほぼ同程度のテストセットパープレキシティを得ることができた.子ども向けWEBサイトから小学校授業の言語モデルを学習する重要性を確認した.
机译:我们研究中小学教育中班级语音的语音识别。迄今为止,讲座的语音识别主要针对大学等高等教育中的学习支持,而针对中小学的则很少。即使在中小学教育中,初期阶段的社会意义,即小学班级的学习和教育支持,也非常重要。由于小学阶段的话语是针对儿童的,因此所用的措辞和词汇与成人话语(如大学讲座)完全不同。因此,在这项研究中,我们研究了用于小学班级语音识别的语言模型。当我们分析13种课程声音时,我们确认关于发声的言语多达27.7%。即使您使用成人文本语料库(日语口语语料和一年的报纸文章价值)学习3-gram单词模型,您仍然可以看到大约一半的测试数据,3000种类型的3-gram单词无法覆盖。发现校正困惑度高达340。当我从网站上为小学生学习语言模型(约120万个单词)时,我发现我可以覆盖成人文本无法涵盖的3000种3克类型中的1000种。此外,通过结合CSJ来学习语言模型,我们可以获得与在一年的成人报纸文章中学习的语言模型几乎相同的测试集困惑。我们确认了从网站上学习儿童小学语言模型的重要性。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号