首页> 外文会议>日本音響学会;日本音響学会秋季研究発表会 >Twitter 中の使用単語の変化に基づく未知語の発見とそれに基づく音声認識用言語モデルの適応
【24h】

Twitter 中の使用単語の変化に基づく未知語の発見とそれに基づく音声認識用言語モデルの適応

机译:根据Twitter中使用过的单词的变化发现未知单词,并基于它们对语音识别进行语言模型调整

获取原文

摘要

本稿では,Twitter を用いて新しく使用されるようになった音声認識システムにとって正しく認識されないと考えられる未知語の発見手法の提案と,発見した未知語に対応した言語モデルを作成し,音声認識システムに適用する手法の提案を行った.Twitterから取得したツイートを,新しいツイートと過去のツイートとで比較することにより,ユーザー間の使用単語の変化が取得でき,そこから新しく使用されるようになった未知語の取得が可能となる.これらの未知語を基に未知語事例とBCCWJ を用いて言語モデルを作成する手法と,BCCWJ に未知語トークンを挿入する手法を用いて言語モデルを作成する手法を提案した.提案手法を用いて作成した言語モデルでは,ベースラインと比較して補正パープレキシティの改善が得られ,取得した未知語が含まれる評価セットにおいてパープレキシティ及び補正パープレキシティの改善が得られた.音声認識実験では,作成した言語モデルを適用した音声認識システムで未知語が含まれる文を認識した場合,音声認識システム全てにおいて,ベースライン音声認識システムより良い単語誤り率と未知語誤り率を得られた.BCCWJ に未知語トークンを約25,000 個挿入する手法を用いて作成した言語モデルを適用した音声認識システムが,単語認識において最も良い結果となり,ベースラインシステムと比較して相対的に約52%の単語誤り率の改善された.BCCWJ に未知語トークンを約50,000個挿入する手法を用いて作成した言語モデルを適用した音声認識システムが,未知語認識において最も良い結果となり,ベースラインシステムと比較して相対的に約91%の未知語誤り率の改善が得られた.これによって,未知語誤り率の改善が全体的な単語誤り率の改善へと繋がる結果となった.
机译:在本文中,我们提出了一种方法,用于发现Twitter上新使用的语音识别系统无法正确识别的未知单词,并创建与发现的未知单词相对应的语言模型。我们提出了一种应用于的方法。通过将从Twitter获得的推文与新推文和过去推文进行比较,可以获取用户之间使用的单词的变化,并且可以获取新使用的未知单词。我们提出了使用未知单词大小写和BCCWJ基于这些未知单词创建语言模型的方法,以及使用将未知单词标记插入BCCWJ的方法创建语言模型的方法。在通过该方法创建的语言模型中,与基线相比,纠正困惑度得到了改善,并且在包含获取的未知单词的评估集中,困惑度和纠正困惑度得到了改善。它是。在语音识别实验中,当应用创建的语言模型的语音识别系统识别出包含未知单词的句子时,所有语音识别系统都比基准语音识别系统获得更好的单词错误率和未知单词错误率。被给予。语音识别系统应用了通过在BCCWJ中插入大约25,000个未知单词标记创建的语言模型,从而在单词识别方面取得了最佳效果,并且将大约52%的单词与基准系统进行了比较。错误率得到改善。语音识别系统将通过在BCCWJ中插入大约50,000个未知单词标记创建的语言模型应用于识别未知单词的最佳结果,并且与基线系统相比,该结果相对约为91%。获得了未知单词错误率的改善。结果,未知词错误率的提高导致整体词错误率的提高。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号