Twitter 中の使用単語の変化に基づく未知語の発見とそれに基づく音声認識用言語モデルの適応

机译：根据Twitter中使用过的单词的变化发现未知单词，并基于它们对语音识别进行语言模型调整

获取原文

页面导航

摘要
著录项
相似文献
相关主题

摘要

本稿では，Twitter を用いて新しく使用されるようになった音声認識システムにとって正しく認識されないと考えられる未知語の発見手法の提案と，発見した未知語に対応した言語モデルを作成し，音声認識システムに適用する手法の提案を行った．Twitterから取得したツイートを，新しいツイートと過去のツイートとで比較することにより，ユーザー間の使用単語の変化が取得でき，そこから新しく使用されるようになった未知語の取得が可能となる．これらの未知語を基に未知語事例とBCCWJ を用いて言語モデルを作成する手法と，BCCWJ に未知語トークンを挿入する手法を用いて言語モデルを作成する手法を提案した．提案手法を用いて作成した言語モデルでは，ベースラインと比較して補正パープレキシティの改善が得られ，取得した未知語が含まれる評価セットにおいてパープレキシティ及び補正パープレキシティの改善が得られた．音声認識実験では，作成した言語モデルを適用した音声認識システムで未知語が含まれる文を認識した場合，音声認識システム全てにおいて，ベースライン音声認識システムより良い単語誤り率と未知語誤り率を得られた．BCCWJ に未知語トークンを約25,000 個挿入する手法を用いて作成した言語モデルを適用した音声認識システムが，単語認識において最も良い結果となり，ベースラインシステムと比較して相対的に約52%の単語誤り率の改善された．BCCWJ に未知語トークンを約50,000個挿入する手法を用いて作成した言語モデルを適用した音声認識システムが，未知語認識において最も良い結果となり，ベースラインシステムと比較して相対的に約91%の未知語誤り率の改善が得られた．これによって，未知語誤り率の改善が全体的な単語誤り率の改善へと繋がる結果となった．

机译：在本文中，我们提出了一种方法，用于发现Twitter上新使用的语音识别系统无法正确识别的未知单词，并创建与发现的未知单词相对应的语言模型。我们提出了一种应用于的方法。通过将从Twitter获得的推文与新推文和过去推文进行比较，可以获取用户之间使用的单词的变化，并且可以获取新使用的未知单词。我们提出了使用未知单词大小写和BCCWJ基于这些未知单词创建语言模型的方法，以及使用将未知单词标记插入BCCWJ的方法创建语言模型的方法。在通过该方法创建的语言模型中，与基线相比，纠正困惑度得到了改善，并且在包含获取的未知单词的评估集中，困惑度和纠正困惑度得到了改善。它是。在语音识别实验中，当应用创建的语言模型的语音识别系统识别出包含未知单词的句子时，所有语音识别系统都比基准语音识别系统获得更好的单词错误率和未知单词错误率。被给予。语音识别系统应用了通过在BCCWJ中插入大约25,000个未知单词标记创建的语言模型，从而在单词识别方面取得了最佳效果，并且将大约52％的单词与基准系统进行了比较。错误率得到改善。语音识别系统将通过在BCCWJ中插入大约50,000个未知单词标记创建的语言模型应用于识别未知单词的最佳结果，并且与基线系统相比，该结果相对约为91％。获得了未知单词错误率的改善。结果，未知词错误率的提高导致整体词错误率的提高。

著录项

来源
《日本音響学会;日本音響学会秋季研究発表会》|2018年|1017-1020|共4页
会议地点 1340-3168
作者
小橋優矢; 西村良太; 北岡教英;
展开▼
作者单位

徳島大;

展开▼
会议组织
原文格式 PDF
正文语种
中图分类
关键词

相似文献

外文文献
中文文献
专利

1. 実環境ハンズフリー音声認識のための音響モデルと言語モデルに基づく音声区間検出と認識アルゴリズム [J] . 酒井啓行, ツィンツァレクトビアス, 川波弘道, 電子情報通信学会技術研究報告. 音声. Speech . 2007,第116期

机译：基于声学模型和语言模型的语音间隔检测与识别算法，用于真实环境中的免提语音识别
2. 実環境ハンズフリー音声認識のための音響モデルと言語モデルに基づく音声区間検出と認識アルゴリズム [J] . 酒井啓行, ツィンツァレクトビアス, 川波弘道, 電子情報通信学会技術研究報告. 音声. Speech . 2007,第116期

机译：基于语言模型和识别算法的真实环境免提语音识别和语音段检测声学模型
3. 言語モデルと発音辞書の統計的話し言葉変換に基づく国会音声認識 [J] . 秋田祐哉, 河原達也, AKITA Yuya, 電子情報通信学会技術研究報告. 音声. Speech . 2007,第406期

机译：基于语言模型的议会语音识别和语音词典的统计口语转换
4. Twitter 中の使用単語の変化に基づく未知語の発見とそれに基づく音声認識用言語モデルの適応 [C] . 小橋優矢, 西村良太, 北岡教英日本音響学会研究発表会 . 2018

机译：基于使用Twitter中的改变和语言模型语言模型的改变，发现未知数未知数
5. 肝機能障害の評価法とその障害機序に関する研究; ヒト肝ミトコンドリアの日内代謝変動に基づく肝機能評価及び動物モデルを用いた肝ミトコンドリア障害機序 [D] . Iwata, Shingo 1993

机译：肝功能障碍评估方法及其机制的研究；基于人肝线粒体每日代谢变化和肝线粒体损伤机制的动物模型对肝功能的评估
6. WWWから得られる検索語重み付けと話題適応に基づく音声認識のための言語モデル [O] . 宮崎将隆 2010

机译：基于从WWW获得的搜索词加权和主题自适应的语音识别语言模型

Twitter 中の使用単語の変化に基づく未知語の発見とそれに基づく音声認識用言語モデルの適応

摘要

著录项

相似文献

相关主题

期刊订阅