2011年,まだ30%程度のエラーが出てしまうような難しい課題であった電話会話音声の認識において,深層学習技術による音声認識システムが20%以下のエラー率を達成したとして,関連研究者を大いに驚かせた[Seide 11].この連載のほかの解説でも触れられているが,深層学習は層数の大きな多層パーセプトロン(Multilayer Perceptron:MLP)を学習するための手段である.音声認識の研究コミュニティでは,主流とはいえないながらも層数の少ない多層パーセプトロンに関する研究も進められていたが,このように多数の層を用いたパーセプトロンが,最も難しい音声認識問題の一つである電話会話音声で有効に利用可能であるというのは,多くの研究者にとって衝撃的だったのではないかと予想される.音声認識分野における深層学習技術の適用は,2009年に Deng らのグループが"Deep Learning for Speech Recognition and Related Applications”と題したワークショップをNIPSと併催で行っていることから,ほかの応用分野に先駆けていたといえる.しかし,この時点では,音声認識技術の最先端で利用されているような,大語彙で複雑な依存関係を必要とする統計モデルに直接適用できるかどうか疑問が残っていた.
展开▼