首页> 外文期刊>電気学会論文誌 C:電子·情報·システム部門誌 >発話シーンからのキーフレーム検出とキーフレームに基づく単語読唇
【24h】

発話シーンからのキーフレーム検出とキーフレームに基づく単語読唇

机译:从发声场景检测关键帧并基于关键帧进行单词阅读

获取原文
获取原文并翻译 | 示例

摘要

In this paper, we propose the new keyframe-based lip reading method which does not need the advanced registration of an utterance scene. To extract keyframe, we apply the frame subtraction method and extract frame which the difference value is the local minimum as the keyframe. We compute thirteen shape features from the five lip regions of the extracted keyframe. Then we apply a discriminant analysis to mouth shape recognition. We generate a code sequence based on a mouth shape recognition result. Moreover, in accordance with several rules, we generate candidate code sequences. Finally, we apply DP matching using two kinds of code sequence of based on keyframe and candidate, and select the similar code sequence as the result word. We set Japanese 19 words as the target. We took four speakers' utterance scene. We carried out three experiments of the keyframe extraction, the mouth shape recognition, and the word recognition. As a result, we obtained average recognition rate of 53.9%. Although there was individual difference, one speaker obtained 72.1% of the highest recognition rate.%発話認識の分野において,高い認識率を誇る音声認識に 関する研究は盛んに取り組まれている。しかし音声情報の みによる認識の場合,周囲雑音の影響を受けやすく,利用 環境が制限される問題がある。近年,高騒音環境下や公共 の場所で声を出せない場面での利用が可能なインタフェー スの一つとして,読唇に関する研究が注目されている。
机译:在本文中,我们提出了一种新的基于关键帧的唇读方法,该方法不需要对发声场景进行高级配准。为了提取关键帧,我们应用帧减法并提取差值为局部最小值的帧作为关键帧。我们从提取的关键帧的五个嘴唇区域计算出十三个形状特征。然后,我们将判别分析应用于嘴形识别。我们基于嘴形识别结果生成一个代码序列。此外,根据几条规则,我们生成候选代码序列。最后,我们使用基于关键帧和候选的两种代码序列进行DP匹配,并选择相似的代码序列作为结果字。我们将日语19个单词作为目标。我们拍摄了四位演讲者的话语场景。我们进行了关键帧提取,嘴形识别和单词识别的三个实验。结果,我们获得了53.9%的平均识别率。尽管存在个体差异,但一位发言者获得了最高识别率的72.1%。近年,高騒音环境下や公共の场所で声を出せない场面での利用が可能なインタフェースの一つとして,読唇に关する研究が注目されている。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号