首页> 外文期刊>電子情報通信学会技術研究報告 >発話理解における視覚情報の役割
【24h】

発話理解における視覚情報の役割

机译:视觉信息在语音理解中的作用

获取原文
获取原文并翻译 | 示例
       

摘要

人間は音声言語を使ってコミュニケーションする場合でも,相手の表情から様々な情報を読み取り,それによって音声情報を補うことでコミュニケーションを円滑にしている.特に音声の補完を行う場合には,話者の口唇の動きから聴覚だけで聞き取れなかった情報を補っていると考えられる.本稿は,発話内容の聞き取りにおける,発話者の顔面の視覚情報の役割を実験的に検証したものである.実験では.短文を発話する映像を用いて,「音声のみ」を聞いた場合と「音声+顔映像」を提示した場合とで音声聞き取りの正確さの比較を行った.この時,音量の異なるノイズを音声に重ね合わせることで,聞き取りの難易度と,顔映像の聞き取り真献の関係を探った.同時に,被験者の視線の動きをアイマークレコーダで計測し,視線の動きと音声補完との関係を調べた.その結果,ノイズを付加しない場合には,顔映像を提示しても音声の聞き取り率は向上せず,被験者は発話者の目元を注視する傾向が認められたのに対し,ノイズがある場合には,顔映像を提示することで音声の聞き取り率が向上し,被験者は発話者の口元を注視することが多いことが明らかになった.このことは,音声言語を主体とするコミュニケーションにおいても,音声情報が劣化した場合には,視覚情報を利用して音声を補完していることを示している.%When we talk with somebody, not only the voice of speaker but also his or her facial expressions play an important role in mutual understanding. This report examined the contribution of visual information of speaker's face to speech cognition. In our experiment, participants were presented two types of materials: (1) voice only, (2) motion picture of speaker with voice and face under four different levels of background noise conditions and were asked to repeat precisely what speaker said. The results showed that accuracy of repeat was same or higher in the voice only material than motion picture when materials were presented without noise. But when the noise added, accuracy was higher in motion picture. The analysis of gaze tracking data showed that participants tended to look at speaker's eyes when the motion picture presented without noise, but they looked at speaker's mouth when noise added. These results clearly show the contribution of the visual information of speaker's face to speech cognition.
机译:即使当人类使用口语时,他们也会从对方的面部表情中读取各种信息,并补充语音信息以促进交流。特别地,当补充语音时,认为通过讲话者的嘴唇的移动来补充仅凭听力不能听到的信息。本文通过实验验证了说话者面部的视觉信息在收听话语内容中的作用。在实验中。我们比较了在听“仅语音”和呈现“语音+面部图像”时使用简短句子的视频的语音准确性。这时,我们通过在声音上叠加不同音量的噪声,研究了听力困难与人脸图像真实投入之间的关系。同时,我们使用眼印记录仪测量了受试者的眼球运动,并研究了眼球运动与语音补全之间的关系。结果,当不添加噪声时,即使呈现面部图像也不能提高语音的听觉率,并且对象倾向于凝视说话者的眼睛。表明面部图像的呈现提高了语音的收听率,并且被摄对象经常看着说话者的嘴。这表明即使在主要是口头语言的通信中,当语音信息恶化时,视觉信息也被用来补充语音。 %当我们与某人交谈时,不仅说话者的声音,而且他或她的面部表情在相互理解中也起着重要作用。本报告考察了说话者面部的视觉信息对语音认知的贡献。两种材料:(1)仅语音,(2)在四种不同背景噪声条件下说话者的声音和面部表情,并被要求精确地重复说话者所说的话,结果表明重复的准确性相同或相同在没有声音的情况下,只有声音的材料比电影中的声音要高。但是,当添加噪声时,电影中的准确性更高。对凝视跟踪数据的分析表明,在没有声音的情况下,参与者倾向于看说话者的眼睛噪声,但是当添加噪声时,他们看着扬声器的嘴巴,这些结果清楚地表明了扬声器面部的视觉信息对言语认知。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号