...
首页> 外文期刊>電子情報通信学会技術研究報告 >学習による映像中の音源同定
【24h】

学習による映像中の音源同定

机译:通过学习识别视频中的声源

获取原文
获取原文并翻译 | 示例

摘要

本論文では,対象を絞った上でより高精度な画像と書の統合解析処理を目的としている.具体的には音源同定問題をAdaBoost を用いた識別器学習の枠組みで扱う.ここで,AdaBoost 識別器とは複数個の識別器(弱識別器と呼ばれる)による識別結果の重み付多数決によって認識結果を得る方法である.学習においては,正例(映像中の音源に相当する画素)・負例(同じく非音源に相当する画素)を準備し,それを用いてAdaBoost により誤認識率が最も低くなるように弱識別器を構成する.こうして得られた弱識別器の識別結果の重み付多数決によって音源が同定される.画像による弱識別器と苦情報による弱識別器を組み合わせることで,高精度な音源同定が可能となる.ただし,音源同定独特の性質として,書と画像というマルチモーダルな情報が与えられたとしても,利用の仕方によっては,苦情報がほとんど識別に寄与しなくなることがある.本稿ではこの状況について確認するとともに,その状況の解決法について提案する.%Sound source detection in an image is a difficult inverse problem where the pixels belonging to the sound source area are to be estimated. The purpose of this paper is to consider an accurate sound source detection method by using machine learning framework. Specifically, the proposed method relies on an AdaBoost-based learning scheme for discriminating whether each pixel belongs to a sound source or not. The learning is done by training weak learners to discriminate positive samples (couples of image features around sound sources and audio features) and negative samples (couples of image features distant from sound sources and audio features). This learning scheme simply combines these multimodal information (i.e., image and audio) by using some weak learners to discriminate the samples by a single image feature and others by a single audio feature. The performance of this naive implementation based on a simple combination of multimodal information was examined experimentally and its essential problem was revealed with a possible remedy.
机译:在本文中,我们旨在缩小目标范围后对图像和书籍进行更准确的集成分析处理。具体而言,在使用AdaBoost进行分类器学习的框架中处理声源识别问题。在此,AdaBoost分类器是一种通过多个分类器(称为弱分类器)通过对分类结果进行加权多数投票来获得识别结果的方法。在学习中,我们准备了正例(对应于图像中声源的像素)和负例(对应于非声源的像素),并使用它们通过AdaBoost弱化了分类器,从而最大程度地降低了错误识别率。构造。通过以这种方式获得的弱分类器的分类结果的加权多数决定来识别声源。通过组合基于图像的弱分类器和基于苦味信息的弱分类器,可以实现高精度的声源识别。然而,作为声源识别所特有的属性,即使给出诸如书法和图像之类的多峰信息,根据其使用方式,苦味信息也几乎不会有助于识别。在本文中,我们确认了这种情况并提出了解决方案。 %图像中的声源检测是一个困难的反问题,其中要估计属于声源区域的像素。本文旨在通过使用机器学习框架来考虑一种准确的声源检测方法。该方法依靠基于AdaBoost的学习方案来区分每个像素是否属于声源,通过训练弱学习者来区分正样本(围绕声源和音频特征的图像特征对)和负样本(远离声音源和音频特征的几个图像特征。)该学习方案通过使用一些弱学习者通过单个图像特征来区分样本,而通过单个音频特征来区分样本,从而简单地组合了这些多模态信息(即图像和音频)。实验研究了基于简单的多模式信息组合的这种幼稚实现的性能,揭示了基本问题并可能采取的补救措施。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号