本論文では,対象を絞った上でより高精度な画像と書の統合解析処理を目的としている.具体的には音源同定問題をAdaBoost を用いた識別器学習の枠組みで扱う.ここで,AdaBoost 識別器とは複数個の識別器(弱識別器と呼ばれる)による識別結果の重み付多数決によって認識結果を得る方法である.学習においては,正例(映像中の音源に相当する画素)・負例(同じく非音源に相当する画素)を準備し,それを用いてAdaBoost により誤認識率が最も低くなるように弱識別器を構成する.こうして得られた弱識別器の識別結果の重み付多数決によって音源が同定される.画像による弱識別器と苦情報による弱識別器を組み合わせることで,高精度な音源同定が可能となる.ただし,音源同定独特の性質として,書と画像というマルチモーダルな情報が与えられたとしても,利用の仕方によっては,苦情報がほとんど識別に寄与しなくなることがある.本稿ではこの状況について確認するとともに,その状況の解決法について提案する.%Sound source detection in an image is a difficult inverse problem where the pixels belonging to the sound source area are to be estimated. The purpose of this paper is to consider an accurate sound source detection method by using machine learning framework. Specifically, the proposed method relies on an AdaBoost-based learning scheme for discriminating whether each pixel belongs to a sound source or not. The learning is done by training weak learners to discriminate positive samples (couples of image features around sound sources and audio features) and negative samples (couples of image features distant from sound sources and audio features). This learning scheme simply combines these multimodal information (i.e., image and audio) by using some weak learners to discriminate the samples by a single image feature and others by a single audio feature. The performance of this naive implementation based on a simple combination of multimodal information was examined experimentally and its essential problem was revealed with a possible remedy.
展开▼