In this paper, we revisit a generic object recognition problem from a point of view of human-computer interaction. Many of existing algorithms of the generic object recognition consist of following three tasks: target region segmentation, feature extraction and classification. While these three tasks are automatically processed on a computer in the previous approaches, solving the target region segmentation task by a computer is not always necessary in many practical situations in which a recognition system can request a user to input rough segmentation data of a target. Although rough segmentation may not give enough classification performance, the use of many rough segmentation datasets in learning process will avoid this problem. In order to validate this hypothesis, we created "20 wild bird datasets" and evaluated classification accuracy of the datasets. Our experiments revealed that generating multiple training samples from a single image by using multiple rough segmentation datasets brought positive effects on classification accuracies, especially when image features including spacial information such asrnPHOG and PHOW were used.%本報告では,一般物体認識の問題を,人間と計算機の対話型操作という観点から再考する.多くの一般物体認識アルゴリズムは,対象領域分割,特徴抽出,識別の3段階の処理で構成されている.通常,これら3つの処理は計算機により自動で行われるが,実用の場面では,領域分別の問題は必ずしも解く必要は無いと考えられる.アプリケーションによっては,ユーザーに大まかな領域分割を要求してもよいことが多いからである.大まかな領域分割では識別性能の低下が懸念されるが,学習用画像に対しても異なる複数の人間による大まかな領域分割データを多数集めておき,これらを用いて学習を行えば,この問題を回避できると考えられる.そこでこの仮説を立証するために“20 wild bird datasets”を作成し,識別性能を評価した.その結果,異なる領域分割データに基づいて,1枚の学習画 像から複数の学習サンプルを生成して学習することで,識別率が向上することがわかった.特に,特徴量に位置情報を含むPHOG 特徴量およびPHOW 特徴量において,顕著な改善が見られることがわかった.
展开▼