学習による映像中の音源同定

池田　千慮; フォン　ヤオカイ; 内田　誠一

首页> 外文期刊>電子情報通信学会技術研究報告 >学習による映像中の音源同定

【24h】

学習による映像中の音源同定

机译：通过学习识别视频中的声源

获取原文

获取原文并翻译 | 示例

获取外文期刊封面封底 >>

开具论文收录证明 >>

文献代查 >>

团队文献服务 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

本論文では，対象を絞った上でより高精度な画像と書の統合解析処理を目的としている．具体的には音源同定問題をAdaBoost を用いた識別器学習の枠組みで扱う．ここで，AdaBoost 識別器とは複数個の識別器（弱識別器と呼ばれる）による識別結果の重み付多数決によって認識結果を得る方法である．学習においては，正例（映像中の音源に相当する画素）・負例（同じく非音源に相当する画素）を準備し，それを用いてAdaBoost により誤認識率が最も低くなるように弱識別器を構成する．こうして得られた弱識別器の識別結果の重み付多数決によって音源が同定される．画像による弱識別器と苦情報による弱識別器を組み合わせることで，高精度な音源同定が可能となる．ただし，音源同定独特の性質として，書と画像というマルチモーダルな情報が与えられたとしても，利用の仕方によっては，苦情報がほとんど識別に寄与しなくなることがある．本稿ではこの状況について確認するとともに，その状況の解決法について提案する．%Sound source detection in an image is a difficult inverse problem where the pixels belonging to the sound source area are to be estimated. The purpose of this paper is to consider an accurate sound source detection method by using machine learning framework. Specifically, the proposed method relies on an AdaBoost-based learning scheme for discriminating whether each pixel belongs to a sound source or not. The learning is done by training weak learners to discriminate positive samples (couples of image features around sound sources and audio features) and negative samples (couples of image features distant from sound sources and audio features). This learning scheme simply combines these multimodal information (i.e., image and audio) by using some weak learners to discriminate the samples by a single image feature and others by a single audio feature. The performance of this naive implementation based on a simple combination of multimodal information was examined experimentally and its essential problem was revealed with a possible remedy.

机译：在本文中，我们旨在缩小目标范围后对图像和书籍进行更准确的集成分析处理。具体而言，在使用AdaBoost进行分类器学习的框架中处理声源识别问题。在此，AdaBoost分类器是一种通过多个分类器（称为弱分类器）通过对分类结果进行加权多数投票来获得识别结果的方法。在学习中，我们准备了正例（对应于图像中声源的像素）和负例（对应于非声源的像素），并使用它们通过AdaBoost弱化了分类器，从而最大程度地降低了错误识别率。构造。通过以这种方式获得的弱分类器的分类结果的加权多数决定来识别声源。通过组合基于图像的弱分类器和基于苦味信息的弱分类器，可以实现高精度的声源识别。然而，作为声源识别所特有的属性，即使给出诸如书法和图像之类的多峰信息，根据其使用方式，苦味信息也几乎不会有助于识别。在本文中，我们确认了这种情况并提出了解决方案。％图像中的声源检测是一个困难的反问题，其中要估计属于声源区域的像素。本文旨在通过使用机器学习框架来考虑一种准确的声源检测方法。该方法依靠基于AdaBoost的学习方案来区分每个像素是否属于声源，通过训练弱学习者来区分正样本（围绕声源和音频特征的图像特征对）和负样本（远离声音源和音频特征的几个图像特征。）该学习方案通过使用一些弱学习者通过单个图像特征来区分样本，而通过单个音频特征来区分样本，从而简单地组合了这些多模态信息（即图像和音频）。实验研究了基于简单的多模式信息组合的这种幼稚实现的性能，揭示了基本问题并可能采取的补救措施。

著录项

来源
《電子情報通信学会技術研究報告》 |2010年第188期| p.93-98| 共6页
作者
池田　千慮; フォン　ヤオカイ; 内田　誠一;
展开▼
作者单位

九州大学大学院システム情報科学府;

九州大学大学院システム情報研究院;

九州大学大学院システム情報研究院;

展开▼
收录信息
原文格式 PDF
正文语种 jpn
中图分类
关键词
音源同定; 学習; AdaBoost;

机译：声源识别;学习;AdaBoost;

相似文献

外文文献
中文文献
专利

1. 学習による映像中の一般音源同定 [J] . 池田　千廣, フォン　ヤオカイ, 内田　誠一電子情報通信学会技術研究報告 . 2011 ,第467期

机译：通过学习识别视频中的一般声源
2. 学習による映像中の音源同定 [J] . 池田千廣, フォンヤオカイ, 内田誠一電子情報通信学会技術研究報告. 情報論的学習理論と機械学習 . 2010 ,第188期

机译：通过学习识别视频中的声源
3. 学習による映像中の音源同定 [J] . 池田　千慮, フォン　ヤオカイ, 内田　誠一電子情報通信学会技術研究報告 . 2010 ,第187期

机译：通过学习识别视频中的声源
4. TCCに基づく自己教師学習による特徴表現を用いた映像中の人物動作の検出に関する検討: 動作検出パラメータが与える影響に対する考察 [C] . 増田　毅, 藤後　廉, 小川　貴弘, マルチメディアストレージ研究会;映像表現＆コンピュータグラフィックス研究会;メディア工学研究会;画像工学研究会;ITS研究会 . 2021

机译：基于TCC的自主学习特征表示，通过特征表示检测视频的个人操作研究：操作检测参数影响的研究
5. 深層学習による分光反射スペクトルからの変質鉱物同定 [D] . 田中壮一郎, TANAKA Soichiro 2019

机译：通过深度学习从光谱反射光谱中识别出改变的矿物
6. 教育工学的手法による精神薄弱児の授業の研究 : 生活単元学習における映像教材の活用と学習反応の分析について [O] . 大野圀男 / 西野賢寿 / 大貫亘 / 本田えつ子 / 中崎静子 / 甲斐邦子 / 須藤清 / 佐々木正志 1983

机译：利用教育工程技术对弱智儿童课程的研究：视频教材的利用与生命单元学习中的学习反应分析

学習による映像中の音源同定

摘要

著录项

相似文献

相关主题

期刊订阅