首页> 外文期刊>電子情報通信学会技術研究報告 >マルチモーダル・マルチフレームな手法を用いたTRECVIDセマンティツクインデクシング
【24h】

マルチモーダル・マルチフレームな手法を用いたTRECVIDセマンティツクインデクシング

机译:使用多模态多帧方法的TRECVID语义索引

获取原文
获取原文并翻译 | 示例
       

摘要

本稿では,我々の提案するマルチモーダル・マルチフレームなセマンティツクインデクシング手法の,TRECVID2010ワークショップにおける評価結果を報告する.セマンティツクインデクシングの目的は,映像の中から「人が歌っている」・「飛行機が飛んでいる」など,意味を持った場面を検出することであり,様々な検出対象に対応できる汎用的なシステムが求められる.提案手法は,単純かつ高精度な検出器を目指し,画像特徴のSIFT特徴と音響特徴のMFCC特徴をGaussian Mixture Model(GMM)supervectorによりモデル化したマルチモーダルな手法である.SIFT特徴をショット中の複数のフレームから抽出を行うことで検出精度の向上を図った.TRECVID2010のデータセットで評価実験を行った結果,総合評価のMean Inferred Average Precisionは7.36%となった.%We propose a multi-modal, multi-frame approach for semantic indexing in the TRECVID 2010 workshop. The goal of the semantic indexing is to develop a method for indexing many concepts that will be useful for video search. In this study, we implement a simple and accurate system by using Gaussian Mixture Model (GMM) supervectors with SIFT and MFCC features. The SIFT features are extracted not only from key-frames but also from many image frames in a shot in order to get the most out of multi-frame information. Our best result on the TRECVID 2010 dataset was 7.36% in terms of Mean Inferred Average Precision.
机译:在本文中,我们在TRECVID2010研讨会上报告了我们提出的多模式多框架语义索引方法的评估结果。语义索引的目的是从视频中检测出有意义的场景,例如“一个人正在唱歌”或“一架飞机正在飞行”,它是一种通用设备,可以处理各种检测目标。系统是必需的。所提出的方法是针对简单且高精度的检测器的多模式方法,其中通过高斯混合模型(GMM)超向量对图像特征的SIFT特征和声学特征的MFCC特征进行建模。通过从镜头中的多个帧中提取SIFT特征,提高了检测精度。使用TRECVID2010数据集进行评估实验的结果是,总体评估平均推断平均精度为7.36%。我们在TRECVID 2010研讨会上提出了一种用于语义索引的多模式,多框架方法,其目的是开发一种对许多概念进行索引的方法,这些方法将对视频搜索有用。通过使用具有SIFT和MFCC功能的高斯混合模型(GMM)超向量,可以实现一个简单而准确的系统。SIFT功能不仅要从关键帧中提取,而且还要从镜头中的许多图像帧中提取出来,以最大程度地利用多重图像。就平均推断平均精度而言,我们在TRECVID 2010数据集上的最佳结果是7.36%。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号