Query-Document-Dependent Fusion: A Case Study of Multimodal Music Retrieval

Li Z.; Zhang B.; Yu Y.; Shen J.

首页> 外文期刊>IEEE transactions on multimedia >Query-Document-Dependent Fusion: A Case Study of Multimodal Music Retrieval

【24h】

Query-Document-Dependent Fusion: A Case Study of Multimodal Music Retrieval

机译：查询文档相关的融合：以多模式音乐检索为例

获取原文

获取原文并翻译 | 示例

掌桥外文数据库（机构版） >>

开具论文收录证明 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

In recent years, multimodal fusion has emerged as a promising technology for effective multimedia retrieval. Developing the optimal fusion strategy for different modalities (e.g., content, metadata) has been the subject of intensive research. Given a query, existing methods derive a unified fusion strategy for all documents with the underlying assumption that the relative significance of a modality remains the same across all documents. However, this assumption is often invalid. We thus propose a general multimodal fusion framework, query-document-dependent fusion (QDDF), which derives the optimal fusion strategy for each query-document pair via intelligent content analysis of both queries and documents. By investigating multimodal fusion strategies adaptive to both queries and documents, we demonstrate that existing multimodal fusion approaches are special cases of QDDF and propose two QDDF approaches to derive fusion strategies. The dual-phase QDDF explicitly derives and fuses query- and document-dependent weights, and the regression-based QDDF determines the fusion weight for a query-document pair via a regression model derived from training data. To evaluate the proposed approaches, comprehensive experiments have been conducted using a multimedia data set with around 17 K full songs and over 236 K social queries. Results indicate that the regression-based QDDF is superior in handling single-dimension queries. In comparison, the dual-phase QDDF outperforms existing approaches for most query types. We found that document-dependent weights are instrumental in enhancing multimedia fusion performance. In addition, efficiency analysis demonstrates the scalability of QDDF over large data sets.

机译：近年来，多模式融合已经成为一种有效的多媒体检索技术。为不同的模式（例如，内容，元数据）开发最佳的融合策略一直是深入研究的主题。给定一个查询，现有方法会针对所有文档派生统一的融合策略，并假设在所有文档中模态的相对重要性均保持不变。但是，这种假设通常是无效的。因此，我们提出了一种通用的多模式融合框架，即查询文档相关的融合（QDDF），该框架通过对查询和文档的智能内容分析得出每个查询文档对的最佳融合策略。通过研究适用于查询和文档的多峰融合策略，我们证明了现有的多峰融合方法是QDDF的特例，并提出了两种QDDF方法来导出融合策略。双阶段QDDF显式导出并融合与查询和文档有关的权重，基于回归的QDDF通过从训练数据得出的回归模型为查询-文档对确定融合权重。为了评估提出的方法，已经使用多媒体数据集进行了全面的实验，该数据集包含大约17 K完整歌曲和超过236 K的社交查询。结果表明，基于回归的QDDF在处理一维查询方面表现优异。相比之下，对于大多数查询类型，双阶段QDDF优于现有方法。我们发现依赖文档的权重有助于增强多媒体融合性能。此外，效率分析证明了QDDF在大型数据集上的可伸缩性。

著录项

来源
《IEEE transactions on multimedia》 |2013年第8期|1830-1842|共13页
作者
Li Z.; Zhang B.; Yu Y.; Shen J.;
展开▼
作者单位

School of Computing, National University of Singapore,|c|;

展开▼
收录信息
原文格式 PDF
正文语种 eng
中图分类
关键词
Information retrieval; multimodal; query-document-dependent fusion;

机译：信息检索;多模式;查询文档相关的融合;

相似文献

外文文献
中文文献
专利

1. Multimodal Sensory-Spatial Integration and Retrieval of Trained Motor Patterns for Body Coordination in Musicians and Dancers [J] . Ladda Aija Marie, Wallwork Sarah B., Lotze Martin Frontiers in Psychology . 2020,第2期

机译：音乐家与舞者身体协调培训电机模式的多式觉感觉 - 空间集成与检索
2. Multimodal Sensory-Spatial Integration and Retrieval of Trained Motor Patterns for Body Coordination in Musicians and Dancers [J] . Aija Marie Ladda, Sarah B. Wallwork, Martin Lotze Frontiers in Psychology . 2020,第a期

机译：音乐家与舞者身体协调训练电机模式的多式联敏 - 空间集成与检索
3. Deep learning-based late fusion of multimodal information for emotion classification of music video [J] . Yagya Raj Pandeya, Joonwhoan Lee Multimedia Tools and Applications . 2021,第2期

机译：基于深度学习的音乐视频情感分类的多峰信息深融合
4. Document Dependent Fusion in Multimodal Music Retrieval [C] . Zhonghua Li, Bingjun Zhang, Ye Wang ACM multimedia conference . 2011

机译：多模式音乐检索中基于文档的融合
5. Music Information Retrieval Using Combinatorial Fusion [D] . Romero, Sharon 2006

机译：使用组合融合检索音乐信息
6. Multimodal Sensory-Spatial Integration and Retrieval of Trained Motor Patterns for Body Coordination in Musicians and Dancers [O] . Aija Marie Ladda, Sarah B. Wallwork, Martin Lotze 2020

机译：音乐家与舞者身体协调培训电机模式的多式觉感觉 - 空间集成与检索
7. Multimodal Music Information Retrieval: From Content Analysis to Multimodal Fusion [O] . LI ZHONGHUA 2013

机译：多峰音乐信息检索：从内容分析到多峰融合

Query-Document-Dependent Fusion: A Case Study of Multimodal Music Retrieval

摘要

著录项

相似文献

相关主题

期刊订阅