Socializing the Videos: A Multimodal Approach for Social Relation Recognition

Xu Tong; Zhou Peilun; Hu Linkang; He Xiangnan; Hu Yao; Chen Enhong

首页> 外文期刊>ACM transactions on multimedia computing communications and applications >Socializing the Videos: A Multimodal Approach for Social Relation Recognition

【24h】

Socializing the Videos: A Multimodal Approach for Social Relation Recognition

机译：社交中的社会关系识别的多语级方法

获取原文

获取原文并翻译 | 示例

开具论文收录证明 >>

页面导航

摘要
著录项
引文网络
相似文献
相关主题

摘要

As a crucial task for video analysis, social relation recognition for characters not only provides semantically rich description of video content but also supports intelligent applications, e.g., video retrieval and visual question answering. Unfortunately, due to the semantic gap between visual and semantic features, traditional solutions may fail to reveal the accurate relations among characters. At the same time, the development of social media platforms has now promoted the emergence of crowdsourced comments, which may enhance the recognition task with semantic and descriptive cues. To that end, in this article, we propose a novel multimodal-based solution to deal with the character relation recognition task. Specifically, we capture the target character pairs via a search module and then design a multistream architecture for jointly embedding the visual and textual information, in which feature fusion and attention mechanism are adapted for better integrating the multimodal inputs. Finally, supervised learning is applied to classify character relations. Experiments on real-world data sets validate that our solution outperforms several competitive baselines.

机译：作为视频分析的关键任务，社交关系识别对于角色不仅提供了对视频内容的语义上丰富的描述，而且还支持智能应用程序，例如视频检索和视觉问题应答。遗憾的是，由于视觉和语义特征之间的语义差距，传统的解决方案可能无法揭示字符之间的准确关系。与此同时，社交媒体平台的发展现已推动了众群评论的出现，这可能会通过语义和描述性提示增强识别任务。为此，在本文中，我们提出了一种新颖的基于多模式的解决方案来处理字符关系识别任务。具体地，我们通过搜索模块捕获目标字符对，然后设计用于共同嵌入视觉和文本信息的多阵线架构，其中特征融合和注意机制适用于更好地集成多模式输入。最后，监督学习应用于分类字符关系。实际数据集的实验验证了我们的解决方案优于几种竞争基础。

著录项

来源
《ACM transactions on multimedia computing communications and applications》 |2021年第1期|23.1-23.23|共23页
作者
Xu Tong; Zhou Peilun; Hu Linkang; He Xiangnan; Hu Yao; Chen Enhong;
展开▼
作者单位

Univ Sci & Technol China Hefei 230026 Peoples R China;

Univ Sci & Technol China Hefei 230026 Peoples R China;

Univ Sci & Technol China Hefei 230026 Peoples R China;

Univ Sci & Technol China Hefei 230026 Peoples R China;

Alibaba Inc Alibaba Youku Cognit & Intelligent Lab Beijing 100016 Peoples R China;

Univ Sci & Technol China Hefei 230026 Peoples R China;

展开▼
收录信息
原文格式 PDF
正文语种 eng
中图分类
关键词
Social relation recognition; multimodal learning; person search; natural language processing;

机译：社会关系识别;多式化学习;人搜索;自然语言处理;

相似文献

外文文献
中文文献
专利

1. Analyzing layering in textual design: a multimodal approach for examining cultural, linguistic, and social migrations in digital video [J] . Myrrh Domingoa* International Journal of Social Research Methodology . 2011,第3期

机译：分析文本设计中的分层：一种用于检查数字视频中的文化，语言和社会迁移的多模式方法
2. Multi-Scale Graph Reasoning Model for Video Social Relation Recognition [J] . Computer Science and Application . 2021,第2期

机译：视频社交关系识别多尺度图推理模型
3. Attentive Sequences Recurrent Network for Social Relation Recognition from Video [J] . Jinna LV, Bin WU, Yunlei ZHANG, IEICE transactions on information and systems . 2019,第12期

机译：注意力序列循环网络，用于视频中的社会关系识别
4. Multi-stream Fusion Model for Social Relation Recognition from Videos [C] . Jinna Lv, Wu Liu, Lili Zhou, International conference on multimedia modeling . 2018

机译：视频中社会关系识别的多流融合模型
5. A multimodal fusion approach for automatic postal address recognition system using Optical Character Recognition (OCR) and Automatic Speech Recognition (ASR) techniques. [D] . Singh, Amriteshwar. 2011

机译：一种使用光学字符识别（OCR）和自动语音识别（ASR）技术的自动邮政地址识别系统的多模式融合方法。
6. Relations of Maternal Socialization and Toddlers Effortful Control to Childrens Adjustment and Social Competence [O] . Tracy L. Spinrad, Nancy Eisenberg, Bridget Gaertner, -1

机译：产妇社会化和幼儿努力控制与儿童适应能力和社会能力的关系
7. Video Article A Novel Experimental and Analytical Approach to the Multimodal Neural Decoding of Intent During Social Interaction in Freely-behaving Human Infants [O] . Jesus G. Cruz-garza, Zachery R. Hern, Teresa Tse, 2015

机译：视频文章一种新的实验和分析方法在自由行为的人类婴儿社交互动过程中的多模态神经解码

Socializing the Videos: A Multimodal Approach for Social Relation Recognition

摘要

著录项

引文网络

相似文献

相关主题

期刊订阅