首页> 中文学位 >面向感知的图像场影及情感分类算法研究
【6h】

面向感知的图像场影及情感分类算法研究

代理获取

摘要

随着多媒体技术和计算机网络技术的发展,人们接触到的图像数据以前所未有的速度增长,越来越丰富的图像资源使用户难以在浩如烟海的数据中找到自己真正需要的信息。因此,对图像数据进行有效的分类组织成为目前迫切需要解决的问题。在图像的分类过程中,用户关心的是在概念层次上的图像内容,即图像所描述的对象、场景以及表达的情感等。但是,限于目前计算机对图像理解的技术水平,直接从图像的低层视觉特征推理出图像的高层语义还十分困难。本文从人的认知角度出发,以“视觉词包建模―语义主题建模-情感映射函数构建”为路线来弥合图像低层特征和高层语义之间的语义鸿沟。论文工作的前半部分主要研究图像的场景分类算法,着重讨论如何为图像构建符合用户感知的语义视觉词包模型,以及如何有效地融入上下文语义信息提取图像的语义主题以改进场景分类性能。论文工作的后半部分主要研究图像的情感分类算法,着重讨论如何基于视觉认知理论,建立有效的机器学习模型来解决图像的情感分类问题。
  (1)提出一种基于信息瓶颈理论的图像场景分类算法
  在基于“视觉词包模型(Bag of Visual Words)”的图像场景分类算法上,由于其性能在很大程度上依赖于视觉单词(Visual words),因此本文提出了一种基于信息瓶颈理论的图像场景分类算法,无需手工标注利用语义相似性生成视觉单词,这与目前依据视觉相似性生成视觉单词的思路有显著的区别。其原理是,首先基于图像的场景类别标签,采用高斯混合模型(GMM)将图像区域的低层视觉特征转换为表征语义类别标签的特征;其次,基于信息瓶颈理论(IB)依据语义相似性聚类生成语义视觉单词;最后以语义视觉单词的出现频率表示图像的场景内容,完成图像场景分类任务。
  (2)提出一种基于上下文语义信息的图像场景分类算法
  在基于“语义主题建模”的图像场景分类算法上,为了能同时克服视觉单词中存在的同义(一义多词)和多义(一词多义)问题,本文基于视觉认知理论,提出了一种基于上下文语义信息的图像场景分类算法,将图像区域的视觉特征相似性与语义概念相关性相结合构建语义主题。其原理是,首先采用概率潜在语义分析模型(pLSA)挖掘视觉单词之间的语义共生概率;其次利用马尔科夫随机场(MRF)理论中类别标记的伪似然度近似策略将图像区域的视觉特征相似性与语义概念相关性有机地集成起来,充分发挥这两种信息对于语义主题生成的贡献,最后语义主题的出现频率表示场景内容,从而有效地提高场景分类算法的性能。
  (3)提出一种基于Affective-pLSA模型的图像情感分类算法
  针对图像的情感分类问题,本文基于视觉心理学的相关成果,提出了一种基于情感概率潜在语义分析(Affective-pLSA)模型的图像情感分类算法。与传统的算法不同,该算法并不是利用已有的机器学习算法建立低层视觉特征和高层情感语义之间的映射关系;而是针对图像情感分类问题的自身特点,改进概率潜在语义分析(pLSA)模型生成一种符合人类情感感知规则的Affective-pLSA模型,作为映射函数完成情感分类任务。算法的原理是基于视觉认知理论,即一幅图倒的情感语义是由图像中视觉单词按照一定的共生规则组合表达的,首先以视觉单词间的共生概率值为基元构建图像的矩阵表示;其次利用Affective-pLSA模学习图像的情感主题;最后采用多标记K近邻算法(ML-KNN),基于图像情感主题的出现频率进行情感分类。需要指出的是,传统的pLSA模型反映的是潜在主题与视觉单词本身的概率关系。而Affective-pLSA模型试图挖掘出反映图像某种情感语义信息的视觉单词的共生频率关系,即潜在主题与视觉单词共生频率的概率关系。而这种潜在主题与视觉单词共生频率的概率关系恰能有效地契合视觉认知理论。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号