首页> 外文OA文献 >Predicting saliency and aesthetics in images a bottom-up perspective /
【2h】

Predicting saliency and aesthetics in images a bottom-up perspective /

机译:从下至上的角度预测图像的显着性和美感/

摘要

Esta tesis investiga dos aspectos diferentes sobre cómo un observador percibe una imagen natural: (i) dónde miramos o, concretamente, qué nos atrae la atención, y (ii) qué nos gusta, e.g., si una imagen es estéticamente agradable, o no. Estas dos experiencias son objeto de crecientes esfuerzos de la investigación en visión por computador. Tanto la atención visual como la estética visual pueden ser modeladas como consecuencia de múltiples mecanismos en interacción, algunos bottom-up o involuntarios, y otros top-down o guiados por tareas. En este trabajo nos concentramos en una perspectiva bottom-up, usando mecanismos visuales y características de bajo nivel, ya que es aquí donde los vínculos entre estética y atención son más evidentes, o fácilmente analizables. En la Parte 1 de la tesis presentamos la hipótesis de que las regiones en una imagen que atraen o no la atención pueden ser estimadas usando representaciones estándar de bajo nivel de imágenes en color. Demostramos esta hipótesis usando un modelo de percepción de color de bajo nivel y adaptándolo a un modelo de estimación de la atención. Nuestro modelo de atención hereda una selección de parámetros y un mecanismo de spatial pooling de los modelos de percepción en los que está basado. Éste mecanismo de pooling ha sido ajustado usando datos psicofísicos adquiridos a través de experimentos sobre color y luminancia. El modelo propuesto mejora el estado-del-arte en la tarea de predecir los puntos de atención en dos bases de datos. Tras demostrar la efectividad de nuestro modelo básico de atención, introducimos una representación de la imagen mejorada, basada en conjuntos geométricos. Con esta mejorada representación de imágenes, el rendimiento de nuestro modelo de atención mejora en las dos bases de datos. En la Parte 2 de la tesis, investigamos el problema del análisis estético visual. Debido a que la estética de imágenes es algo complejo y subjetivo, las bases de datos existentes, que proveen unas pocas imágenes y anotaciones, tienen importantes limitaciones. Para tratar estas limitaciones, hemos presentado una base de datos a gran escala para llevar a cabo actividades de análisis estético visual, que llamamos AVA. AVA contiene más de 250,000 imágenes, junto con una rica variedad de anotaciones. Hemos demostrado que aprovechando los datos en AVA, y usando características genéricas de bajo nivel, como SIFT e histogramas de color, podemos superar el estado-del-arte en tareas de predicción de la calidad estética. Finalmente, consideramos la hipótesis de que la información visual de bajo nivel en nuestro modelo de atención puede también ser usada para predecir la estética visual. Para ello, capturamos las características locales de la imagen como contraste, agrupaciones y aislamiento de características, que se suponen relacionadas con reglas universales de la estética. Usamos las respuestas del centre-surround que forman la base de nuestro modelo de atención, para crear un vector de características que describe la estética. También introducimos un nuevo espacio de color, para representaciones de grano fino. Para terminar, demostramos que las características resultantes alcanzan la precisión del estado-del-arte en el problema de clasificación de la calidad estética. Una contribución prometedora de esta tesis es demostrar que diversas experiencias de la visión - percepción de color a bajo nivel, atención visual, y estimación de la estética visual - pueden ser satisfactoriamente modeladas usando un marco de trabajo unificado. Esto sugiere una arquitectura similar en el área V1 del cerebro para la percepción del color y la atención, y añade evidencias a la hipótesis que la apreciación estética está influenciada, en parte, por información de bajo nivel.
机译:本论文研究了观察者如何感知自然图像的两个不同方面:(i)我们在哪里看,或者特别是吸引我们注意力的是什么;(ii)我们喜欢什么,例如图像在美学上是否令人愉悦。这两种经验是计算机视觉研究工作不断增加的主题。可以将视觉注意力和视觉美学建模为多种交互机制的结果,其中某些交互机制是自下而上或非自愿的,而其他交互机制是自上而下或任务驱动的。在这项工作中,我们集中在使用视觉机制和低级特征的自下而上的角度上,因为在这里,美学与注意力之间的联系最为明显,也很容易分析。在论文的第1部分中,我们假设可以使用彩色图像的标准低级表示来估计图像中吸引或不吸引注意力的区域。我们使用一个低级颜色感知模型并将其调整为注意力估计模型来证明该假设。我们的护理模型从其基础的感知模型中继承了对参数的选择和空间合并机制。已使用通过颜色和亮度实验获得的心理物理数据来调整此合并机制。所提出的模型改进了在两个数据库中预测护理点的任务中的最新技术。在证明基本护理模型的有效性之后,我们基于几何集引入了改进的图像表示。通过改进的图像渲染,我们在两个数据库中的护理模型的性能得以提高。在论文的第二部分,我们研究了视觉美学分析的问题。由于图像美学有些复杂和主观,因此提供一些图像和注释的现有数据库具有重要的局限性。为了解决这些限制,我们提出了一个大型数据库来进行视觉美学分析活动,我们称之为AVA。 AVA包含超过250,000张图像,以及各种注释。我们已经证明,通过利用AVA中的数据,并使用通用的低级功能(例如SIFT和颜色直方图),我们可以克服美学质量预测任务中的最新技术。最后,我们考虑一个假设,即注意力模型中的低级视觉信息也可以用于预测视觉美感。为此,我们捕获了图像的局部特征,如对比度,特征的分组和隔离,这被认为与美学的普遍规则有关。我们使用构成我们护理模型基础的围绕中心的响应来创建描述美学的特征向量。我们还引入了一个新的色彩空间,用于细粒度的渲染。总之,我们证明了由此产生的特征在美学质量分类问题中达到了最先进的精度。对本论文的一个有希望的贡献是证明可以使用统一的框架成功地建模各种视觉体验-低级色彩感知,视觉注意力和视觉美学评估。这表明大脑的V1区域具有类似的体系结构,可用于颜色感知和注意力,并为以下假设提供了证据:审美欣赏部分受底层信息的影响。

著录项

  • 作者

    Murray Naila;

  • 作者单位
  • 年度 2013
  • 总页数
  • 原文格式 PDF
  • 正文语种 eng
  • 中图分类

相似文献

  • 外文文献
  • 中文文献
  • 专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号