首页> 外文OA文献 >Visual attention and perception models for assessing quality in 2D and 3D stereoscopic video
【2h】

Visual attention and perception models for assessing quality in 2D and 3D stereoscopic video

机译:视觉注意力和感知模型,用于评估2D和3D立体视频的质量

摘要

La medida de calidad de vídeo sigue siendo necesaria para definir los criterios que caracterizan una señal que cumpla los requisitos de visionado impuestos por el usuario. Las nuevas tecnologías, como el vídeo 3D estereoscópico o formatos más allá de la alta definición, imponen nuevos criterios que deben ser analizadas para obtener la mayor satisfacción posible del usuario. Entre los problemas detectados durante el desarrollo de esta tesis doctoral se han determinado fenómenos que afectan a distintas fases de la cadena de producción audiovisual y tipo de contenido variado. En primer lugar, el proceso de generación de contenidos debe encontrarse controlado mediante parámetros que eviten que se produzca el disconfort visual y, consecuentemente, fatiga visual, especialmente en lo relativo a contenidos de 3D estereoscópico, tanto de animación como de acción real. Por otro lado, la medida de calidad relativa a la fase de compresión de vídeo emplea métricas que en ocasiones no se encuentran adaptadas a la percepción del usuario. El empleo de modelos psicovisuales y diagramas de atención visual permitirían ponderar las áreas de la imagen de manera que se preste mayor importancia a los píxeles que el usuario enfocará con mayor probabilidad. Estos dos bloques se relacionan a través de la definición del término saliencia. Saliencia es la capacidad del sistema visual para caracterizar una imagen visualizada ponderando las áreas que más atractivas resultan al ojo humano. La saliencia en generación de contenidos estereoscópicos se refiere principalmente a la profundidad simulada mediante la ilusión óptica, medida en términos de distancia del objeto virtual al ojo humano. Sin embargo, en vídeo bidimensional, la saliencia no se basa en la profundidad, sino en otros elementos adicionales, como el movimiento, el nivel de detalle, la posición de los píxeles o la aparición de caras, que serán los factores básicos que compondrán el modelo de atención visual desarrollado. Con el objetivo de detectar las características de una secuencia de vídeo estereoscópico que, con mayor probabilidad, pueden generar disconfort visual, se consultó la extensa literatura relativa a este tema y se realizaron unas pruebas subjetivas preliminares con usuarios. De esta forma, se llegó a la conclusión de que se producía disconfort en los casos en que se producía un cambio abrupto en la distribución de profundidades simuladas de la imagen, aparte de otras degradaciones como la denominada “violación de ventana”. A través de nuevas pruebas subjetivas centradas en analizar estos efectos con diferentes distribuciones de profundidades, se trataron de concretar los parámetros que definían esta imagen. Los resultados de las pruebas demuestran que los cambios abruptos en imágenes se producen en entornos con movimientos y disparidades negativas elevadas que producen interferencias en los procesos de acomodación y vergencia del ojo humano, así como una necesidad en el aumento de los tiempos de enfoque del cristalino. En la mejora de las métricas de calidad a través de modelos que se adaptan al sistema visual humano, se realizaron también pruebas subjetivas que ayudaron a determinar la importancia de cada uno de los factores a la hora de enmascarar una determinada degradación. Los resultados demuestran una ligera mejora en los resultados obtenidos al aplicar máscaras de ponderación y atención visual, los cuales aproximan los parámetros de calidad objetiva a la respuesta del ojo humano. ABSTRACT Video quality assessment is still a necessary tool for defining the criteria to characterize a signal with the viewing requirements imposed by the final user. New technologies, such as 3D stereoscopic video and formats of HD and beyond HD oblige to develop new analysis of video features for obtaining the highest user’s satisfaction. Among the problems detected during the process of this doctoral thesis, it has been determined that some phenomena affect to different phases in the audiovisual production chain, apart from the type of content. On first instance, the generation of contents process should be enough controlled through parameters that avoid the occurrence of visual discomfort in observer’s eye, and consequently, visual fatigue. It is especially necessary controlling sequences of stereoscopic 3D, with both animation and live-action contents. On the other hand, video quality assessment, related to compression processes, should be improved because some objective metrics are adapted to user’s perception. The use of psychovisual models and visual attention diagrams allow the weighting of image regions of interest, giving more importance to the areas which the user will focus most probably. These two work fields are related together through the definition of the term saliency. Saliency is the capacity of human visual system for characterizing an image, highlighting the areas which result more attractive to the human eye. Saliency in generation of 3DTV contents refers mainly to the simulated depth of the optic illusion, i.e. the distance from the virtual object to the human eye. On the other hand, saliency is not based on virtual depth, but on other features, such as motion, level of detail, position of pixels in the frame or face detection, which are the basic features that are part of the developed visual attention model, as demonstrated with tests. Extensive literature involving visual comfort assessment was looked up, and the development of new preliminary subjective assessment with users was performed, in order to detect the features that increase the probability of discomfort to occur. With this methodology, the conclusions drawn confirmed that one common source of visual discomfort was when an abrupt change of disparity happened in video transitions, apart from other degradations, such as window violation. New quality assessment was performed to quantify the distribution of disparities over different sequences. The results confirmed that abrupt changes in negative parallax environment produce accommodation-vergence mismatches derived from the increasing time for human crystalline to focus the virtual objects. On the other side, for developing metrics that adapt to human visual system, additional subjective tests were developed to determine the importance of each factor, which masks a concrete distortion. Results demonstrated slight improvement after applying visual attention to objective metrics. This process of weighing pixels approximates the quality results to human eye’s response.
机译:仍然需要视频质量度量来定义表征满足用户施加的观看要求的信号的标准。诸如立体3D视频或超高清格式之类的新技术强加了新标准,必须对其进行分析以使用户获得最大的满意度。在该博士论文的发展过程中发现的问题中,已经确定了影响视听生产链的不同阶段和内容的不同类型的现象。首先,必须通过防止视觉不适,从而防止视觉疲劳的参数来控制内容生成过程,尤其是对于动画和真实动作的立体3D内容而言。另一方面,相对于视频压缩阶段的质量度量使用的度量有时不适合用户的感知。心理视觉模型和视觉注意图的使用将允许对图像的区域进行加权,以便对用户最有可能关注的像素给予更大的重视。通过术语显着性的定义,这两个模块是相关的。显着性是视觉系统通过权衡对人眼最有吸引力的区域来表征可视化图像的能力。立体内容生成的显着性主要是指根据从虚拟对象到人眼的距离来衡量的,由光学幻觉模拟的深度。但是,在二维视频中,显着性不是基于深度,而是基于其他要素,例如运动,细节水平,像素位置或面部外观,这将是构成要素的基本因素。开发了视觉注意力模型。为了检测更可能产生视觉不适的立体视频序列的特征,查阅了有关该主题的大量文献并与用户进行了初步的主观测试。以这种方式得出的结论是,除了诸如所谓的“违反窗口”之类的其他劣化之外,在图像的模拟深度的分布中发生突然变化的情况下会出现不适感。通过专注于分析这些具有不同深度分布的效果的新主观测试,我们尝试指定定义此图像的参数。测试结果表明,图像的突然变化发生在负向运动和视差较高的环境中,这些环境会干扰人眼的适应和发散过程,并且需要增加镜头的聚焦时间。 。在通过适应人类视觉系统的模型改善质量指标的过程中,还进行了主观测试,以帮助确定掩盖某些退化因素时每个因素的重要性。结果表明,在应用加权蒙版和视觉注意力(与客观质量参数接近人眼响应)时获得的结果略有改善。摘要视频质量评估仍然是定义标准的必要工具,可以根据最终用户的观看要求来定义信号特征。新技术(例如3D立体视频和HD格式以及HD以外的格式)必须对视频功能进行新的分析,以获得最高的用户满意度。在本博士论文过程中发现的问题中,已经确定,除了内容类型之外,某些现象还会影响视听生产链中的不同阶段。首先,应通过避免观察者眼睛出现视觉不适并因此避免视觉疲劳的参数来充分控制内容过程的生成。特别需要控制具有动画和实景内容的立体3D序列。另一方面,与压缩过程相关的视频质量评估应得到改进,因为一些客观指标可以适应用户的感知。心理视觉模型和视觉注意图的使用允许对感兴趣的图像区域进行加权,从而更加重视用户最可能关注的区域。这两个工作领域通过术语“显着性”的定义联系在一起。显着性是人类视觉系统表征图像的能力,突出显示对人眼更具吸引力的区域。 3DTV内容生成中的显着性主要是指视错觉的模拟深度,即从虚拟对象到人眼的距离。另一方面,显着性不是基于虚拟深度,而是基于其他特征,例如运动,细节水平,像素在帧中的位置或面部检测,这些是已开发的视觉注意模型的基本特征,如测试所示。查找涉及视觉舒适性评估的大量文献,并与用户进行了新的初步主观评估的开发,以检测增加不适感发生可能性的特征。使用这种方法,得出的结论证实,视觉不适的一个常见根源是视频过渡中出现视差的突然变化时,除了其他劣化(例如窗口违规)之外。进行了新的质量评估,以量化差异在不同序列上的分布。结果证实,负视差环境的突然变化会产生适应性/收敛性不匹配,这是由于人类晶体聚焦虚拟对象的时间增加而引起的。另一方面,为了开发适用于人类视觉系统的指标,还开发了其他主观测试来确定每个因素的重要性,从而掩盖了具体的失真。在将视觉注意力应用于客观指标后,结果表明略有改善。像素加权的过程使质量结果接近人眼的反应。

著录项

  • 作者

    López Velasco Juan Pedro;

  • 作者单位
  • 年度 2016
  • 总页数
  • 原文格式 PDF
  • 正文语种 eng
  • 中图分类

相似文献

  • 外文文献
  • 中文文献
  • 专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号