基于人脸特征定位和建模理论的视频编码关键技术研究

代理获取

页面导航

摘要
著录项
相似文献
相关主题

摘要

人脸作为人类区别于其他生物的关键特征之一，在人际交往及社会活动中扮演着主要信息载体的角色，因而对其进行全面而深入的研究具有十分重要的理论和现实意义。随着实时多媒体服务的兴起，视频会议、可视电话、新闻播报等应用都与人脸有着直接或间接的联系。伴随这些应用的广泛推广，人脸研究的重要性更是与日俱增。在视频编码及通信界，通常会用“会话视频序列”来对上述应用加以概括。本文即以会话视频序列为研究主体，结合人脸检测、特征定位及模型构建理论开展相应的视频压缩方法和技术路线研究。
　　在经典的视频压缩理论中，所有的帧图像及编码单元都基于同等重要性而被顺序编码。随着研究的深入，人们逐渐意识到视频编码算法的评价指标除了压缩率和峰值信噪比(Peak Signal to Noise Ratio，PSNR)之外，还应考虑“感兴趣区域(Region of Interest，ROI)”的编码质量。事实上，使用者往往以对ROI压缩效果的主观感受的好坏来直接评价视频编码结果的可接受程度。因此，如何保证或提高会话视频序列中人脸ROI的编解码质量是当前会话视频编码领域中亟待研究的前沿课题。
　　本质上，网络带宽、计算能力等编码资源的限制和有效信息在传输过程中的丢失是制约视频编码图像质量的主要因素，其在低带宽、高误码率应用的实时会话视频编码中的影响尤为突出。因此，本论文探讨了两种对人脸ROI予以侧重的编码策略和一种解码端的差错掩盖方法，以实现在给定的信道条件下达到最佳的人脸ROI的主客观视频质量。
　　首先，论文提出了一种用于人脸区域及其特征保持的比特分配及资源优化方案。方案考虑了三个方面的预处理工作。第一，为实现人脸ROI的快速提取，利用人脸区域在会话视频序列中丰富的运动特征，精简了传统Adaboost人脸检测算法中庞大的金字塔式候选图像子集。第二，为保证所提取人脸ROI的准确性，结合肤色特征完成了人脸ROI的辅助确认。第三，为获取人脸轮廓及其他面部特征的宏块(Macro Block，MB)位置，对Snake算法和主动轮廓模型(Active Shape Model，ASM)的搜索范围、收敛方向及能量平衡态判决条件等算法参数的选择方法进行了优化。在参考人脸结构特性为各编码MB赋予特定比特分配优先级的基础之上，方案设计了相对精确的MB级绝对差均值(Mean Absolute Difference，MAD)自适应预测模型和量化参数(Quantization Parameter，QP)更新算法，从而完成了有侧重的比特分配。方案还根据对MB编码模式和其他编码条件的深入分析完成了进一步的资源优化。模拟实验表明，本方案实现了人脸ROI的快速提取及相关特征的较准确检测，优化了编码比特和其他资源的分配方式，较好的保证了人脸ROI及其特征位置的编码质量。与JM9.8中传统比特分配算法及相关参考文献中比特分配算法的实验结果对比显示，在相同编码比特率情况下，本方案人脸ROI的PSNR获得了提高。同时，比特分配与编码资源的优化配置相结合缩小了本方案编码器的帧级目标比特与实际比特的误匹配差距及总体编码耗时。另外，主观测试也进一步验证了本方案能提供视觉效果更好的视频重建质量。
　　其次，论文介绍了视频编码中的全局率失真优化(Rate Distortion Optimization，RDO)思想及其传统解决方法，讨论了编码过程中考虑编码依赖关系的重要性。在将会话视频序列编码依赖性简化为人脸ROI时域依赖性的基础上，提出了一种由人脸ROI的综合优化和非人脸ROI的独立优化相结合的全局RDO框架。该框架能较好适用于常规One-pass编码结构，其中独立优化部分仍遵循传统的RDO优化规则，而综合优化部分则需考虑人脸ROI失真度对未来帧的时域扩散影响，且两部分通过新的拉格朗日系数相关联。为了统计综合优化中人脸ROI所造成的总失真度，本框架提出了一种基于前向运动搜索的人脸ROI时域扩散替代链的构造方法。结合人脸ROI时域扩散链，给出了一种人脸ROI的失真度时域扩散统计模型，其中基于变换残差的拉普拉斯分布特性构造的特征函数通过从运动补偿预测失真估计量化失真，实现了计算复杂度的降低。模拟实验表明，人脸ROI时域扩散替代链构造方法快速、合理，人脸ROI失真度时域扩散统计模型能够较好的估计失真度扩散情况，该框架为会话视频序列人脸ROI的全局RDO提供了一种有效的实施办法。与JM15.1中基于独立假设的RDO方法及相关参考文献中另一种考虑编码依赖性的RDO-Q方法的实验结果对比显示，本框架实现了视频序列整体及人脸ROI在PSNR差值(Bjontegaard1 Delta PSNR，BDPSNR)上的同步提高或编码比特率差值(Bjontegaard Delta Bit Rate，BDBR)的下降。
　　最后，论文研究了会话视频序列的差错掩盖方法，提出了一种基于人脸真实感模型辅助的空域差错掩盖策略。该策略主要包含三个方面的内容。第一，基于主动外观模型(Active Appearance Model，AAM)定位算法效率的高低与AAM初始拟合位置(初始中心、放置方位)和拟合实例(形状实例、表观实例)关系的密切性，设计出人脸关键特征粗定位方法以计算平面偏转角及侧深度偏转角，进而得出AAM模型的初始中心、放置方位和形状实例，同时结合纹理的相似特性确定AAM模型的表观实例，最终给出了一种基于AAM人脸关键特征点提取算法的改进策略。第二，利用得到的AAM人脸关键特征点和Candide-3人脸通用线框模型设计相应的人脸模型姿态调整、形状匹配及纹理映射算法，实现了一种快速的人脸真实感建模方法。第三，根据受损帧预掩盖结果和可供利用的人脸真实感模型，确定各受损MB所属类型划分，从而自适应调用各种空域掩盖算法。特别的，对于人脸ROI纹理块，本策略提出了一种从人脸模型平面映射图中搜索最佳替代块的掩盖思想。模拟实验表明，本策略中AAM改进算法的准确性高于原AAM，且人脸模型构建方法方便快捷，真实感强，为从单张二维图像恢复人脸深度信息的病态问题提供了较合理的解决方案。与基于JM17.0的空域双线插值算法和自适应方向插值算法的实验结果对比显示，基于人脸模型辅助的空域掩盖方法无论在交织打包和棋盘打包情况下，均可实现对受损块的较满意掩盖，提高了人脸ROI的主客观质量，一定程度上解决了人脸ROI丢失尤其是部分特征丢失时的恢复问题。

著录项

作者
范小九;
展开▼
作者单位

西南交通大学;

展开▼
授予单位西南交通大学;
学科计算机应用技术
授予学位博士
导师姓名彭强;
年度 2011
页码
总页数
原文格式 PDF
正文语种中文
中图分类图像编码;
关键词
人脸检测; 特征定位; 视频编码; 模型构建;

相似文献

中文文献
外文文献
专利

1. 基于加权主动形状建模的人脸特征定位方法 [J] . 冀贞海 ,孙宁 ,邹采荣 . 电子与信息学报 . 2007,第004期
2. 基于人脸特征的自适应选择增强FGS视频编码 [J] . 周孝 ,林其伟 ,杨雪婷 . 电视技术 . 2008,第008期
3. 基于Petri网理论的语料仓库建模及关键技术研究 [J] . 邓沌华 ,李源 . 信息系统工程 . 2021,第004期
4. 基于主动形状模型的人脸特征建模 [J] . 陈柯 ,杜利民 . 计算机工程与应用 . 2006,第014期
5. 基于分类外形搜索的人脸特征点定位 [J] . 黄玉琴 ,潘华伟 . 计算机应用研究 . 2019,第004期
6. 基于AAM和反向组合算法的人脸特征定位方法 [C] . Xia Xu ,夏旭 ,Fan Xiaojiu . 第三届全国数字娱乐与艺术暨数字家庭交互应用技术与设计学术研讨会 . 2008
7. 基于卡口监控视频的人脸特征点定位关键技术研究 [A] . 丰慧芳 . 2017

基于人脸特征定位和建模理论的视频编码关键技术研究

摘要

著录项

相似文献

相关主题

期刊订阅