首页> 中国专利> 基于深度学习的图像压缩神经网络模型、及其方法和设备

基于深度学习的图像压缩神经网络模型、及其方法和设备

页面导航

摘要
著录项
说明书
相似文献

摘要

本申请提供了一种基于深度学习的图像压缩神经网络模型、及其方法和设备，通过输入所述原始图像，经编码器生成具有空间变化标准差的服从正态分布的空间特征；令所述空间特征进行量化，同时将所述空间特征通过统计概率编码器进行编码和量化以得到压缩的边缘像素统计信息；将量化后的空间特征与边缘像素统计信息经熵编码以生成压缩图像数据。本申请可实现视觉检测器合格及缺陷所有图像的全保存，在保持高压缩率的同时保留图像更多的信息，使还原之后的图像质量更高；在相同的图像质量下，有更小的压缩率；在更小的压缩率下，比其他方法有相近的压缩和解压时间，从而为卷烟生产企业建立卷烟产品质量追溯体系及在线视觉检测装置的二次复检提供基础。

著录项

公开/公告号CN113141506A

专利类型发明专利
公开/公告日2021-07-20

原文格式PDF
申请/专利权人上海烟草机械有限责任公司;浙江中烟工业有限责任公司;
展开▼

申请/专利号CN202110379367.9
发明设计人杜卫丹;顾昌铃;沈文杰;张利宏;李钰靓;汪建伟;
展开▼

申请日2021-04-08
分类号H04N19/124(20140101);H04N19/13(20140101);H04N19/149(20140101);H04N19/33(20140101);G06N3/04(20060101);G06N3/08(20060101);G06T7/00(20170101);G06T7/13(20170101);
代理机构31219 上海光华专利事务所(普通合伙);
代理人李治东
地址 201206 上海市浦东新区中国(上海)自由贸易试验区锦绣东路2555号
入库时间 2023-06-19 11:54:11

说明书

技术领域

本发明涉及图像压缩技术领域，特别是涉及一种基于深度学习的图像压缩神经网络模型、及其方法和设备。

背景技术

目前卷烟包装设备上配置了大量视觉成像检测装置以用于检测及剔除不合格烟包，从而提高卷烟产品的质量。但由于包装机运行速度极快，短时间内这些视觉装置就会形成大量的图像文件，难以储存、传输，因此一般视觉检测器只存储缺陷照片。

对图像信息进行重新编码，以较少的比特数来表示原来图像内容的技术称为图像压缩。图像数据之所以能被压缩，就是因为数据中存在着冗余。图像数据的冗余主要表现为：图像中相邻像素间的相关性引起的空间冗余；图像序列中不同帧之间存在相关性引起的时间冗余；不同彩色平面或频谱带的相关性引起的频谱冗余。数据压缩的目的就是通过去除这些数据冗余来减少表示数据所需的比特数。由于图像数据量的庞大，在存储、传输、处理时非常困难，因此图像数据的压缩就显得非常重要。信息时代带来了“信息爆炸”，使数据量大增，因此，无论传输或存储都需要对数据进行有效的压缩。

图像压缩可以是有损数据压缩也可以是无损数据压缩。对于如绘制的技术图、图表或者漫画优先使用无损压缩，这是因为有损压缩方法，尤其是在低的位速条件下将会带来压缩失真。如医疗图像或者用于存档的扫描图像等这些有价值的内容的压缩也尽量选择无损压缩方法。有损方法非常适合于自然的图像，例如一些应用中图像的微小损失是可以接受的(有时是无法感知的)，这样就可以大幅度地减小位速。

无损图像压缩常见的方法有：行程长度编码，熵编码法，算术编码，自适应字典算法等。常用的PNG图像就是无损图像压缩。

有损图像压缩常见的方法有：色彩空间缩减，将所选择的颜色定义在压缩图像头的调色板中，图像中的每个像素都用调色板中颜色索引表示；色度抽样，利用人眼对于亮度变化的敏感性远大于颜色变化，这样就可以将图像中的颜色信息减少一半甚至更多；变换编码，即使用离散余弦(DCT)或者小波变换这样的傅里叶相关变换，进行量化和用熵编码法压缩；分形压缩等。常用的JPG图像就是有损图像压缩。

目前市面上影响力比较大的图片压缩技术是WebP和BPG。WebP是谷歌在2010年推出的一款可以同时提供有损压缩和无损压缩的图片文件格式，其以VP8为编码内核，在2011年11月开始可以支持无损和透明色功能。目前facebook、Ebay等网站都已采用此图片格式。BPG(Better Portable Graphics，更好的可移植图形)是一种新的图像格式。它是由知名程序员、ffmpeg和QEMU等项目作者FabriceBellard推出的图像格式，它以HEVC为编码内核，在相同体积下，BPG文件大小只有JPEG的一半。另外BPG还支持8位和16位通道等等。尽管BPG有很好的压缩效果，但是HEVC的专利费很高，所以目前的市场使用比较少。

就压缩效果来说，BPG更优于WebP，但是BPG采用的HEVC内核所带来的专利费，导致其无法在市场进行大范围使用。

发明内容

鉴于以上所述现有技术的缺点，本申请的目的在于提供一种基于深度学习的图像压缩神经网络模型、及其方法和设备，以解决现有技术中存在的至少一个问题。

为实现上述目的及其他相关目的，本申请提供一种基于深度学习的图像压缩神经网络模型，所述模型包括：编码器，用于在输入所述原始图像后生成具有空间变化标准差的服从正态分布的空间特征；第一量化模块，用于将所述空间特征进行量化；统计概率编码器，用于将所述空间特征进行编码以得到压缩的边缘像素统计信息；第二量化模块，用于将所述边缘像素统计信息进行量化；熵编码，用于将量化后的空间特征与边缘像素统计信息进行算数编码以生成压缩图像数据。

于本申请的一实施例中，所述模型还包括：熵解码，用于将所述压缩图像数据经算数解码以得到空间分布信息和边缘像素统计压缩数据；统计概率解码器，用于将所述边缘像素统计压缩数据进行解码以获取边缘像素统计信息；解码器，用于将所述空间分布信息和所述边缘像素统计信息解码以得到有损的还原图像。

于本申请的一实施例中，所述编码器包括：卷积层C11、第一广义除数归一化层、卷积层C12、第二广义除数归一化层、及卷积层C21；其中，第二广义除数归一化层与卷积层C21重复设置4组；所述统计概率编码器包括：绝对值方程、卷积层C22、激活函数R1、卷积层C13、激活函数R2、及卷积层C23；其中，激活函数R2与卷积层C23重复设置2组；所述统计概率解码器包括：卷积层C24、激活函数R3、卷积层C14、激活函数R4、卷积层C25、及激活函数R5；其中，卷积层C24于激活函数R3重复设置2组；所述解码器包括：卷积层C26、第一逆广义除数归一化层、卷积层C15、第二逆广义除数归一化层、及卷积层C16；其中，卷积层C26与第一逆广义除数归一化层重复设置4组。

于本申请的一实施例中，C1开头的卷积层的卷积核大小为5x5；C2开头的卷积层的卷积核大小为更小的3x3。

于本申请的一实施例中，所述第一广义除数归一化层与所述第二广义除数归一化层，通过一个可导同时可逆的变换y＝g(x；θ)，将输入映射到一个指定的密度，该密度的逆变换图像能够提供输入空间的密度估计。

于本申请的一实施例中，所述量化采用一个损失函数来代替，以防止梯度为0，以实现将真实的码率输出比特数目加入到训练中。

为实现上述目的及其他相关目的，本申请提供一种基于深度学习的图像压缩方法，应用于如上所述的基于深度学习的图像压缩神经网络模型，所述方法包括：输入所述原始图像，经编码器生成具有空间变化标准差的服从正态分布的空间特征；令所述空间特征进行量化，同时将所述空间特征通过统计概率编码器进行编码和量化以得到压缩的边缘像素统计信息；将量化后的空间特征与边缘像素统计信息经熵编码以生成压缩图像数据。

于本申请的一实施例中，所述方法还包括图像解压缩方法：将所述压缩图像数据经熵解码得到空间分布信息和边缘像素统计压缩数据；令所述边缘像素统计压缩数据通过统计概率解码器以获取边缘像素统计信息；将所述空间分布信息和所述边缘像素统计信息经过解码器得到有损的还原图像。

为实现上述目的及其他相关目的，本申请提供一种计算机设备，所述设备包括：存储器、及处理器；所述存储器用于存储计算机指令；所述处理器运行计算机指令实现如上所述的方法。

综上所述，本申请提供的一种基于深度学习的图像压缩神经网络模型、及其方法和设备，具有以下有益效果：

本申请可实现视觉检测器合格及缺陷所有图像的全保存，在保持高压缩率的同时保留图像更多的信息，使还原之后的图像质量更高；在相同的图像质量下，有更小的压缩率；在更小的压缩率下，比其他方法有相近的压缩和解压时间，从而为卷烟生产企业建立卷烟产品质量追溯体系及在线视觉检测装置的二次复检提供基础。

附图说明

图1显示为本申请于一实施例中基于深度学习的图像压缩神经网络模型的图像压缩的流程示意图。

图2显示为本申请于一实施例中基于深度学习的图像压缩神经网络模型的图像解压缩的流程示意图。

图3显示为本申请于一实施例中基于深度学习的图像压缩神经网络模型的框架示意图。

图4显示为本申请于一实施例中基于深度学习的图像压缩方法的流程示意图。

图5显示为本申请于一实施例中基于深度学习的图像解压缩方法的流程示意图。

图6显示为本申请于一实施例中计算机设备的结构示意图。

具体实施方式

以下通过特定的具体实例说明本申请的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。本申请还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本申请的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本申请的基本构想，虽然图式中仅显示与本申请中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，但其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

在如上述这种情况下，运用深度学习来设计图片压缩算法就应运而生。本申请通过深度学习技术设计压缩算法的目的之一是，设计一个比目前商用图片压缩更优的压缩算法，同时借助于深度学习技术还可以设计更简洁的端到端算法。在图片、视频压缩领域，主要用到的深度学习技术是卷积神经网络(CNN)。

本申请的主要目的是提出一种基于深度学习的图像压缩方法，其主要是一种有损的图像压缩方法，以实现视觉检测器合格及缺陷所有图像的全保存，在保持高压缩率的同时保留图像更多的信息，使还原之后的图像质量更高，从而为卷烟生产企业建立卷烟产品质量追溯体系及在线视觉检测装置的二次复检提供基础。

本申请所述基于深度学习的图像压缩神经网络模型包括两部分，一部分主要用于图像压缩，另一部分主要用于图像的解压缩。

如图1所示，展示为本申请于一实施例中的基于深度学习的图像压缩神经网络模型的图像压缩的流程示意图。如图所示，主要用于图像压缩部分的模型包括：

编码器110，用于在输入所述原始图像后生成具有空间变化标准差的服从正态分布的空间特征；

第一量化模块120，用于将所述空间特征进行量化；

统计概率编码器130，用于将所述空间特征进行编码以得到压缩的边缘像素统计信息；

第二量化模块140，用于将所述边缘像素统计信息进行量化；

熵编码150，用于将量化后的空间特征与边缘像素统计信息进行算数编码以生成压缩图像数据。

本申请主要考虑了对自然图像的编码方法，即人们通过日常相机或手机拍摄的图像。

于本实施例中，编码器110的作用是将图片转换为压缩特征。在本申请中由编码器110与如图2中所示的生成重构的解码器230组成自编码器或自动编码器，自编码器内部有一个隐含层h，可以产生编码来表示输入。

其中，自编码器或自动编码器是一类在半监督学习和非监督学习中使用的人工神经网络，其功能是通过将输入信息作为学习目标，对输入信息进行表征学习。所述自编码器，就是一种利用反向传播算法使得输出值等于输入值的神经网络，它现将输入压缩成潜在空间表征，然后将这种表征重构为输出。所以，从本质上来讲，自编码器是一种数据压缩算法，其压缩和解压缩算法都是通过神经网络来实现的。自编码器有如下三个特点：数据相关性，就是指自编码器只能压缩与自己此前训练数据类似的数据，比如说使用mnist训练出来的自编码器用来压缩人脸图片，效果肯定会很差；数据有损性，自编码器在解压时得到的输出与原始输入相比会有信息损失，所以自编码器是一种数据有损的压缩算法；自动学习性，自动编码器是从数据样本中自动学习的，这意味着很容易对指定类的输入训练出一种特定的编码器，而不需要完成任何新工作。构建一个自编码器需要两部分：编码器(Encoder)和解码器(Decoder)。编码器将输入压缩为潜在空间表征，可以用函数f(x)来表示，解码器将潜在空间表征重构为输出，可以用函数g(x)来表示，编码函数f(x)和解码函数g(x)都是神经网络模型。自动编码器训练一个由编码部分和解码部分组成的降维网络。编码部分将输入的高维信号转换为低维表示，解码部分将高维信号从低维表示中恢复(不是完全恢复)。自动编码器实现了表示的自动学习，减少了对手工设计特性的需求，被认为是深度学习最重要的优势之一。

第一量化模块120与第二量化模块140中的量化过程，采用一个损失函数来代替，防止梯度为0，可实现一个真实的码率输出比特(bit)数目，加入到训练中；

统计概率编码器130中主要涉及归一化方法，而本申请采用了广义除数归一化mGDN(modified generalized divisive normalization)，相比其他的归一化方式，可以更好的捕捉图像(信源)的统计特性，它对于局部滤波器相应的成对统计特性，提供了更好的拟合，因此可以生成更自然的图像块样本。

具体地，广义除数归一化通过一个可导同时可逆的变换y＝g(x；θ)，将输入映射到一个指定的密度p

y＝g(x；θ) s.t.

and z＝Hx.；

其中，y是指归一化的输出，x是输入，g代表是一个函数，对应y

当选择ε

广义除数归一化优点如下：1)它对于局部滤波器响应的成对统计特性，提供了更好的拟合，因此可以生成更自然的图像块样本；2)它可以作为图像处理任务譬如图像去噪任务的先期准备。3)在捕捉图像统计特性上有了更大的提高，为其成为深度网络的无监督学习任务的通用工具奠定了基础。

熵编码150即编码过程中按熵原理不丢失任何信息的编码。信息熵为信源的平均信息量(不确定性的度量)。常见的熵编码有：香农(Shannon)编码、哈夫曼(Huffman)编码和算术编码(arithmetic coding)即算术编码(arithmetic encoder)，本申请所述熵编码150优选算术编码(arithmetic encoder)。

举例来说，压缩图像的过程包括：原始图像x经过编码器110产生具有空间变化标准差(spatially varying standard deviations)的服从正态分布的空间特征y；然后，一方面把空间特征y通过第一向量模块120量化得到y’，另一方面把空间特征y通过统计概率编码器130进行编码以得到压缩的边缘统计信息z，然后将边缘统计信息z通过第二量化模块140量化得到z’，最后通过熵编码150将量化后的空间特征y’与边缘像素统计信息z’进行算数编码以生成压缩图像数据e。

如图2所示，展示为本申请于一实施例中的基于深度学习的图像压缩神经网络模型的图像解压缩的流程示意图。如图所示，主要用于图像解压缩部分的模型包括：

熵解码210，用于将所述压缩图像数据经算数解码以得到空间分布信息和边缘像素统计压缩数据；

统计概率解码器220，用于将所述边缘像素统计压缩数据进行解码以获取边缘像素统计信息；

解码器230，用于将所述空间分布信息和所述边缘像素统计信息解码以得到有损的还原图像。

于本实施例中，熵解码210中采用与图1中熵编码150对应的算术编码(arithmeticencoder)。

与图1中统计概率编码器130对应的，统计概率解码器220中主要采用代表改进的逆广义除数归一化mIGDN(modified inverse generalized divisive normalization)，以实现与广义除数归一化相反的功能。

解码器230就是从压缩特征恢复出原始图片，即将高维信号从低维表示中恢复(不是完全恢复)。这里解码器230与图1中的编码器110构成自编码器或自动编码器。

举例来说，解压缩图像的过程(或图像还原过程)包括：压缩图像数据e经过熵解码210得到图像的空间分布信息y’和附带的边缘像素统计压缩数据z’，然后z’通过统计概率解码器220获取边缘像素统计信息q’，将空间分布信息y’和边缘像素统计信息q’放入同一个解码器230以恢复得到还原图像x’。这里的还原图像x’相比于原始图像x是有损的。

需要说明的是，通常深度图像编码有两种方法，即像素概率建模和自动编码器。本申请的突出特点则是将这两种方法结合在一起。即在模型中由编码器110与解码器230构成自动编码器，以编码或解码对应图像中表征空间的特征信息；并借助统计概率编码器130与统计概率解码器220，以编码或解码对应图像中的边缘像素统计信息，即实现了像素概率建模方法与自动编码器方法的结合。从而实现在保持高压缩率的同时保留图像更多的信息，使还原之后的图像质量更高；在相同的图像质量下，有更小的压缩率；在更小的压缩率下，比其他方法有相近的压缩和解压时间。

为了实现如图1和图2的流程，本申请设计了一个基于深度学习的图像压缩神经网络模型，该模型为端对端的训练模型。

如图3所示，展示为本申请于一实施例中的基于深度学习的图像压缩神经网络模型的框架示意图。如图所示，本申请所述的基于深度学习的图像压缩神经网络模型中各模块具体构成如下：

图1中所示的所述编码器110包括：卷积层C11、第一广义除数归一化层、卷积层C12、第二广义除数归一化层、及卷积层C21；其中，第二广义除数归一化层与卷积层C21重复设置4组。如图3中x4代表4个重复设置的组。

图1中所示的所述统计概率编码器130包括：绝对值方程、卷积层C22、激活函数R1、卷积层C13、激活函数R2、及卷积层C23；其中，激活函数R2与卷积层C23重复设置2组。如图3中x2代表2个重复设置的组。

图2中所示的所述统计概率解码器220包括：卷积层C24、激活函数R3、卷积层C14、激活函数R4、卷积层C25、及激活函数R5；其中，卷积层C24于激活函数R3重复设置2组；

图2中所示的所述解码器230包括：卷积层C26、第一逆广义除数归一化层、卷积层C15、第二逆广义除数归一化层、及卷积层C16；其中，卷积层C26与第一逆广义除数归一化层重复设置4组。

另外，所述第一量化模块120与第二量化模块140由Q表示量化过程，其采用一个损失函数来代替，以防止梯度为0，以实现将真实的码率输出比特数目加入到训练中。

绝对值方程主要用于对输入的空间特征进行绝对值处理。

激活函数R1-R5主要为线性整流函数(Rectified Linear Unit，ReLU)，又称修正线性单元，是一种人工神经网络中常用的激活函数(activation function)，通常指代以斜坡函数及其变种为代表的非线性函数。

卷积神经网络中每层卷积层(Convolutional layer)由若干卷积单元组成，每个卷积单元的参数都是通过反向传播算法最佳化得到的。卷积运算的目的是提取输入的不同特征，第一层卷积层可能只能提取一些低级的特征如边缘、线条和角等层级，更多层的网路能从低级特征中迭代提取更复杂的特征。

于本实施例中，C1开头的卷积层(即卷积层C11-C16)的卷积核大小为5x5；C2开头的卷积层(即卷积层C21-C26)的卷积核大小为更小的3x3。其中，卷积层C11-C16的步数均为2，通道数为3；卷积层C21-C26的步数均为2，通道数为4。

需说明的是，在申请所述的基于深度学习的图像压缩神经网络模型的一个突出特点在于：在模型中使用了更小的卷积核3x3，以实现减小最终网络模型的大小的目的，并在模型中提供了更深的网络，在图像压缩和图像还原阶段的每次上采样和下采样前增加一层卷积核为3x3的卷积层。与传统未采用卷积核为3x3的卷积层的模型相比，由于卷积核越大，压缩并还原后的图像会更加模糊，因此，本申请采用更小的卷积核3x3，能够使还原图像的还原效果更好。

另外，本申请的特点还在于：本申请主要考虑了对自然图像的编码方法，即人们通过日常相机或手机拍摄的图像，因此，相应的图像压缩神经网络模型也便无需规模较大的网络模型，在本申请中特别增加了卷积核更小的3x3的卷积层，来减小最终网络模型的大小。并且，本申请更加强调编码加解码的完整作业系统或流程，以体现出本申请在保持高压缩率的同时保留图像更多的信息，使还原之后的图像质量更高的技术效果。

如图4所示，展示为本申请于一实施例中的基于深度学习的图像压缩方法的流程示意图。如图所示，所述方法包括：

步骤S401：输入所述原始图像，经编码器生成具有空间变化标准差的服从正态分布的空间特征；

步骤S402：令所述空间特征进行量化，同时将所述空间特征通过统计概率编码器进行编码和量化以得到压缩的边缘像素统计信息；

步骤S403：将量化后的空间特征与边缘像素统计信息经熵编码以生成压缩图像数据。

需要说明的是，上述各步骤内容由于与本申请所述基于深度学习的图像压缩神经网络模型中各模块对应的图像压缩过程实施例基于同一构思，其带来的技术效果与本申请模型实施例相同，具体内容可参见本申请前述所示的方法实施例中的叙述，这里不再赘述。

如图5所示，展示为本申请于一实施例中的基于深度学习的图像解压缩方法的流程示意图。如图所示，在如图4所述基于深度学习的图像压缩方法的基础上，基于深度学习的图像解压缩方法包括：

步骤S501：将所述压缩图像数据经熵解码得到空间分布信息和边缘像素统计压缩数据；

步骤S502：令所述边缘像素统计压缩数据通过统计概率解码器以获取边缘像素统计信息；

步骤S503：将所述空间分布信息和所述边缘像素统计信息经过解码器得到有损的还原图像。

需要说明的是，上述各步骤内容由于与本申请所述基于深度学习的图像压缩神经网络模型中各模块对应的图像解压缩过程的实施例基于同一构思，其带来的技术效果与本申请模型实施例相同，具体内容可参见本申请前述所示的方法实施例中的叙述，这里不再赘述。

为了评估图像压缩结果的优劣，需要有相应的图像质量评估标准。下面先对本实施案例中用到的图像质量评估标准做简单介绍。

bpp(bits per pixel)是指每个像素所占用的有效比特数，即图像的压缩率，值越小，图像压缩掉的体积越多。

bpp＝图片压缩后所占用的bit数/图片压缩前的总像素数。

PSNR(Peak Signal to Noise Ratio)峰值信噪比，是一种全参考的图像质量评价指标。

其中，MSE表示当前图像X和参考图像Y的均方误差(Mean Square Error)，H、W分别为图像的高度和宽度；n为每像素的比特数，一般取8，即像素灰阶数为256。PSNR的单位是dB，数值越大表示失真越小。

MS-SSIM(Multi-Scale Structural Similarity Index)多尺度的结构相似性，是衡量两幅图像相似度的指标。相似性的范围为0到1，当两张图像一模一样时，值为1。

所有模型的训练数据都来自CLIC专业训练数据集，本实施案例性能评估选用KTCIS(Kodak True Color Image Suite)图像数据集。CLIC专业训练集包含超过600张由专业相机拍摄的图片，分辨率从标清(SD)到高清(HD)，涵盖各种场景。KTCIS数据集的图片全部为RGB彩色图片，场景包含野外，城市建筑，各类肖像，运动等，分辨率全部为512x768或者768x512。

本实施案例中训练模型时采用单块GPU(Nvidia GeForce GTX 1070)训练；采用相同的训练数据(CLIC专业训练集)，每个训练图片被随机裁成256x256。分别采用“J方法”的网络模型架构和本发明提供的如图3所示的深度学习图像压缩网络模型架构，训练迭代了1百万次。

本实施案例对比了三种图像压缩方法：JPEG2000、HEIC、和本发明的方法；采用了bpp、PSNR、MS-SSIM、编码时间和解码时间等几个评价指标；在KTCIS数据集中随机选取30张图片作为测试样本，最终测试结果如下表所示。

表1测试结果对比表

由上可知，本实施案例从KTCIS数据集中随机选取30张图片作为测试样本，最终取每次结果的平均值。通过实验发现本发明的方法训练的模型取得了显著的优势，在相似的MSE时，本发明的方法压缩的图像bpp更小，而且远优于传统方法。相比方法HEIC，本发明的方法在bpp方面减少了25.2％，且有接近的PSNR和MS-SSIM。

另外，对于同等质量的压缩图片，本发明提出的深度学习图像压缩方法和JPEG2000图像压缩方法做对比，本发明提出的方法压缩的图片体积是JPEG2000压缩的图片体积的53.46％。基本和BPG压缩的图片体积持平。

如图6所示，展示为本申请于一实施例中的计算机设备的结构示意图。如图所示，所述计算机设备600包括：存储器601、及处理器602；所述存储器601用于存储计算机指令；所述处理器602运行计算机指令实现如图4所述的方法。

在一些实施例中，所述计算机设备600中的所述存储器601的数量均可以是一或多个，所述处理器602的数量均可以是一或多个，而图6中均以一个为例。

于本申请一实施例中，所述计算机设备600中的处理器602会按照如图4所述的步骤，将一个或多个以应用程序的进程对应的指令加载到存储器601中，并由处理器602来运行存储在存储器601中的应用程序，从而实现如图4所述的方法。

所述存储器601可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。所述存储器601存储有操作系统和操作指令、可执行模块或者数据结构，或者它们的子集，或者它们的扩展集，其中，操作指令可包括各种操作指令，用于实现各种操作。操作系统可包括各种系统程序，用于实现各种基础业务以及处理基于硬件的任务。

所述处理器602可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在一些具体的应用中，所述计算机设备600的各个组件通过总线系统耦合在一起，其中总线系统除包括数据总线之外，还可以包括电源总线、控制总线和状态信号总线等。但是为了清除说明起见，在图6中将各种总线都成为总线系统。

综上所述，本申请提供的一种基于深度学习的图像压缩神经网络模型、及其方法和设备，可有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本申请的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本申请的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中包含通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本申请的权利要求所涵盖。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于深度学习的图像压缩神经网络模型、及其方法和设备 [P] . 中国专利： CN113141506A . 2021-07-20
2. 一种基于深度学习的图像压缩还原方法及装置 [P] . 中国专利： CN111355965B . 2022.02.25
3. METHOD AND SYSTEM FOR IMPROVING IMAGE COMPRESSION EFFICIENCY BASED ON DEEP LEARNING [P] . KR20210023006A . 2021-03-04

机译：基于深度学习提高图像压缩效率的方法和系统
4. Method for Image Compressed Sensing based on Deep Learning via Learnable Spatial-Spectral transformation [P] . KR20210075826A . 2021-06-23

机译：基于深度学习通过学习空间光谱变换的图像压缩检测方法
5. - Deep Learning-Based Image Processing Apparatus Image Processing Method and Computer-readable Medium and Deep Learning-Based Image Sensing Apparatus [P] . 韩国专利： KR102083835B1 . 2020-03-03

机译： -基于深度学习的图像处理设备的图像处理方法和计算机可读介质以及基于深度学习的图像传感设备