首页> 中国专利> 一种实时并行的电子稳像系统设计方法

一种实时并行的电子稳像系统设计方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

为了解决现阶段FPGA电子稳像的非实时性和基于陀螺和伺服系统稳像装置大体积、高造价、高功耗的缺点，本发明提出了一种实时并行电子稳像系统的设计方法，该方法首先根据超图像的特点选择RBWTCFS算法用于确定本电子稳像系统所需的DSP个数，然后步根据所确定的DSP的个数，设计本电子稳像系统的硬件部分，以实现实时并行电子稳像系统的设计；该方法不仅能够满足电子稳像的实时性要求和某些特殊场合小型化、低造价、低功耗的要求，同时改善了系统的稳像效果。

著录项

公开/公告号CN102523374A

专利类型发明专利
公开/公告日2012-06-27

原文格式PDF
申请/专利权人北京理工大学;
展开▼

申请/专利号CN201110427963.6
发明设计人许廷发;徐磊;吴威;闫辉;张增;
展开▼

申请日2011-12-19
分类号H04N5/21(20060101);
代理机构11120 北京理工大学专利中心;
代理人李爱英;郭德忠
地址 100081 北京市海淀区中关村南大街5号
入库时间 2023-12-18 05:47:17

法律信息

法律状态公告日

法律状态信息

法律状态
2016-02-10

未缴年费专利权终止 IPC(主分类):H04N5/21 授权公告日:20140219 终止日期:20141219 申请日:20111219

专利权的终止
2014-02-19

授权

授权
2012-09-05

实质审查的生效 IPC(主分类):H04N5/21 申请日:20111219

实质审查的生效
2012-06-27

公开

公开

说明书

技术领域

本发明属于图像处理领域，涉及一种实时并行的电子稳像系统设计方法。

背景技术

电子稳像技术是应用计算机数字图像处理和电子技术相结合的方法，去除因为平台随机运动而引入的图像扰动，致使图像序列稳定的技术。电子稳像系统在国外已经有20多年的研究历史进入到21世纪，稳像技术在应用上有了长足的进步。其中，典型代表有NavLab-1系统和NavLab-5系统，这类系统采用FPGA器件对对摄取的图像进行稳像处理，达到很高的处理速率，但由于FPGA芯片开发困难，很难做到实时性，尤其是实现大规模图像的实时并行处理。

国内对于数字稳像技术的研究起步较晚，但随着稳像技术的需求日益广泛，近年来不少研究者致力于基于DSP的电子稳像的研究与实现。多DSP 的电子稳像的研究过程中发现，DSP个数的确定非常关键。但是对于目前存在的多DSP稳像系统，难以具有针对性地、定量的通过计算所需的乘并累加MAC操作来确定所需的DSP个数，从而使得系统的没有达到较高的实现效率。

发明内容

为了解决现阶段FPGA电子稳像的由于开发困难难以满足系统实时性的要求以及多DSP稳像系统设计时难以精确的确定系统所需的DSP个数的问题，本发明提出了一种实时并行电子稳像系统的设计方法，该方法能够满足电子稳像的实时性的要求以及较佳地确定系统所需DSP个数的要求，改善了系统的稳像效果。

一种实时并行电子稳像系统的设计方法，具体设计的步骤如下：

步骤一：确定处理图像时的RBWTCFS算法所需的乘并累加MAC操作次数，进而计算电子稳像系统所需的DSP个数为n；

所述的RBWTCFS算法分为频域收缩和红-黑小波变换再收缩2个步骤，其中频域收缩又分为前向傅立叶变换、系数收缩和反傅立叶变换3个步骤，红-黑小波变换也同样分为前向小波变换、系数收缩和小波合成3个步骤，取4次小波变换；

在本步骤中，设原始图像大小为M×N，计算上述整个RBWTCFS算法的乘并累加MAC操作次数为：

$\frac{9}{4} M \times N \times \log_{2} (N \times M) + \frac{183}{8} M \times N$

根据DSP的处理速度以及整个RBWTCFS算法的乘并累加MAC操作数确定所需的DSP个数；

步骤二：根据所确定的DSP的个数，设计电子稳像系统的配套硬件部分，以实现实时并行电子稳像系统的设计；

所述的电子稳像系统配套硬件部分包括前端数据输入模块、多处理器并行模块、后端数据输出模块、存储器模块和供电模块；

所述的前端数据输入模块与第1个DSP连接，后端数据输出模块与第n个 DSP连接；多处理器并行模块采用PCI-to-PCI的桥芯片扩展成第二级PCI总线，二级PCI总线与一级PCI总线连接，每个DSP均接在第二级PCI总线上；同时n个DSP分别与SFP-SRAM连接；每个DSP分别与存储器模块中对应的一个SDRAM连接；

在供电模块提供电源的情况下，前端数据输入模块负责将需要处理的图像数据传输到第1个DSP上，然后第1个DSP负责通过扩展后的第二级PCI总线，将图像数据分配到其余的n-1个DSP上实现多DSP的并行处理，并将处理的结果存入各自的SDRAM中；图像数据处理完毕后将前n-1个DSP的处理结果存入第n个DSP的SDRAM中，后端数据输出模块负责将处理后的图像数据输出。

有益效果

(1)本发明采用RBWTCFS算法用于确定电子稳像系统所需的DSP个数，有效的解决了现有技术中难以较佳地确定系统所需的DSP个数的问题；同时多DSP并行处理设计，解决了现阶段FPGA电子稳像由于开发困难难以满足系统实时性的缺陷，实现了图像处理实时性的要求。

(2)多处理器并行模块采用PCI-to-PCI的桥芯片扩展成第二级PCI总线，每个DSP均接在第二级PCI总线上；同时采用一个SFP-SRAM扩展用于DSP 之间高速通信的交叉通道；通过这两种方式连接的系统，从扩展PCI看n个DSP 处理器，是典型的紧耦合并行系统结构；从SFP-SRAM构成的通道看，则是典型的松散耦合并行系统结构。因此，最终的系统结构同时兼有紧耦合并行系统和松耦合并行系统的优点。

附图说明

图1为实时并行电子稳像系统的系统结构图；

图2为SFP-SRAM构成的互连结构图。

具体实施方式

下面结合具体实施方式及附图对本发明做进一步详细说明。

一种实时并行电子稳像系统的设计方法，具体设计的步骤如下：

步骤一：确定处理图像时的RBWTCFS算法所需的乘并累加MAC操作次数，进而计算电子稳像系统所需的DSP个数为n；

所述的RBWTCFS算法分为频域收缩和红-黑小波变换再收缩2个步骤，其中频域收缩又分为前向傅立叶变换、系数收缩和反傅立叶变换3个步骤，红-黑小波变换也同样分为前向小波变换、系数收缩和小波合成3个步骤。考虑计算量和稳像效果之间的矛盾，这里取4次小波变换。

设原始图像大小为M×N，估算整个RBWTCFS算法的MAC(乘并累加) 操作次数，如下：

傅立叶变换时，由于二维的FFT运算是行、列分开进行，而且此次变换是实数变换，由于可以利用一个复序列的FFT代码来同时计算2个实序列的FFT，因此，其计算量几乎为复序列的一半，即为：

$[(\frac{1}{2} N \log_{2} N + N \log_{2} N) \times M + (\frac{1}{2} M \log_{2} M + M \log_{2} M) \times N] / 2$

$= \frac{3}{4} M \times N \times \log_{2} (N \times M) - - - (1)$

进行系数收缩时，可以先将收缩因子制成表，因此收缩时只需要进行一次复数相乘。由于复数的相乘需要2次加法和4次乘法，因此频域收缩需要的MAC 操作数为：

(2+4)×M×N＝6×M×N (2)

反傅立叶变换时，由于是复数计算，因此其计算量和正变换有所不同，为：

$(\frac{1}{2} N \log_{2} N + N \log_{2} N) \times M + (\frac{1}{2} M \log_{2} M + M \log_{2} M) \times N$

$= \frac{3}{2} M \times N \times \log_{2} (N \times M) - - - (3)$

前向小波变换时，只需要进行加法操作和移位操作(由于恰好是除以4和除以8)就可以实现，且每次变换又分为预测和更新这2个步骤，而2个步骤的运算量一样，都是当前尺度下细节系数或者近似系数点数的4倍，因此，进行4次分解时需要的加法操作数为：

$\frac{M \times N}{2} \times 4 \times 2 + \frac{M \times N}{2^{2}} \times 4 \times 2 + \frac{M \times N}{2^{3}} \times 4 \times 2 + \frac{M \times N}{2^{4}} \times 4 \times 2$

$= 4 \times M \times N \times (1 + \frac{1}{2} + \frac{1}{4} + \frac{1}{8})$

$= \frac{M \times N \times 15}{2} - - - (4)$

进行系数收缩时，所需要的计算量和具体系数值有关，但每一个系数值其计算量最多只有1次加法和1次乘法，因此，4层分解所得细节系数阈值化所需计算量不会超过：

$(1 + 1) \times (\frac{M \times N}{2} + \frac{M \times N}{4} + \frac{M \times N}{8} + \frac{M \times N}{16})$

$= M \times N \times (1 + \frac{1}{2} + \frac{1}{4} + \frac{1}{8})$

$= \frac{M \times N \times 15}{8} - - - (5)$

小波合成时，根据正变换式推导可知其计算量和正变换相同，即仍然为(4) 式所示数值。

综上所述，求得RBWTCFS算法所需计算量为：

$\frac{9}{4} M \times N \times \log_{2} (N \times M) + \frac{183}{8} M \times N$

在本实施例中，取M＝4096，N＝7168，则计算量近似为：2310393939次 MAC操作，其数量级为10⁹。

鉴于如此巨大的运算量，选择合适的DSP处理器是系统实现实时处理的根本保证。若选择TI公司的主频为720MHz的TMS320C6416处理器，则需要3 个DSP处理器进行图像处理。但是考虑到C程序普遍20％到40％的实现效率以及代码中不能并行化的部分和数据输入、输出拷贝的时间等因素，可以在理论计算得到的DSP个数基础上，增加1～2个DSP使得系统达到较高的实现效率，因此本实施例中最终选择4个DSP处理器来完成算法任务，这四个DSP 为DSP-A、DSP-B、DSP-C和DSP-D。

步骤二：根据所确定的DSP的个数，设计电子稳像系统配套硬件部分，以实现实时并行电子稳像系统的设计；

所述的电子稳像系统配套硬件部分包括前端数据输入模块、多处理器并行模块、后端数据输出模块、存储模块、供电模块；如图1所示，在本实施例中，由LVDS和FIFO组成数据输入模块，由四个DSP(DSP-A～DSP-D)、SFP- RAM、PCI-to-PCI桥、一级PCI组成多处理器并行模块，由USB组成后端输出模块，由四个SDRAM、Flash组成存储模块。

所述的前端数据输入模块与第1个DSP连接，后端数据输出模块与第n个 DSP连接；多处理器并行模块采用PCI-to-PCI的桥芯片扩展成第二级PCI总线，每个DSP均接在第二级PCI总线上；同时采用一个SFP-SRAM用于扩展各DSP 之间高速通信的交叉通道；每个DSP分别与存储器模块中对应的一个SDRAM 连接；

在本实施例中，根据图1所示，具体的设计过程如下：

前端数据输入模块与DSP-A连接，后端数据输出模块与DSP-D连接；由于计算机上一个PCI插槽只能负载一个PCI设备，因此首先采用PCI-to-PCI的桥芯片扩展出第二级PCI总线，多处理器并行模块采用PCI-to-PCI的桥芯片扩展成第二级PCI总线，每个DSP均接在第二级PCI总线上。

同时考虑到大规模图像带来的高带宽，DSP之间通过PCI总线进行通信的带宽必然有限。因此，系统中用一个SFP-SRAM扩展了另外一条用于DSP之间高速通信的交叉通道。这里采用了一种较为特别的互连方式，即采用一颗同步四口静态RAM(Synchronous Four-Port Static RAM，SFP-SRAM)来实现 DSP之间的相互通信，如图2所示，所选择的SFP-SRAM可以允许4个处理器同时对其操作，只要所操作的地址不同即可，因此可以将SFP-SRAM划分为多个不同的区域，这样可以实现DSP之间任意互连的通道而不干扰。

因此，通过扩展PCI或者选择SFP-SRAM扩展交叉通道这两种方式连接的系统，从扩展PCI看4个DSP处理器，是典型的紧耦合并行系统结构；从 SFP-SRAM构成的通道看，则是典型的松散耦合并行系统结构。因此，最终的系统结构同时兼有紧耦合并行系统和松耦合并行系统的优点。

在供电模块提供电源的情况下，前端数据输入模块负责将需要处理的图像数据传输到DSP-A上，然后DSP-A负责通过扩展后的第二级PCI总线，将图像数据分配到其余的n-1个DSP上实现多DSP的并行处理，并将处理的结果存入各自的SDRAM中；图像数据处理完毕后将DSP-A、DSP-B、DSP-C的处理结果存入DSP-D的SDRAM中，后端数据输出模块负责将处理后的图像数据输出。

在此基础上，进一步设计如下：

(1)考虑到软硬件的复杂性和系统的扩展性，前端数据输入模块采用LVDS 接口作为数据的输入接口，通过FIFO构成前端数据缓冲器。

(2)电子稳像系统还包括电压监测与复位管理模块、JTAG控制模块，电压监测与复位管理模块用于电压的检测和系统的复位，JTAG控制模块用于实现电子稳像系统的软件和硬件实时调试工作。在本实施例中，由CPLD JTAG和 DSP JTAG模块组成JTAG控制模块。

电压监测和复位管理电路是系统能进入正常工作状态和出现异常时的保障电路。系统采用专用的复位管理芯片以及适当的外围电路，共同构成该模块。复位电路在系统上电时首先为DSP和板上其他需要复位的芯片提供时间足够长的复位脉冲。同时系统还设计了手动复位按钮，这样当系统出现异常时，可以通过该按钮对系统进行再次复位。

TMS320C6416内置符合IEEE1149.1标准的JTAG接口，可以直接连接到标准的14脚JTAG接口上，然后再连接IT的硬件仿真器后，即可实现多DSP 系统的软件和硬件的实时调试工作。

(3)为脱机使用，DSP-D与USB接口连接作为数据输出接口。

(4)为脱机使用，还在DSP-D的局部总线端口上接了1MBytes的Flash 存储器。

正常插在计算机上使用时，各个DSP的程序在使用前通过PCI总线分别下载到DSP的相应存储区域中。一旦脱机使用，如果总的代码量不大(不超过 1MBytes)，则可通过硬件仿真器和一段烧写程序将各个DSP的程序烧入Flash 存储器中。通电后，DSP-D首先启动，然后将其余代码从Flash中读出并分发给其余各个DSP。如果代码量较大，超过了1MBytes，则可仅将DSP-D的程序烧入Flash。通电后，DSP-D先启动，然后通过USB2.0接口从带USB2.0 主控接口的设备上读取其余DSP的程序，再进行分发。

在电子稳像系统硬件设计完成后进行了实际验证，以测试系统硬件设计的正确性，具体的验证过程如下：

首先，将系统硬件板卡插于计算机主板的PCI扩展槽上，启动计算机后，计算机分别识别位于PCI-to-PCI桥后的4个PCI设备。然后使用仿真器，并行地打开4个DSP的硬仿真环境，并分别下载了所编写的测试程序，以测试系统各个DSP本地内存的读写、四口同步SRAM的读写、DSP之间的相互中断等功能。试验结果表明，本地内存和四口同步SRAM读写稳定，DSP之间能准确地响应中断。这进一步证明了系统硬件设计的成功。

进一步地，输入每秒4096×7168的遥感图像数据，考虑到试验条件所限，这里仅仅通过仿真器下载模拟的遥感图像到DSP-A的内存中，然后DSP-A开始分配数据，分配完成后4个DSP同时开始处理，处理时会涉及到中间结果的数据交换。处理完毕后，通过仿真器将各个DSP的处理结果读出，并将4个部分的图像数据重新组合成整幅图像。

试验结果证明，所设计的硬件系统完全能在1s内完成图像的处理。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种实时并行的电子稳像系统设计方法 [P] . 中国专利： CN102523374B . 2014.02.19
2. 一种基于扑翼飞行系统的实时电子稳像方法 [P] . 中国专利： CN113206951A . 2021-08-03
3. A METHOD OF DESIGNING A SYSTEM FOR REAL TIME DIGITAL SIGNAL PROCESSING, IN WHICH THE SYSTEM USES A VIRTUAL MACHINE LAYER [P] . 世界知识产权组织专利： WO03101021A3 . 2004-04-29

机译：一种使用实时机器层的实时数字信号处理系统的设计方法
4. A METHOD OF DESIGNING A SYSTEM FOR REAL TIME DIGITAL SIGNAL PROCESSING, IN WHICH THE SYSTEM USES A VIRTUAL MACHINE LAYER [P] . AU2003236894A1 . 2003-12-12

机译：一种使用实时机器层的实时数字信号处理系统的设计方法
5. A METHOD OF DESIGNING A SYSTEM FOR REAL TIME DIGITAL SIGNAL PROCESSING, IN WHICH THE SYSTEM USES A VIRTUAL MACHINE LAYER [P] . 世界知识产权组织专利： WO03101021A2 . 2003-12-04

机译：一种使用实时机器层的实时数字信号处理系统的设计方法