首页> 中国专利> 采用双乘法累加(MAC)处理机和双乘法累加(MAC)协同处理机的数字信号处理机

采用双乘法累加(MAC)处理机和双乘法累加(MAC)协同处理机的数字信号处理机

摘要

本发明是数字信号处理机结构,其设计可加速频繁使用的信号处理的计算,如FIR滤波器、相关性、FFT和DFT等。此结构使用耦合的双MAC结构(MAC1)(MAC2),并在此结构中以一种独特的方法附加使用双MAC协同处理机(MAC3)(MAC4),以便取得处理能力的大大提高。

著录项

  • 公开/公告号CN1489728A

    专利类型发明专利

  • 公开/公告日2004-04-14

    原文格式PDF

  • 申请/专利权人 高通股份有限公司;

    申请/专利号CN01805597.4

  • 发明设计人 G·C·西;H·库马尔;李维新;

    申请日2001-02-23

  • 分类号G06F9/38;G06F9/302;G06F9/30;

  • 代理机构上海专利商标事务所;

  • 代理人钱慰民

  • 地址 美国加利福尼亚州

  • 入库时间 2023-12-17 15:18:03

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-04-05

    未缴年费专利权终止 IPC(主分类):G06F9/38 授权公告日:20070321 终止日期:20160223 申请日:20010223

    专利权的终止

  • 2007-03-21

    授权

    授权

  • 2004-06-23

    实质审查的生效

    实质审查的生效

  • 2004-04-14

    公开

    公开

说明书

                            发明背景

技术领域

本发明涉及数字信号处理机,特别是有关乘法累加(MAC)单元。

背景技术

数字信号处理机(DSP)是专用型微处理机,它专门适用于快速执行数学计算。DSP应用范围很广,包括小型碟片播放机,PC机碟片驱动器,电信用的调制解调器组和蜂窝式电话。

在蜂窝式电话应用中,对DSP计算能力的要求不断增加,这是由于应用的要求不断增加而产生的,如GPS定位、话音识别、低比特率语言和音频编码、图像和视频处理以及3G蜂窝式调制解调器处理等。为了满足这些处理要求,就必须改进数字信号处理机结构,才能更有效地进行计算处理。

在这些领域中已做了相当多的工作。申请人Sih也是申请下列美国专利的申请人:

“使用耦合乘法累加单元的信号处理机”与本申请同时提交;

“数字信号处理机中的多路总线结构”,序号:09/044,087,1998年3月18日提交;

“具有多路存取寄存器的数字信号处理机”,序号:09/044,088,1998年3月18日提交;

“存贮器有效指令的存贮”,序号:09/044,089,1988年3月18日提交;

“控制数字信号处理机的高度平行的可变长度指令”,序号:09/044,104,1998年3月18日提交;

“可变长度指令解码器”,序号:09/044,086,1998年3月18日提交;和

“采用可移位乘法累加单元的数字信号处理机”,序号:09/044,108,1998年3月18日提交。

这些申请书的揭示内容在结合于此,作为参考。

                        发明内容

本发明是数字信号处理机结构,其设计可加速频繁使用的信号处理的计算,如FIR滤波器,相关性,FFT和DFT等。此结构使用耦合的双MAC结构,并在此结构中以一种独特的方法附设双MAC协同处理机,以便大大提高处理能力。

                        附图简述

图1是新结构的框图。

图2示出本发明的第一种配置,在FIR滤波器和相关性模式中。

图3是FIR滤波器和相关性加速度模式的逻辑图。

图4示出另一种配置,单周复数乘法模式。

图5示出又一种配置,单周复数乘法累加模式。

                    较佳实施例的详细描述

图1是新结构框图。在本发明范围较窄的实施例中,电子电路包括具有第1至第3输入(PI1-PI3)和第1至第6输出(PO1-PO6)的寄存器堆(100)。第1移位器(102)接收寄存器堆的第1输出(PO1),第1乘法器(104)接收寄存器堆的第2和第3输出,第2乘法器(106)接收寄存器堆的第4(PO4)和第5(PO5)输出。第2移位器(108)接收第1乘法器(104)的输出,第3移位器(110)接收第2乘法器(106)的输出。循环的多路复用器(112)接收第1移位器(102)的输出,第1加法器(114)在第1输入端接收第2移位器(108)的输出。第1多路复用器(116)接收第3移位器(110)的输出或零位,并将输出加至第1加法器(114)的第2输入。第2加法器(118)接收循环的多路复用器(112)和第1加法器(114)的输出,第2加法器(118)的输出反馈至寄存器堆的第1输入(PI1)。第3加法器(120)接收第3移位器(110)的输出和第6寄存器输出(PO6),第3加法器(120)的输出反馈至寄存器堆的第2输入(PI2)。

第1输入存贮元件(122)接收寄存器堆的第3输出(PO3)。第2多路复用器接收第1输入存贮元件(122)的输出和寄存器堆的第3输出(PO3),第3多路复用器(126)接收寄存器堆的第2(PO2)和第5(PO5)输出。第3乘法器(128)接收第2(124)和第3(126)多路复用器的输出,第4移位器(130)接收第3乘法器(128)的输出。第4加法器(132)在第1输入端接收第4移位器(130)的输出,第1输出存贮元件(134)接收第4加法器(132)的输出。第1输出存贮元件(134)的输出加至第4加法器(132)的第2输入。

第4多路复用器(136)接收第1输入存贮元件(122)的输出和寄存器堆的第4输出(PO4),第2输入存贮元件(138)接收第4多路复用器(136)的输出。第5多路复用器(140)接收第2输入存贮元件(138)的输出和寄存器堆的第4输出(PO4),第4乘法器(142)接收第5多路复用器(140)的输出和寄存器堆的第2输出(PO2)。第5移位器接收第4乘法器(142)的输出,第5加法器(146)在第1输入端接收第5移位器(144)的输出。第2输出存贮元件(148)接收第5加法器(146)的输出。第2输出存贮元件(148)的输出加至第6多路复用器(150)的第1输入。第6多路复用器在第2输入端接收第4移位器(130)的输出,第6多路复用器(150)的输出加至第5加法器(146)的第2输入。第5加法器(146)的输出也反馈至寄存器堆的第3输入(PI3)。多路复用器是外部控制的。

本发明在其范围最广的实施例中也不需要所有的上述元件。事实上电子电路只要包括至少一个输入和至少四个输出(PO2-PO5)的寄存器堆(100)就足够了;电子电路还包括每个乘法器至少具有2个输入的第1(104),第2(106),第3(128)和第4(142)乘法器;电子电路还包括每个加法器都具有相应乘法器的输出作为第1输入的第1(118),第2(120),第3(132)和第4(146)加法器(注意,这些第1至第4加法器是更详细装置的第2至第5加法器);电子电路还包括使寄存器堆的输出与至少一些乘法器的输入相联系的装置(124),(126),(136),(140),以及使至少一些加法器的另一输入与另外乘法器的输出,或与寄存器堆的输出相联系的装置(112),(116),(150)。本发明其特征在于:使乘法器、加法器和寄存器堆在单时钟周期内一起运作。

最好寄存器堆对乘法器的输出数目为4。

最好是电子电路还包括至少一个输入存贮元件(128),(138)。输入存贮元件的输入接至寄存器堆的输出(PO3),或接至另一输入存贮元件(122)的输出。输入存贮元件的输出接至乘法器(128),(142)中至少一个的输入或接至另一输入存贮元件(138)的输入。乘法器、加法器、输入存贮元件和寄存器堆在单时钟周期内一起动作。

虽然本发明只使用单只输入存贮元件工作,但是最好有多个输入存贮元件(122),(138)。

电子电路最好还包括至少一个输出存贮元件(134),(148),连接到加法器(132),(146)中至少一个的输出。乘法器、加法器、输出存贮元件和寄存器堆在单时钟周期内一起运作。

最好1个输出存贮元件或2个输出存贮元件(134),(148)外接至寄存器堆(100)。

如上所述,图1是新结构的框图。核心结构包含由MAC单元MAC1和MAC2组成的耦合双MAC结构。MAC1从寄存器堆的输出口PO2、PO3取出其乘法器操作数。乘法器(104)的输出传递给能使结果向左移位0、1、2或3位的移位器(108)。移位器(108)的输出传递给加法器(114),此加法器从多路复用器MUX1(116)取出其另一个输入,此多路复用器具有零位和来自MAC2移位积的结果作为其输入。加法器(114)的输出传递给1个40位加法器(118),然后,与取自寄存器堆输出口PO1的另一个40位操作数相加。40位加法器的输出通过输入口PI1存贮于寄存器堆中。MAC2从寄存器堆的输出口PO4、PO5取出乘法器操作数,将它们相乘(106),并将结果向左移位(110)0、1、2或3位。移位器的输出传递给40位加法器(120),加上从输出口PO6取出的另一寄存器堆操作数。移位器的输出也送到多路复用器MUX1(116),多路复用器再馈给MAC1中第1加法器(114)。40位加法器(120)的输出通过寄存器堆输入口PI2存贮至寄存器堆中。

协同处理机由乘法累加单元MAC3和MAC4组成,它们是采用一种独特的方法连接至核心双MAC结构和寄存器堆。MAC3和MAC4的输入可配置为(通过多路复用器MUX2(124)、MUX3(126)、MUX5(140))从寄存器堆输出口PO2、PO3、PO4、PO5取出,或从由16位寄存器IS1(122)和IS2(138)组成的延迟线上取出。MAC3中移位积的输出可以通过MUX6(150)馈入MAC4。另一种方法是MAC3和MAC4中40位加法器可分别从它们的局部40位累加器寄存器OS1(134)和OS2(148)取出输入。MAC4的输出通过输入口PI3写入寄存器堆。程序器通过执行某些程序指令将图中多路复用器设置为所需的配置,它可使4个MAC单元灵活地配置,以便加速几种不同类型的计算。这些配置模式以下描述。

图2示出本发明第1种配置,在FIR滤波器和相关性模式中。此配置可用来加速FIR滤波器和相关性操作。为了了解为什么此种配置可加速FIR滤波器工作,我们检查了实施FIR滤波器的公式:

>>y>>(>n>)>>=>>Σ>>k>=>0>>>N>->1> >h>>(>k>)>>x>>(>n>->k>)>>>s>

如果我们写出4个连续输出的公式,则得

y(n)=h(0)×(n)+h(1)×(n-1)+h(2)×(n-2)+…+h(N-1)×(n-N+1)

y(n+1)=h(0)×(n+1)+h(1)×(n)+h(2)×(n-1)+…+h(N-1)×(n-N+2)

y(n+2)=h(0)×(n+2)×h(1)×(n+1)+h(2)×(n)+…+h(N-1)×(n-N+3)

y(n+3)=h(0)×(n+3)×h(1)×(n+2)+h(2)×(n+1)+…+h(N-1)×(n-N+4)

为了同时计算此4项公式,相同的系数h(k)同时馈到所有4个乘法器,而其他输入通过延迟线馈至各个乘法器。图3示出该逻辑实施图。

图3是FIR滤波器和相关加速度模式的逻辑图。为了获得这种配置,使用如图2所示的硬件设定,程序器必须执行适合2只核心MAC的指令,以保证正确工作。取自寄存器堆输出口PO2的且用作各个协同处理机MAC单元输入的同样的寄存器必须也从输出口PO4取出。程度器也必须保证从PO5取出的寄存器在送至PO3并通过由寄存器IS1(122)和IS2(138)组成的硬件延迟线传播出去之前,利用寄存器平行移动来延迟1周(152)。2个核心MAC通过取出和存贮结果至寄存器堆(100)进行累加,同时协同处理机MAC使用它们的局部OS1(134)和OS2(148)累加器进行累加。利用此配置也可以相似方式来加速相关性操作。

图4示出另一种配置,单周复数乘法模式。为了加速FFT和CDMA码元解调,协同处理机可配置为进行单周复数乘法。当各个核心MAC单元的输入送至协同处理机进行交叉项乘法时,核心MAC单元的输出加在一起,通过输入口PI1送至寄存器堆(100),同时协同处理机MAC单元的输出加在一起,通过输入口PI3存贮至寄存器堆(100)。

图5示出又一种配置,单周复数乘法累加模式。复数乘法累加配置对加速DFT和32×32相乘的累加是有用的。如图5所示,乘法器输入连接的设定类似于单周复数乘法,但累加的设定类似于FIR滤波器加速度模式。在32×32MAC情况下,核心MAC进行有符号对有符号相乘;无符号对无符号相乘,同时协同处理机MAC进行有符号对无符号相乘。

示出了使用40位加法器和17×17位乘法器。这是常规的,任何合宜的位数均可使用。

工业应用

本发明能利用于工业,当想要加速信号处理计算时,就可作成装置和加以应用。本文所述的装置和方法中的元件均系分立的,它们相互之间毫无关系,全是常规的,本发明要求了它们的组合。

虽然已描述了各种模式的装置和方法,但本发明真正精神和范围并不局限于此,而只受限于下述权利要求书及其等效范围,这些是本发明所要求的。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号