首页> 中国专利> 一种基于FASTICA算法的盲源分离技术控制聚焦系统

一种基于FASTICA算法的盲源分离技术控制聚焦系统

摘要

一种基于FASTICA算法的盲源分离技术控制聚焦系统,包括盲源分离模块、GCC‑PHAT时延估计模块、几何定位模块和相机模块,各模块依次相连;盲源分离模块包括放大电路、数据同步采集电路、信号处理模块;GCC‑PHAT时延估计模块包括多通道音频输入电路和数字信号处理器;几何定位模块包括多语音通道、数字信号处理器、控制逻辑CPLD;相机模块包括图像信息分析与聚焦权重调整模块、数码相机模块。本发明根据在拍摄时测量出的拍摄距离,调整镜头内部部件和感光组件的距离使拍摄物能在感光组件上清晰成像,即使在弱光、低反差条件下都能调整出最佳聚焦点实现聚焦。本发明将盲源分离技术与相机结合,使相机操作简单、定位精准、智能、聚焦时间短。

著录项

  • 公开/公告号CN105872366A

    专利类型发明专利

  • 公开/公告日2016-08-17

    原文格式PDF

  • 申请/专利权人 南昌大学;

    申请/专利号CN201610190411.0

  • 申请日2016-03-30

  • 分类号H04N5/232(20060101);G10L21/0272(20130101);

  • 代理机构36115 南昌新天下专利商标代理有限公司;

  • 代理人施秀瑾

  • 地址 330031 江西省南昌市红谷滩新区学府大道999号

  • 入库时间 2023-06-19 00:16:32

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-08-24

    授权

    授权

  • 2016-09-14

    实质审查的生效 IPC(主分类):H04N5/232 申请日:20160330

    实质审查的生效

  • 2016-08-17

    公开

    公开

说明书

技术领域

本发明涉及信号处理领域和光机一体化领域,具体涉及盲源分离技术和自动对焦技术。

背景技术

自动对焦技术是从1963年Canon公司在科隆博览会展出的一架自动聚焦照相机的样机开始逐步发展的。它是利用基础的物体光反射原理,将反射的光传播到传感器CCD,通过智能芯片处理器,带动电动对焦装置进行对焦。它可分为主动式和被动式。目前大多数数码相机采用被动式的自动对焦方式,即直接接收分析拍摄物的反射光,利用相位差原理进行对焦。其不需要发射装置,减少耗能,节约空间利于小型化。但是在弱光条件、低反差等条件下,聚焦能力差。

发明内容

为了提供更佳的拍照聚焦,给群体自拍提供方便,同时避免光多次折射等造成的无法正常聚焦而导致的拍照不清晰等问题,本发明提供了一种基于FASTICA(快速独立成分分析)算法的盲源分离技术控制聚焦系统。

本发明的技术解决方案如下:

一种基于FASTICA算法的盲源分离技术控制聚焦系统,包括盲源分离模块、相位变换加权广义互相关(GCC-PHAT)时延估计模块、几何定位模块和相机模块,各模块依次相连。其中盲源分离模块包括声音信号的获取、数据采集、信号处理三部分;GCC-PHAT时延估计模块包括多通道音频输入和数字信号处理器两部分;几何定位模块定位出各源信号位置也是在数字信号处理器上实现的;相机模块包括图像信息分析与聚焦权重调整模块、数码相机模块。

所述的盲源分离模块包括放大电路、数据同步采集电路、信号处理模块,各模块依次相连。首先放大电路将麦克风获取的混合声音信号进行两级放大,然后数据同步采集电路中的数据采集芯片AD73360进行64KHz同步采样,最后信号处理模块将采集的信号进行前端修正、相关性分析、声源分离处理得到各分离声源。

盲源分离模块中的信号处理模块的算法是基于最大熵原理,在FASTICA模型中,经过预处理,最大化负熵的优化过程转化成EG(wTx)|的优化问题。并通过阻尼牛顿法迭代法将其转化成无约束极值问题,保证了优化算法收敛到极值点,最终经过变化和归一化处理,得到迭代学习算法。

所述的GCC-PHAT时延估计模块包括多通道音频输入电路和数字信号处理器。多通道音频输入电路是实现多路立体声音频的输入,可进行编程增益调节,同时将盲源分离模块分离出的各个声源信号输入到数字信号处理器进行GCC-PHAT算法操作得到时延值。数字信号处理器在控制核心的调度下适时启动GCC-PHAT算法运算,并向控制核心返回时延值。

GCC-PHAT算法进行时延估计。不同麦克风接收信号,经过盲源分离后的源信号,可以由下列GCC函数的峰值决定:

>Rmn(w)=ΣoπWmn(w)Sm(w)Sn*(w)e-jwt>

Wmn表示权重函数,对于不同的噪声和混响情况,表示不同的权重函数。Sm(w)和Sn(w)表示不同麦克风信号接收的信号进行盲源分离后的同一声源的频谱,假设信号与噪声是独立的,则关于信号xm(t)和xn(t)互功率谱函数由下式确定:

>Gmn(w)=Sm(w)Sn*(w)e-jwτmn+Nm(w)Nn*(w)>

利用PHAT加权函数Wmn(w)=1/|Gmn(w)|来改进原算法。并提出一个由真实环境信噪比决定的新参数ρ提高小信噪比和大混响情况下的时延精度。此时权重函数被替代为Wmn(w)=1/(Gmn(w)ρ+|γm2n(w)|,0≤ρ≤1。

所述的几何定位模块包括多语音通道、数字信号处理器、控制逻辑CPLD。多语音通道分别连接数字信号处理器、控制逻辑CPLD。数字信号处理器根据各声源的具体位置计算出初步聚焦点。控制逻辑CPLD根据相关指示信号通过控制总线协调控制多语音通道和数字处理器完成几何定位。在GCC-PHAT时延的基础上根据麦克风几何位置确定各声源的具体位置。

所述的相机模块包括图像信息分析与聚焦权重调整模块、数码相机模块。图像信息分析与聚焦权重调整模块根据各声源的定位点计算出聚焦点,聚焦得到CCD输出图片信息并进行分析,根据图像信息分析处理结果进行合理的聚焦权重调整。数码相机模块是智能芯片处理器根据图像信息分析处理结果控制聚焦电机和变焦电机移动镜头内部部件进行合理聚焦权重调整,直到聚焦最精准,CCD输出图片信息最佳。

本发明是利用盲源分离技术分离出各源信号,再利用GCC-PHAT进行时延估计,定位出各源信号位置,经过内部智能芯片处理得到最佳聚焦点,带动电动对焦装置进行聚焦。即使在弱光、低反差条件下都能调整出最佳聚焦点。其中盲源分离技术是一种在不知源信号和传输信道参数的情况下,根据输入源信号的统计特性,仅由观测信号恢复出各个源信号的方法。

本发明具有的优点:(1)本发明可以实现多声源语音定位,不需要人操作。(2)本发明基于已有的成熟语音定位技术,不需要安装发射装置,减少耗能。(3)本发明解决了弱光条件、低反差等条件下聚焦困难等问题。(4)本发明避免光多次折射等造成的无法正常聚焦而导致的拍照不清晰等问题。(5)本发明中GCC-PHAT算法考虑了不同的噪声和混响情况,提高定位的精确度。(6)本发明提出一个由真实环境信噪比决定的新参数ρ,提高小信噪比和大混响情况下的时延精度。(7)本发明结合信号处理领域和光机一体化领域,将盲源分离技术融合到相机拍照过程,使拍摄更加简便。

附图说明

图1为本发明所设计的基于FASTICA算法的盲源分离技术控制聚焦系统的总体框图。

图2为本发明盲源分离模块原理示意图。

图3为本发明盲源分离模块中的放大电路原理示意图。

图4为本发明盲源分离的设计图。

图5为本发明定位模块框图。

图6所示为本发明最基础的聚焦原理图。

具体实施方式

下面结合附图和具体功能对本发明作进一步阐述。

如图1所示为本发明中基于FASTICA算法的盲源分离技术控制聚焦系统的总体框图。包括盲源分离模块、GCC-PHAT时延估计模块、几何定位模块和相机模块,各模块依次相连。其中盲源分离模块包括放大电路、数据同步采集电路、信号处理模块三部分;GCC-PHAT时延估计模块包括多通道音频输入和数字信号处理器两部分;几何定位模块包括多语音通道、数字信号处理器、控制逻辑CPLD三部分。;相机模块的主要部分是目前常用数码相机结构与功能模块,主要添加功能是图像信息分析与聚焦权重调整部分。

如图2所示为本发明中盲源分离的设计图。该设计图包括放大电路、数据同步采集电路、信号处理模块部分。麦克风阵列获取环境声音变成电信号,放大电路对该信号进行放大处理,便于数据处理,其中放大电路采用两级放大,第一级放大产生固定增益,第二级放大电路产生可调增益,数据采集是用数据采集芯片AD73360对放大的音频信号进行64KHz同步采样,将模拟音频信号转化为数字音频信号,最后将采集的信号连接到信号处理模块进行处理;信号处理模块的功能主要是功能前端修正、相关性分析、声源分离,它将采集得到的数字音频信号在数字信号处理器上进行基于FASTICA算法的盲源分离运算,得到各个声源分离信号。

如图3所示为本发明中放大电路设计原理图。由于麦克风的输出电压在零到几十毫伏之间,信号非常微弱,无法满足后期的工作要求,因此有必要对麦克风阵列采集到的信号进行放大,在满足放大的基础上,还需要保证放大电路能在麦克风的频率范围内正常工作(麦克风的频率范围是50Hz~20kHz)。另外,所选择的运算放大器要具有比较高的性噪比,满足系统对精度的要求。该放大电路可以正常工作,且能够满足本系统的需求。

放大电路采用两级放大,由U1A、U2A两个放大器构成。U1A为第一级放大,产生固定增益;U2A为第二级放大电路,产生可调增益,将第一级放大电路的输出电压调节到适合的范围。R7用来调整放大倍数,R8用来调整输出信号的偏置电压。

如图4所示为本发明中盲源分离原理示意图。其中M维观测信号矢量表示为x(t)=[x1(t),x2(t),…xM(t)]T,N维信源矢量表示为s(t)=[s1(t),s2(t),…sN(t)]T,M维噪声矢量表示为n(t)=[n1(t),n2(t),…nM(t)]T

盲信号分离的目标就是找到合适的分离系统W,使得输出所得分离信号y(t)=[y1(t),y2(t),…yN(t)]T尽可能的逼近源信号s(t)=[s1(t),s2(t),…sN(t)]T

如图5所示为本发明定位模块框图,GCC-PHAT模块包括多语音通道、数字信号处理器、控制逻辑CPLD三部分。多通道音频输入具有输出放大、输入两种工作模式、低功耗和ADC、DAC高信噪比等特点。数字信号处理器具有多个可软件编程器件,支持多通道音频处理的McBSP接口连接。多通道音频输入是实现多路立体声音频的输入,它通过McBSP接口将信号输入到数字信号处理器,CPLD辅助数字信号处理器各模块进行逻辑控制,完成GCC-PHAT算法操作得到时延值。几何定位模块根据GCC-PHAT时延估计模块算出的时延值在数字信号处理器上运算出各声源的定位点。

如图6所示为本发明中最基础的聚焦原理图。无论相机内部结构多么复杂,调焦过程的实现都可以看成是凸透镜聚焦的简单光学原理。一幅清晰的图片的组成都可以看成是不同的点经过光学聚焦后组成的焦平面。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号