法律状态公告日
法律状态信息
法律状态
2015-01-28
授权
授权
2013-12-25
实质审查的生效 IPC(主分类):G06F11/16 申请日:20130906
实质审查的生效
2013-12-04
公开
公开
技术领域
本发明涉及一种实现双机热备系统及该系统的故障检测方法,尤其涉及于基于DSP 的自动控制领域。
背景技术
对于某些执行关键使命的数据处理系统,要求其能够长时间稳定运行,即具备不停顿 运行的能力。这类系统暂时的停机都会导致数据的丢失和灾难性的后果。目前广泛采用主 备用系统通过冗余的部件和专门的软件,能够在单一系统出现单点故障时降级运行,大大 提高了系统的可用性。
DSP即Digital Signal Processing,DSP芯片,也称数字信号处理器,是一种具有 特殊结构的微处理器。DSP芯片的内部采用程序和数据分开的哈佛结构,具有专门的硬件 乘法器,广泛采用流水线操作,提供特殊的DSP指令,可以用来快速的实现各种数字信号 处理算法。
组建主备用系统有多种技术方案。从备份的规模来讲有单机备份、双机备份和异地双 机备份。从后备系统的准备程度来讲,有冷备份、温备份和热备份。从系统的工作方式来 讲,主要有主从方式以及双机双工方式。其中,目前应用最广的是双机热备份系统。
双机热备份系统采用“心跳”方法保证主系统与备用系统的联系。所谓“心跳”,指 的是主从系统之间相互按照一定的时间间隔发送通讯信号,表明各自系统当前的运行状 态。一旦“心跳”信号停止表明主机系统发生故障,或者备用系统无法收到主机系统的“心 跳”信号,则系统的高可用性管理软件也就是该系统的主控模块认为主机系统发生故障, 主机停止工作,并将系统资源转移到备用系统上,备用系统将替代主机发挥作用,以保证 系统服务运行不间断。而一旦“心跳线”部分发生故障,系统的主控模块很难分清是“心 跳”线的故障,还是系统其他部分的故障,往往需要人工干预才能解决问题,应用也将受 到影响。
发明内容
本发明目的是为了解决现有双机热备份系统出现故障时,无法判定系统故障的类型的 问题,提供了一种双机热备份系统及该系统的故障检测方法。
本发明所述一种双机热备份系统,它包括DSP主机、DSP备份机和电源控制板,所述 电源控制板的供电电源输出端分别与连接DSP主机和DSP备份机的电源输入端;所述DSP 主机、DSP备份机和电源控制板之间的通信为SPI串口通信,且在DSP主机和电源控制板 之间设置有二号选择开关SW;在DSP备份机和电源控制板之间设置有一号选择开关SW;
它还包括复用GPIO端口、一号时钟同步模块、二号时钟同步模块和三号选择开关SW;
所述DSP主机的心跳检测信号输出端通过复用GPIO端口与DSP备份机的心跳检测信号 输入端相连接;
所述DSP主机的时钟信号输出端连接三号选择开关SW的第一信号输入端,所述三号选 择开关SW的第一信号输出端连接一号时钟同步模块的一号时钟信号输入端;
所述三号选择开关SW的第二信号输出端连接二号时钟同步模块的二号时钟信号输入 端;
所述DSP备份机的时钟信号输出端连接三号选择开关SW的第二信号输入端;
所述一号时钟同步模块的一号和二号时钟信号输出端分别连接DSP主机的时钟信号输 入端和DSP备份机的时钟信号输入端;
所述二号时钟同步模块的一号和二号时钟信号输出端分别连接一号时钟同步模块的一 号和二号时钟信号输出端;
所述DSP主机的人工检测信号输出端通过外围设备和底板总线连接人工检测设备;
所述DSP备份机的人工检测信号输出端通过外围设备和底板总线连接人工检测设备。
一种双机热备份系统的故障检测方法,该系统的故障检测方法为:
运行双机热备份系统,对DSP主机和DSP备份机通过SPI串口通信进行时钟同步,如 果在1个同步时钟周期内完成同步,DSP主机与DSP备份机同步进入时钟中断;
如果同步时钟上升沿刚好在DSP主机开同步时钟中断后而DSP备份机还未开同步时钟 中断的时刻来到,此时DSP主机将比DSP备份机提前一个同步时钟周期进入时钟中断;
如果时钟周期同步不正常,则DSP主机通过复用GPIO端口向DSP备份机发送故障信息, DSP备份机检测复用GPIO端口接收到的错误信息次数并与预设值进行比较,若多于预设值, 则说明DSP主机发生故障,DSP备份机通过SPI串口通信发送控制信号给电源控制板,电 源控制板通过二号选择开关SW对DSP主机进行断电,DSP备份机获得总线控制权;
如果时钟周期同步正常,则DSP主机和DSP备份机开始周期性自检,DSP主机和DSP 备份机分别进行自检,若发现有外围设备发生故障,则发送自检故障信息,若外围设备均 正常工作,则不发送自检信息;进行同步时钟故障检测,该检测是由DSP主机来检测,同 步时钟作为DSP主机与DSP备份机的外部中断源使用,在DSP主机中通过设置标志量来表 示同步时钟是否有中断信号进入;通过检测此标志量实现同步时钟故障检测。
本发明的优点:本系统用串口传递故障信息,如果串口发生故障则采用复用GPIO传 递故障信息,提高了系统的安全性,同时引入了可以时钟同步模块,实现整个系统任意设 备发生单一故障,系统都能正常运行,都可以及时准确的检测出来提高了系统的安全性和 可靠性;
本发明可以进行同步时钟故障检测,DSP主机和DSP备份机的存储器故障检测、DSP 主机和DSP备份机的程序性故障检测串口故障检测和DSP主机和DSP备份机的A/D自检 和DSP主机和DSP备份机的D/A自检。
附图说明
图1是本发明所述一种双机热备份系统的结构示意图。
具体实施方式
具体实施方式一:下面结合图1说明本实施方式,本实施方式所述一种双机热备份系 统,它包括DSP主机1、DSP备份机2和电源控制板3,所述电源控制板3的供电电源输出 端分别与连接DSP主机1和DSP备份机2的电源输入端;所述DSP主机1、DSP备份机2和 电源控制板3之间的通信为SPI串口通信,且在DSP主机1和电源控制板3之间设置有二 号选择开关SW7;在DSP备份机2和电源控制板3之间设置有一号选择开关SW6;
它还包括复用GPIO端口、一号时钟同步模块4、二号时钟同步模块5和三号选择开关 SW8;
所述DSP主机1的心跳检测信号输出端通过复用GPIO端口与DSP备份机2的心跳检测 信号输入端相连接;
所述DSP主机1的时钟信号输出端连接三号选择开关SW8的第一信号输入端,所述三 号选择开关SW8的第一信号输出端连接一号时钟同步模块4的一号时钟信号输入端;
所述三号选择开关SW8的第二信号输出端连接二号时钟同步模块5的二号时钟信号输 入端;
所述DSP备份机2的时钟信号输出端连接三号选择开关SW8的第二信号输入端;
所述一号时钟同步模块4的一号和二号时钟信号输出端分别连接DSP主机1的时钟信 号输入端和DSP备份机2的时钟信号输入端;
所述二号时钟同步模块5的一号和二号时钟信号输出端分别连接一号时钟同步模块4 的一号和二号时钟信号输出端;
所述DSP主机1的人工检测信号输出端通过外围设备和底板总线连接人工检测设备;
所述DSP备份机2的人工检测信号输出端通过外围设备和底板总线连接人工检测设备。
具体实施方式二:下面结合图1说明本实施方式,本实施方式所述的一种双机热备份 系统的故障检测方法,该系统的故障检测方法为:
运行双机热备份系统,对DSP主机1和DSP备份机2通过SPI串口通信进行时钟同步, 如果在1个同步时钟周期内完成同步,DSP主机1与DSP备份机2同步进入时钟中断;
如果同步时钟上升沿刚好在DSP主机1开同步时钟中断后而DSP备份机2还未开同步 时钟中断的时刻来到,此时DSP主机1将比DSP备份机2提前一个同步时钟周期进入时钟 中断;在第一个同步时钟周期,由于DSP备份机2还没有开同步时钟中断,DSP备份机2 不能向DSP主机1发送心跳信号,若DSP主机1不对此种情况予以处理,会造成DSP备份 机2无法正常进入备份工作状态;此时由DSP主机1调用其内部预设的程序进行处理,以 保证主机和从机的同步;
如果时钟周期同步不正常,则DSP主机1通过复用GPIO端口向DSP备份机2发送故障 信息,DSP备份机2检测复用GPIO端口接收到的错误信息次数并与预设值进行比较,若多 于预设值,则说明DSP主机1发生故障,DSP备份机2通过SPI串口通信发送控制信号给 电源控制板3,电源控制板3通过二号选择开关SW7对DSP主机1进行断电,DSP备份机2 获得总线控制权;
如果时钟周期同步正常,则DSP主机1和DSP备份机2开始周期性自检,DSP主机1 和DSP备份机2分别进行自检,若发现有外围设备发生故障,则发送自检故障信息,若外 围设备均正常工作,则不发送自检信息。
本实施方式进行同步时钟故障检测,该检测是由DSP主机1来检测,同步时钟作为DSP 主机1与DSP备份机2的外部中断源使用,在DSP主机1中通过设置标志量来表示同步时 钟是否有中断信号进入;通过检测此标志量实现同步时钟故障检测。
具体实施方式三:下面结合图1说明本实施方式,本实施方式所述系统的故障检测方 法还包括DSP主机1和DSP备份机2的存储器故障检测,所述DSP主机1和DSP备份机2 的存储器故障检测的方式相同;所述故障检测通过DSP存储器自检来实现,通过向DSP主 机1存储器不同空间写入数据并读取,如果写入的数据和读取到的数据中不一致的数据比 例超过设定阈值,则视为DSP存储器故障;当进行存储器故障检测时,DSP主机1先主动 退出总线权,并通过串口通信向DSP备份机2发送信号;当DSP备份机2获得总线权时, 向底板总线输出数据,同时向电源控制板3发出对DSP主机1的断电请求。
具体实施方式四:下面结合图1说明本实施方式,本实施方式所述系统的故障检测方 法还包括DSP主机1和DSP备份机2的程序性故障检测,采用双机心跳互检的方法,DSP 主机1与DSP备份机2周期性向对方发送心跳信号;设置心跳缺失周期阈值为最小值1, 采用心跳检测线冗余的方式;
通过串口的收发构成闭环来进行串口的自检,若DSP主机1的串口发生故障,无法通 过串口发送故障信息时,复用心跳信号线发送串口故障信息。
具体实施方式五:下面结合图1说明本实施方式,本实施方式所述系统的故障检测方 法还包括DSP主机1和DSP备份机2的A/D自检和DSP主机1和DSP备份机2的D/A自检;
所述A/D自检通过采集基准电压值,进行比对来完成;设置偏差阈值,如果超出偏差 阈值,则视为DSP中A/D故障,DSP主机1先主动退出总线权,并通过串口通信向DSP备 份机2发送信号;当DSP备份机2获得总线权时,向底板总线输出数据,同时向电源控制 板3发出对DSP主机1的断电请求;如果在偏差阈值内,则A/D正常;
所述DSP主机1和DSP备份机2的D/A自检是在A/D自检完成后进行,由DSP主机1 发送数字量,通过D/A模块后再由A/D模块采集到DSP主机1内,与DSP主机1内预设的 偏差阈值进行比对;若超出偏差阈值,则视为DSP中A/D故障,DSP主机1先主动退出总 线权,并通过串口通信向DSP备份机2发送信号;当DSP备份机2获得总线权时,向底板 总线输出数据,同时向电源控制板3发出对DSP主机1的断电请求;若在偏差阈值内,则 系统的D/A自检正常。
具体实施方式六:下面结合图1说明本实施方式,本实施方式所述系统的故障检测方 法还包括进行外部设备故障检测,若系统的其他外设类故障时,由于主机程序能够正常运 行,所以此时需要主机先主动退出总线权,并告知备份机,然后备份机获得总线权,向底 板总线输出数据,同时向电源控制模块发出关闭故障机请求,开始系统重构;
系统重构过程由主控单元正常机向电源控制单元发送关闭故障机请求开始,
主控单元故障机断电后重新启动,然后进行一系列的自检,若没有故障,则重新进入 到双机备份系统中;若重启后仍然有故障,则运行主机重新发送关闭故障机请求,对故障 机断电,转为单机运行。
具体实施例:
本实施例所述的一种双机热备份系统及其故障检测方法进行进一步详细说明:
在本系统开始运行时,DSP主机1先与DSP备份机2通过SPI串口通信进行时钟同步, 如果在1个同步时钟周期内完成同步,DSP主机1与DSP备份机2可以同步进入时钟中断;
如果同步时钟上升沿刚好在DSP主机1开同步时钟中断后而DSP备份机2还未开同步 时钟中断的时刻来到,此时DSP主机1将比DSP备份机2提前一个同步时钟周期进入时钟 中断;
在第一个同步时钟周期,由于DSP备份机2还没有开同步时钟中断,DSP备份机2不 能向DSP主机1发送心跳信号,若DSP主机1不对此种情况予以处理,会造成DSP备份机 2无法正常进入备份工作状态;此时由DSP主机1调用其内部预设的程序进行处理,以保 证主机和从机的同步;
如果同步不正常,则DSP主机1通过GOIO口传递故障信息,当DSP备份机2GPIO口 检测到的错误信息次数,多于预设值,则说明DSP主机1发生故障,系统将故障信息传递 给电源控制板3,电源控制板对DSP主机1进行断电,DSP备份机2获得总线控制权;
DSP主机1的同步时钟中断程序伪代码如下:
同时,DSP主机1中DSP备份机2不进行数据计算,因此每个同步时钟周期,DSP主 机1都要将相关计算数据共享给DSP备份机2,DSP备份机2予以存储,一旦DSP主机1 发生故障,DSP备份机2根据这些数据,立即接替DSP主机1进行数据运算,保证切换过 程的平稳性和连续性。采用这种方式,可以减轻DSP备份机2的工作强度,从而一定程度 上降低其发生故障的概率;
如果DSP主机1与DSP备份机2时钟同步正常,则系统开始周期性自检,DSP主机1 在进行自检后,若发现有外设发生故障,则通过串口向对方发送故障信息,若是各个外设 均正常工作,则不需要发送自检信息,这样可以在一定程度上减轻DSP主机1的工作压力;
若在DSP主机1发生故障,根据故障类型的不同,需要采取不同的措施来进行故障机 的隔离。若DSP主机1为DSP程序性故障,进入跑飞状态,此时其不能进入SCI和SPI 中断,即其将不能向DSP备份机2总线输出数据,DSP备份机2立即获得总线权,在接替 DSP主机1工作的同时,向电源控制板3发出断电故障机请求。若DSP主机1为其他外设 类故障时,由于DSP主机1程序能够正常运行,所以此时需要DSP主机1先主动退出总线 权,并告知DSP备份机2,然后DSP备份机2获得总线权,向DSP备份机2总线输出数据, 同时向电源控制板3发出关闭故障机请求,开始系统重构。
系统重构过程由DSP主机1正常机向电源控制板3发送关闭故障机请求开始。
DSP主机1故障机断电后重新启动,然后进行一系列的自检,若没有故障,则重新进 入到双机备份系统中;若重启后仍然有故障,则运行DSP主机1重新发送关闭故障机请求, 对故障机断电,转为单机运行。
机译: 控制电路,控制电路故障检测方法,变桨控制电路短路故障检测方法以及铁路信号联锁控制系统
机译: 控制电路,控制电路短路故障检测方法,铁路开关控制电路短路故障检测方法以及铁路信号控制系统
机译: 磨损量估算系统,校正系统,故障检测系统,使用寿命检测系统,机床和磨损量估算方法,机床和故障检测方法以及机床和使用寿命检测方法