首页> 中国专利> 降低DRAM软错误的方法

降低DRAM软错误的方法

摘要

本发明公开了一种降低DRAM软错误的方法,该方法能够主动检测软错误,智能降低软错误的发生率,使得DRAM中的错误位数保持在DRAM错误纠正能力范围之内,直至没有错误发生,DRAM恢复正常状态,从而提高了内存的可靠性、可用性以及可服务性,该方法可用于为广大客户提供关键任务程序和服务的领域,应用范围广,适用性强。

著录项

  • 公开/公告号CN104167224A

    专利类型发明专利

  • 公开/公告日2014-11-26

    原文格式PDF

  • 申请/专利权人 上海新储集成电路有限公司;

    申请/专利号CN201410261074.0

  • 发明设计人 景蔚亮;陈邦明;

    申请日2014-06-12

  • 分类号G11C29/44;

  • 代理机构上海申新律师事务所;

  • 代理人吴俊

  • 地址 201500 上海市金山区亭卫公路6505号2幢8号

  • 入库时间 2023-12-17 01:49:17

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-06-29

    授权

    授权

  • 2014-12-24

    实质审查的生效 IPC(主分类):G11C29/44 申请日:20140612

    实质审查的生效

  • 2014-11-26

    公开

    公开

说明书

技术领域

本发明涉及一种计算机内存设计及应用领域,尤其涉及一种降低 DRAM软错误的方法。

背景技术

目前,服务器的可靠性(reliability)、可用性(availability) 以及可服务性(serviceability)对于当代IT企业来说是至关重要 的问题,因为这些服务器需要为广大客户提供关键任务程序 (mission-critical applications)和服务,例如数据库、企业资 源规划(ERP)、用户资源管理(CRM)、商业智能应用以及高端事务处 理系统等,一旦这些应用程序交付失败,服务器系统停机而导致的损 失将极其昂贵。因此Intel公司在其处理器芯片中加入了广泛而强大 的RAS功能,为所有的处理器、内存、I/O数据通路提供错误检测、 纠正、抑制以及恢复功能,从而使系统更加趋于安全稳定。所谓RAS 就是可靠性(reliability)、可用性(availability)以及可服务性 (serviceability)的简称,其中。可靠性就是解决数据完整性的问 题,可用性就是在性能最小退化下确保系统无停机运行,可服务性就 是针对如何主动和被动地简化处理已经存在的或潜在的错误组件。 RAS功能流程图如图1所示。正常状态下系统能够进行错误预防,在 错误状态下对数据进行功能检测并标记错误,如果这些错误能够修 正,那么进行错误纠正使之恢复到正常状态。严重的错误将会被隔离 (错误抑制)并记录下来,然后进行系统恢复,系统与BIOS、固件 以及操作系统协同工作以恢复或者重启进程从而恢复到正常状态下, 系统也可以通过隔离或替代缺陷固件或增加硬件资源在不关机下完 成重新配置,恢复到正常状态。

而内存(DRAM)错误是导致计算机崩溃的最常见的硬件错误。 Google公司和多伦多大学公布的一项研究结果表明,DRAM内存模块 的数据错误率要远远高于人们的预想,而且更有可能成为系统死机和 服务中断的罪魁祸首。这项研究采用了上百万台Google服务器,结 果表明所有DIMM(Dual-Inline-Memory-Modules)中有大约8.2%受 到了可修正错误的影响,平均一个DIMM每年要发生3700次可修正错 误。这项报告指出:“我们首次发现内存错误普遍存在。所有在用设 备中大约1/3每年至少遇到一次内存错误,平均每年发生的可修正错 误为22000次。在不同平台上得出的数据不同,有些平台大约有50% 的设备受到可修正错误的影响,有的仅为12%~27%。”错误通常可以 分为两种,软错误(soft error)和硬错误(hard error)。“软错误” 问题,是指由构成地球低强度背景辐射的核粒子引起的芯片内部电荷 贮存状态的改变,这种改变虽然不会对芯片产生有形损坏,但将产生 错误数据并造成设备的临时故障。晶体管的尺寸不断变小令每个晶体 管本身对背景辐射的影响更加敏感,而芯片复杂性的大幅度提高也意 味着芯片上某一部分遭受一个软错误的影响的机率大幅提高。软错误 是可以通过再编程修正的。但是在许多情况下,我们所使用的电脑硬 件确实就是会损坏。热量或是制造缺陷会导致部件随着时间的推移而 磨损,导致电子从一个晶体管渗漏到另一个晶体管,或是导致旨在传 输电流的芯片出现故障。这些就是所谓的“硬错误”(hard error)。 硬错误是不能通过重写来修正的。正在设计下一代电脑芯片的科学家 很担心“软错误”的问题,这是因为一个非常重大的因素:功率。在 下一代超级电脑开始上线的情况下,它们将拥有更多的芯片和更小的 部件。随着晶体管变得越来越小,这些电脑将需要越来越多的能量, 才能阻止粒子对其造成影响。

针对内存错误的RAS功能有巡检擦写(patrol scrub)过程、 错误检测与纠错(ECC)、细粒度内存镜像等。当内存被读取时检测到 错误并且该错误是可修正的,那么将修正后的数据写回内存中从而保 证数据完整性,这个过程就叫巡检擦写过程。ECC功能是通过在原来 的数据位上外加额外的校验位来实现错误检测和纠正,ECC功能能够 容许错误,并可以将错误更正,使系统得以持续正常的操作,不会因 为错误而中断。如果一些关键应用程序需要更高的数据可靠性,内存 镜像就允许将数据存储在两个不同的存储块中,并且几乎能够处理所 有的内存错误,显然这是以两倍内存大小为代价的。

中国专利(公开号:CN103365731A)公开了一种降低处理器软错 误率的方法。包括:预测模型构建步骤,使用机器学习的方法构建预 测模型,来预测可以低开销地降低处理器软错误率的处理器最佳配 置;识别程序片段步骤,在程序运行过程中,将程序分成若干连续的 程序片段;统计特征获取步骤,在程序片段初始运行的一小段时间内, 获取程序片段的统计特征;最佳配置预测步骤,将获取的统计特征输 入预测模型,预测出程序片段相应的处理器最佳配置作为预测结果; 调节步骤,根据预测结果,调节处理器部件配置,从而在保持或者提 高性能功耗比的情况下,降低处理器的软错误率。该发明通过动态调 节处理器部件配置,实现低开销地降低处理器软错误率的目的。

上述专利虽然公开了降低处理器软错误率的方法,但是其采取的 技术方案与本发明所采取的降低DRAM软错误的方法并不相同。

发明内容

针对上述存在的问题,本发明公开一种降低DRAM软错误的方法, 以克服现有技术中由于DRAM软错误而产生错误数据并造成设备的临 时故障的问题。

为了实现上述目的,本申请记载了一种降低DRAM软错误的方法, 应用于计算机系统中,其中,包括如下步骤:

步骤S1,进行DRAM错误检测以获取所述DRAM中数据的错误位 数;

步骤S2,判断所述DRAM中数据的错误位数是否达到预警值,若 否,则进行错误纠正以使所述DRAM恢复正常状态,若是,则进行步 骤S3;

步骤S3,增加充电电压和/或提高刷新频率以使得所述DRAM中 数据的错误位数小于所述预警值,继续进行步骤S2。

上述的降低DRAM软错误的方法,其中,所述预警值小于或等于 所述DRAM的最大纠错位数。

上述的降低DRAM软错误的方法,其中,所述DRAM的最大纠错位 数小于或等于所述DRAM的最高错误检测位数。

上述的降低DRAM软错误的方法,其中,当所述DRAM处于正常状 态时所述计算机系统对所述DRAM中的数据进行错误预防。

上述的降低DRAM软错误的方法,其中,在所述步骤S1中,当所 述DRAM处于错误状态时,进行DRAM错误检测并标记错误以获取所述 DRAM中数据的错误位数。

上述的降低DRAM软错误的方法,其中,在所述步骤S3中,增加 充电电压至增加后的充电电压为原充电电压的A倍,提高刷新频率至 增加后的刷新频率为原刷新频率的a倍;

其中,A和a的值均大于1。

上述的降低DRAM软错误的方法,其中,所述步骤S2中,所述 DRAM恢复正常状态包括所述充电电压恢复为原充电电压,所述刷新 频率恢复为原刷新频率。

上述的降低DRAM软错误的方法,其中,所述DRAM为所述计算机 系统的内存,且该DRAM包括一由NMOS晶体管和电容构成的存储单元、 字线和位线;

所述字线与所述NMOS晶体管的栅极连接,所述位线与所述NMOS 晶体管的源极连接,且该NMOS晶体管的漏极通过所述电容接地;

其中,通过增加所述NMOS晶体管的源级电压和/或提高所述电容 的刷新频率,以使得所述DRAM中数据的错误位数小于所述预警值。

上述发明具有如下优点或者有益效果:

本发明公开的一种降低DRAM软错误的方法,该方法能够主动检 测软错误,智能降低软错误的发生率,使得DRAM中的错误位数保持 在DRAM的错误纠正能力范围之内,直至没有错误发生,DRAM恢复正 常状态,从而提高了内存的可靠性(reliability)、可用性 (availability)以及可服务性(serviceability),该方法可用于 为广大客户提供关键任务程序和服务的领域,应用范围广,适用性强。

具体附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述,本发 明及其特征、外形和优点将会变得更加明显。在全部附图中相同的标 记指示相同的部分。并未可以按照比例绘制附图,重点在于示出本发 明的主旨。

图1是本发明背景技术中RAS功能的流程示意图;

图2是本发明实施例中DRAM存储单元的结构示意图;

图3是本发明实施例中提高DRAM存储单元充电电压的结构示 意图;

图4本发明实施例中降低DRAM软错误的方法的流程示意图。

具体实施方式

下面结合附图和具体的实施例对本发明作进一步的说明,但是不 作为本发明的限定。

本实施例涉及一种降低DRAM软错误的方法,应用于计算机系统 中,该DRAM为计算机系统的内存,正常状态下该计算机系统能够对 DRAM中的数据进行错误预防,该方法包括如下步骤:

步骤一、进行DRAM错误检测并标记错误以获取DRAM中数据的错 误位数。

步骤二、判断DRAM中数据的错误位数是否达到预警值,若否, 则由上述计算机系统进行错误纠正以使得DRAM恢复正常状态(包括 充电电压恢复为原充电电压,刷新频率恢复为原刷新频率),若是, 则进行步骤三。

其中,上述预警值可根据具体检测需求设定,但该预警值须小于 或等于DRAM的最大纠错位数,且该DRAM的最大纠错位数须小于或 等于DRAM的最高错误检测位数。

步骤三、增加充电电压和/或提高刷新频率以使得DRAM中数据的 错误位数小于预警值,继续进行步骤二。

优选的,在步骤三中增加充电电压至增加后的充电电压为原充电 电压的A倍(A>1),提高刷新频率至增加后的刷新频率为原刷新频率 的a倍(a>1)。

具体的,附图4本发明降低DRAM软错误的方法的流程示意图, 如图4所示:

在正常状态下,计算机系统能够对DRAM中的数据进行错误预防, 但在错误状态下须进行DRAM检测并标记错误以获取DRAM中数据的错 误位数n(对应图4中的错误检测(n位)),如果这些错误能够被修 正,那么计算机系统可进行错误纠正以使DRAM恢复正常状态。假设 DRAM的最高错误检测位数为N,并且DRAM能够纠正其中的M位,即 系统的最大纠正位数为M位,显然M≤N。假设在某一段时间范围内, DRAM中的某一段地址空间的数据在错误检测时发现检测到的错误位 数n连续达到了预警值m(m≤M),即n≥m,且n≤M,说明该地址内 的数据发生软错误的概率较高,那么可采取本发明针对软错误的解决 办法,一方面可以提高刷新频率,另一方面可以增加充电电压,从而 修正软错误使DRAM中的存储单元恢复至正常状态。上述预警值m与 DRAM的最大纠错位数M有关,并可由系统或者用户配置该数值。经 过一段时间后如果检测到的错误位数n仍然达到预警值m,那么一方 面可继续以增加的刷新频率刷新,另一方面可以继续以增加的充电电 压充电,直至检测出来的错误位数n低于预警值m。经过一段时间后 系统可恢复至正常状态下,刷新周期和充电电压也恢复至正常状态。

此外,举例说明本发明可以通过提高刷新频率和/或增加充电电 压降低软错误使DRAM中的存储单元恢复至正常状态的原理如下:

如图2所示的是一个内存DRAM的存储单元,由NMOS晶体管和电 容构成的存储单元、字线和位线构成,其中,字线与NMOS晶体管的 栅极连接,位线与NMOS晶体管的源极连接,且该NMOS晶体管的漏极 通过电容接地;该存储单元根据电容是否存储电荷来存储数据“1” 和“0”。当向电容中写入数据时,字线WL保持为高电平,写“1”时 位线BL为高电平Vdd向电容充电,写“0”时位线BL为低电平使电 容放电;当从电容中读取数据时,字线WL保持为高电平,电容向位 线BL充电,通过灵敏放大器从而读出电容中保存的数据。当字线WL 为低电平时,电荷存储在电容中。因为漏电,存储的电荷会逐渐减少, 为了保持数据完整性,DRAM的存储单元必须要周期刷新。对DRAM 来说,软错误通常就会发生在图2中的Q端,当Q端受到外部粒子或 者其他条件影响,例如α射线,可能会发生电荷变化,如果电荷Q大 量流失或者产生大量额外电荷,那么该存储单元的存储状态就可能会 发生改变,由“1”变成“0”或由“0”变成“1”。由此可知,为了 降低软错误的发生几率,可采取增加充电电压Vdd至A*Vdd大小(即 增加NMOS晶体管的源级电压),其中A>1,优选的1.1≤A≤1.5(例 如1.1、1.2、1.3或者1.5等),如图3所示。充电电压的增加意味 着电容存储的电荷Q也会成比例增加,从而外部事件对Q端的影响几 率也会大大降低,从而降低软错误几率。另一种降低软错误发生几率 的办法就是提高刷新频率(通过控制NMOS管的栅极电压来提高刷新 频率)。假设DRAM原始刷新频率为F,提高刷新频率至a*F,其中a >1,优选的2≤a≤4(例如2、3、3.5或者4等),对每个单元来说, 刷新间隔时间变短,意味着在下一次刷新到来之前,电容存储电荷的 变化(包括损失和增加)也会减少,因此外部事件对Q端的影响几率 也会降低,从而降低软错误几率。

下面以具体实施例对本发明作进一步的阐述:

假设DRAM错误检测能够检测到8bit错误位,并能修正7bit错 误,假设预警值m为6bit。如果在某一时间范围内对某一段地址空 间进行错误检测时发现检测错误位连续达到了6bit或者更多,说明 在接下来的时间范围内该段地址空间内的存储单元容易遭受外界粒 子干扰而发生软错误,为了降低软错误发生率,采用本发明这种针对 DRAM软错误的解决办法,采取以下两种方式进行修正:(1)增加自 刷新频率,目前DRAM普遍的刷新周期一般为64ms,那么可降低刷新 周期至32ms或者16ms等;(2)增加电容的充电电压,假如传统的充 电电压为1.8V,那么可提高至2.1V或者2.4V等。通过增加自刷新 频率和充电电压的方式提高DRAM存储单元的稳定性,直到检测到的 错误位低于6bit。经过一段时间后,DRAM可恢复至正常状态下,即 刷新周期恢复至64ms,充电电压也恢复至1.8V。可见,本发明这种 针对DRAM软错误的解决办法能够主动检测并能够智能降低软错误发 生率,使DRAM中的错误位数保持在DRAM错误纠正能力范围之内,提 高了DRAM的数据稳定性和可靠性。

综上所述,本发明公开的一种降低DRAM软错误的方法,该方法 能够主动检测软错误,智能降低软错误的发生率,使得DRAM中的错 误位数保持在DRAM错误纠正能力范围之内,直至没有错误发生,DRAM 恢复正常状态,从而提高了内存的可靠性、可用性以及可服务性,该 方法可用于为广大客户提供关键任务程序和服务的领域,应用范围 广,适用性强。

本领域技术人员应该理解,本领域技术人员在结合现有技术以及 上述实施例可以实现所述变化例,在此不做赘述。这样的变化例并不 影响本发明的实质内容,在此不予赘述。

以上对本发明的较佳实施例进行了描述。需要理解的是,本发明 并不局限于上述特定实施方式,其中未尽详细描述的设备和结构应该 理解为用本领域中的普通方式予以实施;任何熟悉本领域的技术人 员,在不脱离本发明技术方案范围情况下,都可利用上述揭示的方法 和技术内容对本发明技术方案作出许多可能的变动和修饰,或修改为 等同变化的等效实施例,这并不影响本发明的实质内容。因此,凡是 未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例 所做的任何简单修改、等同变化及修饰,均仍属于本发明技术方案保 护的范围内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号