首页> 中国专利> 降低DRAM软错误的方法

降低DRAM软错误的方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了一种降低DRAM软错误的方法，该方法能够主动检测软错误，智能降低软错误的发生率，使得DRAM中的错误位数保持在DRAM错误纠正能力范围之内，直至没有错误发生，DRAM恢复正常状态，从而提高了内存的可靠性、可用性以及可服务性，该方法可用于为广大客户提供关键任务程序和服务的领域，应用范围广，适用性强。

著录项

公开/公告号CN104167224A

专利类型发明专利
公开/公告日2014-11-26

原文格式PDF
申请/专利权人上海新储集成电路有限公司;
展开▼

申请/专利号CN201410261074.0
发明设计人景蔚亮;陈邦明;
展开▼

申请日2014-06-12
分类号G11C29/44;
代理机构上海申新律师事务所;
代理人吴俊
地址 201500 上海市金山区亭卫公路6505号2幢8号
入库时间 2023-12-17 01:49:17

法律信息

法律状态公告日

法律状态信息

法律状态
2018-06-29

授权

授权
2014-12-24

实质审查的生效 IPC(主分类):G11C29/44 申请日:20140612

实质审查的生效
2014-11-26

公开

公开

说明书

技术领域

本发明涉及一种计算机内存设计及应用领域，尤其涉及一种降低 DRAM软错误的方法。

背景技术

目前，服务器的可靠性(reliability)、可用性(availability) 以及可服务性(serviceability)对于当代IT企业来说是至关重要的问题，因为这些服务器需要为广大客户提供关键任务程序 (mission-critical applications)和服务，例如数据库、企业资源规划(ERP)、用户资源管理(CRM)、商业智能应用以及高端事务处理系统等，一旦这些应用程序交付失败，服务器系统停机而导致的损失将极其昂贵。因此Intel公司在其处理器芯片中加入了广泛而强大的RAS功能，为所有的处理器、内存、I/O数据通路提供错误检测、纠正、抑制以及恢复功能，从而使系统更加趋于安全稳定。所谓RAS 就是可靠性(reliability)、可用性(availability)以及可服务性 (serviceability)的简称，其中。可靠性就是解决数据完整性的问题，可用性就是在性能最小退化下确保系统无停机运行，可服务性就是针对如何主动和被动地简化处理已经存在的或潜在的错误组件。 RAS功能流程图如图1所示。正常状态下系统能够进行错误预防，在错误状态下对数据进行功能检测并标记错误，如果这些错误能够修正，那么进行错误纠正使之恢复到正常状态。严重的错误将会被隔离 (错误抑制)并记录下来，然后进行系统恢复，系统与BIOS、固件以及操作系统协同工作以恢复或者重启进程从而恢复到正常状态下，系统也可以通过隔离或替代缺陷固件或增加硬件资源在不关机下完成重新配置，恢复到正常状态。

而内存(DRAM)错误是导致计算机崩溃的最常见的硬件错误。 Google公司和多伦多大学公布的一项研究结果表明，DRAM内存模块的数据错误率要远远高于人们的预想，而且更有可能成为系统死机和服务中断的罪魁祸首。这项研究采用了上百万台Google服务器，结果表明所有DIMM(Dual-Inline-Memory-Modules)中有大约8.2％受到了可修正错误的影响，平均一个DIMM每年要发生3700次可修正错误。这项报告指出:“我们首次发现内存错误普遍存在。所有在用设备中大约1/3每年至少遇到一次内存错误，平均每年发生的可修正错误为22000次。在不同平台上得出的数据不同，有些平台大约有50％的设备受到可修正错误的影响，有的仅为12％～27％。”错误通常可以分为两种，软错误(soft error)和硬错误(hard error)。“软错误” 问题，是指由构成地球低强度背景辐射的核粒子引起的芯片内部电荷贮存状态的改变，这种改变虽然不会对芯片产生有形损坏，但将产生错误数据并造成设备的临时故障。晶体管的尺寸不断变小令每个晶体管本身对背景辐射的影响更加敏感，而芯片复杂性的大幅度提高也意味着芯片上某一部分遭受一个软错误的影响的机率大幅提高。软错误是可以通过再编程修正的。但是在许多情况下，我们所使用的电脑硬件确实就是会损坏。热量或是制造缺陷会导致部件随着时间的推移而磨损，导致电子从一个晶体管渗漏到另一个晶体管，或是导致旨在传输电流的芯片出现故障。这些就是所谓的“硬错误”(hard error)。硬错误是不能通过重写来修正的。正在设计下一代电脑芯片的科学家很担心“软错误”的问题，这是因为一个非常重大的因素：功率。在下一代超级电脑开始上线的情况下，它们将拥有更多的芯片和更小的部件。随着晶体管变得越来越小，这些电脑将需要越来越多的能量，才能阻止粒子对其造成影响。

针对内存错误的RAS功能有巡检擦写(patrol scrub)过程、错误检测与纠错(ECC)、细粒度内存镜像等。当内存被读取时检测到错误并且该错误是可修正的，那么将修正后的数据写回内存中从而保证数据完整性，这个过程就叫巡检擦写过程。ECC功能是通过在原来的数据位上外加额外的校验位来实现错误检测和纠正，ECC功能能够容许错误，并可以将错误更正，使系统得以持续正常的操作，不会因为错误而中断。如果一些关键应用程序需要更高的数据可靠性，内存镜像就允许将数据存储在两个不同的存储块中，并且几乎能够处理所有的内存错误，显然这是以两倍内存大小为代价的。

中国专利(公开号：CN103365731A)公开了一种降低处理器软错误率的方法。包括：预测模型构建步骤，使用机器学习的方法构建预测模型，来预测可以低开销地降低处理器软错误率的处理器最佳配置；识别程序片段步骤，在程序运行过程中，将程序分成若干连续的程序片段；统计特征获取步骤，在程序片段初始运行的一小段时间内，获取程序片段的统计特征；最佳配置预测步骤，将获取的统计特征输入预测模型，预测出程序片段相应的处理器最佳配置作为预测结果；调节步骤，根据预测结果，调节处理器部件配置，从而在保持或者提高性能功耗比的情况下，降低处理器的软错误率。该发明通过动态调节处理器部件配置，实现低开销地降低处理器软错误率的目的。

上述专利虽然公开了降低处理器软错误率的方法，但是其采取的技术方案与本发明所采取的降低DRAM软错误的方法并不相同。

发明内容

针对上述存在的问题，本发明公开一种降低DRAM软错误的方法，以克服现有技术中由于DRAM软错误而产生错误数据并造成设备的临时故障的问题。

为了实现上述目的，本申请记载了一种降低DRAM软错误的方法，应用于计算机系统中，其中，包括如下步骤：

步骤S1，进行DRAM错误检测以获取所述DRAM中数据的错误位数；

步骤S2，判断所述DRAM中数据的错误位数是否达到预警值，若否，则进行错误纠正以使所述DRAM恢复正常状态，若是，则进行步骤S3；

步骤S3，增加充电电压和/或提高刷新频率以使得所述DRAM中数据的错误位数小于所述预警值，继续进行步骤S2。

上述的降低DRAM软错误的方法，其中，所述预警值小于或等于所述DRAM的最大纠错位数。

上述的降低DRAM软错误的方法，其中，所述DRAM的最大纠错位数小于或等于所述DRAM的最高错误检测位数。

上述的降低DRAM软错误的方法，其中，当所述DRAM处于正常状态时所述计算机系统对所述DRAM中的数据进行错误预防。

上述的降低DRAM软错误的方法，其中，在所述步骤S1中，当所述DRAM处于错误状态时，进行DRAM错误检测并标记错误以获取所述 DRAM中数据的错误位数。

上述的降低DRAM软错误的方法，其中，在所述步骤S3中，增加充电电压至增加后的充电电压为原充电电压的A倍，提高刷新频率至增加后的刷新频率为原刷新频率的a倍；

其中，A和a的值均大于1。

上述的降低DRAM软错误的方法，其中，所述步骤S2中，所述 DRAM恢复正常状态包括所述充电电压恢复为原充电电压，所述刷新频率恢复为原刷新频率。

上述的降低DRAM软错误的方法，其中，所述DRAM为所述计算机系统的内存，且该DRAM包括一由NMOS晶体管和电容构成的存储单元、字线和位线；

所述字线与所述NMOS晶体管的栅极连接，所述位线与所述NMOS 晶体管的源极连接，且该NMOS晶体管的漏极通过所述电容接地；

其中，通过增加所述NMOS晶体管的源级电压和/或提高所述电容的刷新频率，以使得所述DRAM中数据的错误位数小于所述预警值。

上述发明具有如下优点或者有益效果：

本发明公开的一种降低DRAM软错误的方法，该方法能够主动检测软错误，智能降低软错误的发生率，使得DRAM中的错误位数保持在DRAM的错误纠正能力范围之内，直至没有错误发生，DRAM恢复正常状态，从而提高了内存的可靠性(reliability)、可用性 (availability)以及可服务性(serviceability)，该方法可用于为广大客户提供关键任务程序和服务的领域，应用范围广，适用性强。

具体附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明及其特征、外形和优点将会变得更加明显。在全部附图中相同的标记指示相同的部分。并未可以按照比例绘制附图，重点在于示出本发明的主旨。

图1是本发明背景技术中RAS功能的流程示意图；

图2是本发明实施例中DRAM存储单元的结构示意图；

图3是本发明实施例中提高DRAM存储单元充电电压的结构示意图；

图4本发明实施例中降低DRAM软错误的方法的流程示意图。

具体实施方式

下面结合附图和具体的实施例对本发明作进一步的说明，但是不作为本发明的限定。

本实施例涉及一种降低DRAM软错误的方法，应用于计算机系统中，该DRAM为计算机系统的内存，正常状态下该计算机系统能够对 DRAM中的数据进行错误预防，该方法包括如下步骤：

步骤一、进行DRAM错误检测并标记错误以获取DRAM中数据的错误位数。

步骤二、判断DRAM中数据的错误位数是否达到预警值，若否，则由上述计算机系统进行错误纠正以使得DRAM恢复正常状态(包括充电电压恢复为原充电电压，刷新频率恢复为原刷新频率)，若是，则进行步骤三。

其中，上述预警值可根据具体检测需求设定，但该预警值须小于或等于DRAM的最大纠错位数，且该DRAM的最大纠错位数须小于或等于DRAM的最高错误检测位数。

步骤三、增加充电电压和/或提高刷新频率以使得DRAM中数据的错误位数小于预警值，继续进行步骤二。

优选的，在步骤三中增加充电电压至增加后的充电电压为原充电电压的A倍(A>1)，提高刷新频率至增加后的刷新频率为原刷新频率的a倍(a>1)。

具体的，附图4本发明降低DRAM软错误的方法的流程示意图，如图4所示：

在正常状态下，计算机系统能够对DRAM中的数据进行错误预防，但在错误状态下须进行DRAM检测并标记错误以获取DRAM中数据的错误位数n(对应图4中的错误检测(n位))，如果这些错误能够被修正，那么计算机系统可进行错误纠正以使DRAM恢复正常状态。假设 DRAM的最高错误检测位数为N，并且DRAM能够纠正其中的M位，即系统的最大纠正位数为M位，显然M≤N。假设在某一段时间范围内， DRAM中的某一段地址空间的数据在错误检测时发现检测到的错误位数n连续达到了预警值m(m≤M)，即n≥m，且n≤M，说明该地址内的数据发生软错误的概率较高，那么可采取本发明针对软错误的解决办法，一方面可以提高刷新频率，另一方面可以增加充电电压，从而修正软错误使DRAM中的存储单元恢复至正常状态。上述预警值m与 DRAM的最大纠错位数M有关，并可由系统或者用户配置该数值。经过一段时间后如果检测到的错误位数n仍然达到预警值m，那么一方面可继续以增加的刷新频率刷新，另一方面可以继续以增加的充电电压充电，直至检测出来的错误位数n低于预警值m。经过一段时间后系统可恢复至正常状态下，刷新周期和充电电压也恢复至正常状态。

此外，举例说明本发明可以通过提高刷新频率和/或增加充电电压降低软错误使DRAM中的存储单元恢复至正常状态的原理如下：

如图2所示的是一个内存DRAM的存储单元，由NMOS晶体管和电容构成的存储单元、字线和位线构成，其中，字线与NMOS晶体管的栅极连接，位线与NMOS晶体管的源极连接，且该NMOS晶体管的漏极通过电容接地；该存储单元根据电容是否存储电荷来存储数据“1” 和“0”。当向电容中写入数据时，字线WL保持为高电平，写“1”时位线BL为高电平Vdd向电容充电，写“0”时位线BL为低电平使电容放电；当从电容中读取数据时，字线WL保持为高电平，电容向位线BL充电，通过灵敏放大器从而读出电容中保存的数据。当字线WL 为低电平时，电荷存储在电容中。因为漏电，存储的电荷会逐渐减少，为了保持数据完整性，DRAM的存储单元必须要周期刷新。对DRAM 来说，软错误通常就会发生在图2中的Q端，当Q端受到外部粒子或者其他条件影响，例如α射线，可能会发生电荷变化，如果电荷Q大量流失或者产生大量额外电荷，那么该存储单元的存储状态就可能会发生改变，由“1”变成“0”或由“0”变成“1”。由此可知，为了降低软错误的发生几率，可采取增加充电电压Vdd至A*Vdd大小(即增加NMOS晶体管的源级电压)，其中A＞1，优选的1.1≤A≤1.5(例如1.1、1.2、1.3或者1.5等)，如图3所示。充电电压的增加意味着电容存储的电荷Q也会成比例增加，从而外部事件对Q端的影响几率也会大大降低，从而降低软错误几率。另一种降低软错误发生几率的办法就是提高刷新频率(通过控制NMOS管的栅极电压来提高刷新频率)。假设DRAM原始刷新频率为F，提高刷新频率至a*F，其中a ＞1，优选的2≤a≤4(例如2、3、3.5或者4等)，对每个单元来说，刷新间隔时间变短，意味着在下一次刷新到来之前，电容存储电荷的变化(包括损失和增加)也会减少，因此外部事件对Q端的影响几率也会降低，从而降低软错误几率。

下面以具体实施例对本发明作进一步的阐述：

假设DRAM错误检测能够检测到8bit错误位，并能修正7bit错误，假设预警值m为6bit。如果在某一时间范围内对某一段地址空间进行错误检测时发现检测错误位连续达到了6bit或者更多，说明在接下来的时间范围内该段地址空间内的存储单元容易遭受外界粒子干扰而发生软错误，为了降低软错误发生率，采用本发明这种针对 DRAM软错误的解决办法，采取以下两种方式进行修正：(1)增加自刷新频率，目前DRAM普遍的刷新周期一般为64ms，那么可降低刷新周期至32ms或者16ms等；(2)增加电容的充电电压，假如传统的充电电压为1.8V，那么可提高至2.1V或者2.4V等。通过增加自刷新频率和充电电压的方式提高DRAM存储单元的稳定性，直到检测到的错误位低于6bit。经过一段时间后，DRAM可恢复至正常状态下，即刷新周期恢复至64ms，充电电压也恢复至1.8V。可见，本发明这种针对DRAM软错误的解决办法能够主动检测并能够智能降低软错误发生率，使DRAM中的错误位数保持在DRAM错误纠正能力范围之内，提高了DRAM的数据稳定性和可靠性。

综上所述，本发明公开的一种降低DRAM软错误的方法，该方法能够主动检测软错误，智能降低软错误的发生率，使得DRAM中的错误位数保持在DRAM错误纠正能力范围之内，直至没有错误发生，DRAM 恢复正常状态，从而提高了内存的可靠性、可用性以及可服务性，该方法可用于为广大客户提供关键任务程序和服务的领域，应用范围广，适用性强。

本领域技术人员应该理解，本领域技术人员在结合现有技术以及上述实施例可以实现所述变化例，在此不做赘述。这样的变化例并不影响本发明的实质内容，在此不予赘述。

以上对本发明的较佳实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，其中未尽详细描述的设备和结构应该理解为用本领域中的普通方式予以实施；任何熟悉本领域的技术人员，在不脱离本发明技术方案范围情况下，都可利用上述揭示的方法和技术内容对本发明技术方案作出许多可能的变动和修饰，或修改为等同变化的等效实施例，这并不影响本发明的实质内容。因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化及修饰，均仍属于本发明技术方案保护的范围内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 降低DRAM软错误的方法 [P] . 中国专利： CN104167224B . 2018.06.29
2. 混合DRAM存储器及降低该DRAM存储器刷新时功耗的方法 [P] . 中国专利： CN103810126B . 2017.06.13
3. PROGRAMMABLE SENSING DEVICE, AND METHOD AND DRAM ARRAY (PROGRAMMABLE HEAVY-ION SENSING DEVICE FOR ACCELERATED DRAM SOFT ERROR) DETECTION FOR DETECTING SOFT ERRORS [P] . 日本专利： JP2008282516A . 2008-11-20

机译：用于检测软错误的可编程感测装置，方法和DRAM阵列（用于加速DRAM软错误的可编程重离子感测装置）检测
4. Systems and methods for analyzing soft errors in a design and reducing the associated failure rates thereof [P] . 美国专利： US9991008B2 . 2018-06-05

机译：用于分析设计中的软错误并降低其相关故障率的系统和方法
5. Devices having reduced susceptibility to soft-error effects and method for fabrication [P] . 美国专利： US8642407B2 . 2014-02-04

机译：对软错误效应的敏感性降低的器件及其制造方法