::香农::青岛数据恢复中心::

冬天硬盘更受伤:硬盘在低温下的故障机制

文章首页
冬天硬盘更受伤:硬盘在低温下的故障机制
一、硬盘的结构
1、硬盘的机械结构:主轴电机
硬盘的机械结构:磁碟
硬盘的机械结构:磁头和音圈马达
2、硬盘的固件结构
二、硬盘的初始化
三、硬盘的缺陷表和缺陷调整
四、低温环境下的硬盘故障机制
五、温度梯度的影响
结论
全部页面

许多人正在庆幸自己的硬盘安然的度过了夏日高温的考验,再也不用担心散热问题;却没有料到在冬季他们的硬盘仍然面临着低温的威胁。

在我们的实践中发现,部分使用液态轴承电机的硬盘在相对低温下(低于15摄氏度,符合硬盘生产商规定的0-60摄氏度的工作环境的要求),故障率大大的提高。我们认为低温是通过影响硬盘的结构和工作过程而导致硬盘发生故障的。下面我们将简要介绍硬盘的结构和工作过程,并给出其故障发生的机理。

硬盘在低温下的故障机制

作者 香农(青岛)数据恢复中心 【版权所有 侵权必究】
2005/11/02


一、硬盘的结构

硬盘是由硬件和软件组成的系统。硬盘的硬件包括PCB(电路板,包括位于密封体内的转接器/前置放大器)和HDA(磁头-磁碟组件);硬盘的软件包括PCB上主控芯片内掩膜ROM中的微代码(microcode)和扩展的Flash ROM中的微代码(microcode),及磁碟上固件区(SA)中的微代码(microcode)与数据模块。下面着重介绍硬盘的机械结构和固件结构。

1、硬盘的机械结构

在硬盘的密封体之内,主要是硬盘的机械部件,包括主轴电机(Spindle motor)、磁碟(Disk)、磁头(Head)、音圈马达(VCM)、悬臂(Actuator Arm)、臂锁(Latch)等。

图一:硬盘的机械结构示意图
图一:硬盘的机械结构示意图


主轴电机

主轴电机按转速分有5400RPM、7200RPM、10000RPM、15000RPM以至20000RPM等;按轴承的结构分有滚珠轴承(BB)主轴电机和液态轴承(FDB)主轴电机。

图二是滚珠轴承主轴电机的结构示意图,图三是液态轴承主轴电机的结构示意图。

图二:滚珠轴承主轴电机结构示意图
图二:滚珠轴承主轴电机结构示意图

图三:液态轴承主轴电机结构示意图
图三:液态轴承主轴电机结构示意图

液态轴承主轴电机使用粘性的酯油作为润滑剂,与滚珠轴承主轴电机相比,增大了接触面,增强了运转的稳定性,减小了NRRO(周期性偏离)效应,因此可以实现更高的数据密度;同时在非工作状态下可以抵抗更大的震动冲击,在工作状态下减小了谐振和噪音。但是液态轴承主轴电机中使用的酯油却有粘度随温度变化的特性:在温度较低时酯油粘度较高,而在温度较高时酯油粘度较低;要保证主轴电机正常运转,酯油必须具有合适的粘度。 (香农青岛数据恢复中心)

图四:酯油的粘度-温度变化曲线示意图
图四:酯油的粘度-温度变化曲线示意图

主轴电机 是驱动磁碟运转的马达,采用三相供电。它有三种运转模式:启动模式,加速模式和稳定模式。硬盘加电后微处理器发出相位切换信号来使主轴电机启转;在加速模式下主轴马达产生自感应电动势(EMF),微处理检测到自感应电动势并据此信号控制主轴电机的转速,微处理器通过加速相位切换来提高主轴电机的转速;当达到额定转速后主轴电机进入稳定模式,在此模式下微处理器根据相位信号来计算主轴马达的旋转周期并据此调整转速。


磁碟

磁碟是一种铝制的或陶瓷及特殊玻璃的圆盘,它拥有最高精度等级的光滑表面。磁碟上的磁性物质一般是使用真空沉积工艺生成的氧化铬覆盖层或钴覆盖层。(香农青岛数据恢复中心)氧化铬覆盖层具有很高的硬度和抗磨损性。

数据被转换为磁信号后记录在磁碟上;磁碟上有两个特殊的区域:一个是磁头的停泊区(Landing zone),一个是固件区(Service Area)。磁头的停泊区一般位于磁盘的内圈(ID),有部分型号的硬盘磁头停泊在磁盘外面的磁头支架上);固件区可以位于磁盘的外圈(OD),也可以位于磁盘的内圈(ID)或者磁盘的中部。

磁盘上的用户数据区(User Area),在规定的容量之外,还有一部分保留区(Reserved Area)。保留区是用来在硬盘使用过程中,如果出现了“缺陷扇区(Defects Sector)”,就可以用保留区中的完好扇区来替代缺陷扇区。注意,我们这里使用了“缺陷扇区(Defects Sextor)”而不是通常使用的“坏区(Bad sector)”,“坏区(Bad Sector)”或“坏簇(Bad Clusters)是操作系统(OS)使用的概念,而对于硬盘来说,使用“Defects”来表示由于刮擦、磁性减弱或伺服信号丢失造成的损坏的扇区、磁道。

图五:磁盘空间的结构示意图
图五:磁盘空间的结构示意图


磁头

磁头是读取和写入磁性信号的部件。磁头与芯片一样使用光刻技术生成,表面与磁碟一样光滑。它通过磁臂悬浮在磁盘表面,由音圈马达驱动。(香农青岛数据恢复中心)现代硬盘所使用的巨阻磁头(GMR)由两部分组成:读磁头和写磁头。硬盘在非工作状态下,磁头停泊在磁盘表面的停泊区或磁头支架上;在工作状态下,磁头以几十纳米的高度飞行在磁盘表面。

音圈马达

音圈马达是推动磁头组运动的部件,其工作原理与扩音喇叭的线圈类似:当一定电压的电流流过线圈时就会产生极性,从而以一定的加速度推动磁头转向一定位置;这样磁头就可以定位于磁碟表面的任意位置。硬盘在非工作状态时,使用臂锁(Latch)将磁头固定在停泊区;当硬盘开始工作时音圈线圈会流过一个较大的电流,使磁头脱离臂锁。


2、硬盘的固件结构

固件(Firmware)是硬盘运转所需的程序和数据,对用户来说是隐藏的。固件分为微代码模块(microcode)、数据模块和技术模块。微代码(microcode)用于控制硬盘的运转和读写操作;数据模块包括校准参数和译码表,是硬盘进行读/写操作所必须的;技术模块是在工厂的生产过程中使用,在硬盘的一般运转过程中不会被调用。微代码模块和数据模块是硬盘正常运转所必需的,如果它们损坏,那么硬盘就无法完成初始化(Initialize)而进入失败状态(Fail)。


二、硬盘的初始化

硬盘在加电之后、操作系统可以访问之前,必须进行初始化。硬盘的初始化过程包括:

  1. 加电后向硬盘电路板上的微处理器发出Reset信号,进行必要的初始化后,从微处理内部的掩膜ROM或扩展的Flash ROM中载入微代码,电机起转。
  2. 微处理器通过改变相位变化速度来使主轴电机达到额定转速,直到主轴电机进入稳定工作模式。
  3. 磁头解锁,移动到固件区并读取固件数据。
  4. 从固件区载入微代码模块并替代步骤1中载入的微代码模块。
  5. 读取校准数据和缺陷表并载入微处理器的RAM中。
  6. 硬盘准备就绪,等待主机发出的指令。

如果硬盘初始化时发生故障就会导致硬盘进入失败状态(Fail)。


硬盘磁碟的生产技术不能实现无缺陷的生产,由于磁盘表面的介质材料、抛光缺陷、磁层的杂质、磁头与磁盘的碰撞以及磁性的衰退等都会导致读/写数据时出错,(香农青岛数据恢复中心)这被称为“缺陷(Defects)”。“缺陷”按损伤范围分为:缺陷扇区、缺陷磁道、缺陷柱面和缺陷磁头。

  1. 硬盘在使用过程中,磁盘表面的磁性会随着时间的流逝或者由于环境温度过高/过低而衰减,逐渐在某些扇区出现读/写错误的现象,成为“缺陷扇区”;
  2. 硬盘在运转时,磁头和磁盘由于振动或不稳定的运行导致的碰撞,造成多个磁道的刮擦,产生“缺陷磁道”。
  3. 有时磁头也会发生故障,磁头所在的整个盘面发生读/写错误,成为“缺陷磁头”。

另外,由于校准参数(Adaptive)丢失,磁头在定位时发生位置误差(PES),或者磁头在读/写时的信号电平是非线性的,也会表现为大面积的“缺陷”。

早期的硬盘会将缺陷磁道标识在盘体表面的标签上,并且每个硬盘都有一些保留空间(Reserved area),用于代替缺陷扇区。

缺陷表在工厂测试时由生产商填充。现代的硬盘采用的是“校准格式化”的方法,会自动的将发现的所有缺陷都添加到缺陷表。(香农青岛数据恢复中心)大部分型号的硬盘有两个缺陷表:P-表和G-表。

P-表在进行“校准格式化”时填充;G-表被设计用来填充用户使用过程中出现的缺陷。P-表使用的是“跳过(Slip)算法”,缺陷扇区被跳过,它的编号被分配给其后的第一个可用扇区,而最后一个扇区被顺序移位到保留区(见图六):

图六:P-表的算法
图六:P-表的算法

G-表使用的是替代(Remap)算法,硬盘将保留区中的替代扇区的标记写入缺陷扇区的ID字段,并将保留扇区的编号写入缺陷扇区的数据字段。当使用逻辑地址对缺陷扇区进行读/写操作时,硬盘读出扇区标记和替代地址,然后重定向到保留扇区,因此,缺陷扇区就不再被使用了,不过在重定向到保留扇区之前仍然要先寻址到缺陷扇区(见图七)。

图七:G-表的算法
图七:G-表的算法

硬盘在使用过程中如果出现缺陷(通常是缺陷扇区),硬盘的微代码就会使用“Remap”指令将缺陷扇区填充到G-表——即用保留扇区替代缺陷扇区——但如果是由于刮擦造成的缺陷磁道,这一机制通常会失败,硬盘会被判定为“人为的损坏”而拒绝提供质保。在S.M.A.R.T.中也会记录缺陷调整的次数。


硬盘对工作环境的温度要求一般是0 °C-60 °C之间(运转时)。但是我们发现,某些使用液态轴承的硬盘,例如Maxtor Diamond Plus 8和Maxtor Diamond Plus 9在环境温度低于15 °C是就会发生故障。在低温环境下,(香农青岛数据恢复中心)轴承中的液体需要一段时间的预热才能达到正常工作所需的粘度。因此,在硬盘启动时,盘片就会发生上下振动,导致读/写频繁出错,最终导致硬盘损坏。

硬盘运转时,磁头与磁盘的距离只有几十纳米,哪怕是极微小的振动,也会导致磁头与磁盘发生碰撞。

硬盘在加电后的初始化阶段,首先会读取固件区的固件数据——微代码和数据模块。固件区一般位于磁盘的外圈(OD),而正是在磁盘的外圈(OD),磁盘的振动幅度最大。如果此时磁头与磁盘发生碰撞,就会直接导致固件数据的损坏和丢失。我们观察到,无论是微代码模块还是数据模块,都有因为碰撞而损坏的现象——此种情况下,主机的BIOS不能检测到硬盘,有的甚至发出敲击声。

硬盘在完成初始化并报告准备就绪后,主机就会开始从硬盘上引导操作系统。我们发现在此阶段,硬盘会频繁的产生缺陷(如图八所示)。

图八:硬盘的起始LBA遭到了严重的损坏
图八:硬盘的起始LBA遭到了严重的损坏

图八为一个由于低温导致起始LBA区域遭到的损坏硬盘。,而这一区域通常是操作系统的引导区和系统文件夹所在的区域。这会造成操作系统引导失败,不过这并不是造成硬盘失败的直接原因。

实际上当硬盘在低温环境下启动,由于液态轴承中的酯油未达到工作所需的粘度,造成盘片微小的振动、磁头在进行读/写操作时出错并产生缺陷,硬盘的微代码(microcode)就会启动“缺陷调整”机制,将缺陷扇区写入到G-List中。但是此时硬盘仍然处于不稳定的工作状态,从而在执行写入G-表的操作过程中进一步导致G- 表损坏。我们发现无论是G-表的表头还是内容都会出现因此而损坏的情况。

图九:G-表的数据结构示意图
图九:G-表的数据结构示意图

如果G-表损坏,硬盘在重新初始化时,就会停止将其载入从而进入失败状态。此时只有微代码启动,在计算机的BIOS中会将硬盘识别为错误的标识。

上述两种故障机制发生的概率是不相等的。首先,固件区的数据密度(每磁道只有不到300个扇区)只有用户区数据密度(每磁道有500到600个扇区)的一半。(香农青岛数据恢复中心)其次,固件区通常只包含不到10M字节的数据,从硬盘加电到初始化完成所用时间不超过10秒;另外,磁头进行读操作时发生故障的概率也小于写操作发生故障的概率。因此实践中,低温环境下硬盘表面产生缺陷和由于缺陷调整导致发生故障的概率远远高于硬盘初始化阶段由于磁头读取固件数据而造成固件区损坏的概率。


温度梯度——温度变化速度过大也会造成硬盘发生相似的故障。硬盘运转时对温度梯度的要求一般不应大于20 °C/小时。如果在(香农青岛数据恢复中心)冬季你使用硬盘从朋友处或工作单位拷贝了一些数据,然后回到家接上硬盘并开始工作,那么硬盘就会发生故障了——这被称为热冲击。可以设想一下,冬季室外的温度一般在零度以下,而硬盘工作时温度会迅速上升到40 °C——60 °C(这还是在散热良好的条件之下),如此剧烈的温度变化就会导致硬盘的机械部分发生移位或碰撞,从而导致硬盘的损坏。

热冲击导致硬盘发生故障的机制与低温导致硬盘发生故障的机制稍有不同。在热冲击的作用下,硬盘各机械部件会由于受热不均匀而产生变形或移位,例如,磁头在寻址定位时就会产生位置误差(PES)或周期性的偏离(RRO)。硬盘运转时固有的位置误差(PES)或周期性偏离是通过使用校准参数进行补偿的,但是热冲击造成的机械移位使校准参数与实际不符,从而使硬盘无法进行正确的读写操作。热冲击对硬盘造成的损坏可以是暂时的,也可以是永久的。

图十:由于热冲击导致的周期性偏离(RRO)示意图
图十:由于热冲击导致的周期性偏离(RRO)示意图


结论

大多数用户都了解高温环境对于硬盘产生的损害,而忽视了低温环境对于硬盘产生的损害。无论是高温还是低温,都是通过影响硬盘的结构和工作过程而导致其发生故障并最终损坏的。对于环境温度过高的问题,我们可以通过改善散热来解决;而对于环境温度过低的情况,除了提高环境温度之外,可以使用一些小的技巧来充当临时的解决方案。

正如前面分析的,硬盘在引导系统时发生故障的概率要远远高于硬盘在初始化阶段发生故障的概率,因此我们可以通过等待硬盘上升到一定温度(香农青岛数据恢复中心)之后再开始引导系统或读取数据。例如,在PC的CMOS中设置开机密码,在PC开始引导系统之前等待几分钟的时间以使硬盘达到正常运转所需的温度。实践证明,这种方法可以大大降低硬盘发生故障的概率。

另外使用移动硬盘的用户要特别注意热冲击对硬盘造成的损坏。硬盘从低温环境下突然移动到高温环境下时,往往还会产生“结露”,不过由于盘体内部有专门的防潮装置,这种现象很少会发生。

当然,现在许多用户使用计算机已不仅仅是作为娱乐的工具或工作的工具,更重要的是作为数据存储的设备。我们需要了解任何一种设备必须工作于稳定的合适的环境之下。因此,也必须为计算机配备稳定的合适的工作环境,这是保证用户数据安全的根本条件。

参考资料

Vadim Morozov,Sergey Yatsenko(俄),Modern Hard disk drive
Hitachi,Fluid Dynamic Bearing Spindle Motors

相关文章 

随便看看 

  1. Samsung三星硬盘原厂诊断程序HUTIL手册
    1、序言Hutil (硬盘诊断程序) 是用于对Samsung硬盘进行测试的程序。实际上在返回到Samsung的硬盘中,经测...
    阅读全文
  2. 硬盘有坏扇区时的数据恢复
    坏扇区是硬盘上不可读的区域,可能是”逻辑“的,也可能是”物理“的,不过对于操作系统来说,两者没有什么不同——操作系统都不...
    阅读全文
  3. 硬盘驱动器“增长的缺陷表”--G表剖析
    版权所有 青岛香农计算机数据恢复中心,并保留一切权利硬盘驱动器中,使用G-list(Grown-list,增长的缺陷列表)...
    阅读全文