一、故障背景
一台HP DL380p G8服务器,在更换slot2故障阵列卡后,主机时间发生了偏移问题。对此故障进行深入分析,并迅速制定处理方案,同时总结此次事件的经验教训,以提升后续的运维工作质量和效率。
二、故障描述
设备型号:HP DL380p G8
固件版本:系统 02/10/2014;ILO 2.00
故障现象:slot2 阵列卡故障
Drive Array Controller Failure(slot2)
完成阵列卡更换,系统管理员验证发现系统时间改变,导致系统需要再次停机维修,影响业务恢复。
三、故障分析
1. 检查硬件状态,分析硬件日志,未发现硬件问题。
2. 检查“ILO event log”,发现主机掉电,重新加电后,板载时间设置时就出现了偏移。
日志说明:
故障分析:
在掉电情况下,主机硬件和操作系统上是不保留具体时间的,由主板电池给板载时钟芯片供电,作为计时器保留时间信息。在主机加电时,主机固件从时钟芯片上读取时间信息,来配置主板时间。当主板电池失效或时钟芯片故障时,会导致读取的时间异常,以致主板时间设置偏移,主机BIOS、ILO、操作系统在启动过程中,都会通过主板时间来设置其相应的时间。
四、经验总结
总结:
主机更换阵列卡后发现时间偏移,是由于在更换过程中,需要给主机掉电,而该主机的主板电池或时钟芯片是有故障的,所以在主机重新加电时,系统固件读取时间不正确,最终导致主机上相关时间都发生偏移。从ILO的IML日志中,我们没有发现硬件上的报错,那么可以排除是主板电池故障这一因素,而主板时钟芯片在发生计时偏移的情况下,可能也不会产生硬件上的错误告警。
通过以上分析,该故障建议更换主板处理。
改进:
本次事件产生的关键在于考虑问题的不严谨,单方面考虑阵列卡的更换是不影响系统其他设置,但是忽视了可能存在的异常情况。为防止类似事件,我们需要加强设备修复后的验证,对于所有停机维修的操作,在验证时必须登录ILO中检查ILO时间、各组件状态、系统事件日志,确保设备的健康状态。