• mile米乐M6

    服务器 2024-06-19

    KunTai R522服务器异常重启问题分析

    一、现网描述

    1.1 环境描述

    设备型号:KunTai R522

    主板型号:S920X00

    BMC芯片:1711版

    BMC版本:(U82)3.03.00.35

    BIOS 版本: (U75)1.91

    CPLD版本:(U6076)6.08


    二、故障描述

    2.1故障现象

    客户报障现场1台服务器异常重启,需查明原因并解决


    三、问题分析

    3.1排查思路

    1. 查看日志中当前告警记录,服务器健康状态良好,无告警。

    image.png

    2. 查看sel事件日志记录,发现日志打印2024/3/6 02:10:19存在系统未知原因异常重启记录,同时重启前后伴随有内存CE报错。

    image.png

    3. 进一步分析fdm_output诊断日志,发现大量内存 CE纠错率超阈值打印,且均指向DIMM011。

    image.png

    4. 分析fdm_log日志,发现内存大量CE打印。

    image.png

    5. 查看当前服务器Bios配置,CorrectErrorThreshold值为6000,查看当前Bios版本为1.93,排除版本与设置问题。

    image.png

    image.png

    6. 分析systemcom 系统日志,发现系统异常重启前触发call trace,内存访问异常

    image.png

    3.2原因分析

    综上所述,初步判断该设备异常重启原因为DIMM011内存故障引起。


    四、问题解决

    4.1解决办法

    更换故障内存条