mile米乐M6

    服务器 2024-06-25

    服务器raid蜂鸣器异响

    一、现网描述

    1.1 环境描述

    设备型号:KunTai R524

    RAID卡:9460-8i


    二、故障描述

    2.1故障现象

    现场1台服务器蜂鸣器异响,查看current_event.txt中记录的当前事件,设备当前运行状态正常,无告警

    阵列信息:

    Logcial Drive(s) ID                      : 0

    Physical Drive(s) ID                     : 40,41(raid1)

    ----------------------------------------------------------------------

    Logcial Drive(s) ID                      : 1

    Physical Drive(s) ID                     : 0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21(raid6)

    Dedicated Hot Spare PD (ID#)             : 22,23

    ----------------------------------------------------------------------

    Logcial Drive(s) ID                      : 2

    Physical Drive(s) ID                     : 24,25,26,27,28,29,30,31,32,33,34(raid6)

    Dedicated Hot Spare PD (ID#)             : 35


    三、问题分析

    3.1排查思路

    1.  查看sel日志中记录的历史事件,disk2有故障异常状态告警信息,将disk2从槽位拔掉后disk2所在的raid组由热备盘disk22顶替开始重构,后续disk2已更换新硬盘状态正常。

      image.png

    2. 顺利获得日志server_config文件确认服务器配置raid6是由disk0到disk21组成,并且配置了disk22、disk23为其局部热备盘,重构完成后raid状态正常,但disk2显示局部热备盘,disk22已加入到raid6组中。

      image.png

      image.png

    3. 继续分析,RAID卡日志记录到2024-01-10 07:30:12 disk22开始重构,2024-01-10 07:36:28插入新盘disk2,2024-01-10 08:39:31 disk2被创建为热备盘,Disk22重构完成后未从RAID组释放对disk2做回拷操作,导致蜂鸣器持续鸣响。

    image.png

    image.png

    image.png

    3.2 分析总结

    1、蜂鸣器持续鸣响原因:热备盘Disk22在其他硬盘(Disk2)故障后加入RAID组,更换故障盘后,故障盘未自动触发回拷,导致热备盘未从RAID组释放,进而导致蜂鸣器持续鸣响提示用户。

    2、更换故障盘后未自动触发回拷原因:和该槽位上一块硬盘被设置为热备盘的操作有关,建议后续不要随意设置RAID组其他成员盘为热备盘。


    四、问题解决

    4.1解决办法

    顺利获得手动触发回拷恢复,参考以下命令格式和实例:

    image.png

    image.png