mile米乐M6

    服务器 2024-06-19

    KunTai R522服务器异常重启

    一、现网描述

    1.1 环境描述

    设备型号:KunTai R522

    主板型号:S920S00

    网卡型号:MCX512A-ACUT

    网卡固件版本:16.32.1010

    BMC芯片:1711版

    BMC版本:(U82)3.10.00.05

    BIOS 版本: (U75)KL4.009.KT.230803.R

    CPLD版本:(U6076)1.12


    二、故障描述

    2.1故障现象

    客户报障现场多台服务器异常重启,且该局点前期已发现多次类似问题,需查明根因并解决。

     

    三、问题分析

    3.1排查思路

    1. 分析sel事件日志记录,发现日志打印设备存在因未知原因异常重启的记录,同时伴随有PCIE Card3/6 UCE报错告警。

    image.png

    2. 分析fdm_output诊断日志,发现日志记录网卡存在的报错为fatal AER,Error Code:Malformed TLP。

    image.png

    3. 查看card_info日志,发现涉及的PCIE Card 3/6网卡,槽位信息与设备信息识别正常。

    image.png

    4. 查看netcard_info对应故障时间日志打印,网卡可以正常识别固件信息、所在槽位与mac地址等基本参数

    image.png

    5. 分析systemcom 系统串口日志,发现系统异常重启前伴随有系统call trace触发,且存在Hardware error报错,错误类型fatal error、Malformed TLP AER。

    image.png

    6.  查看Bios设置参数,“PCIEMaxPayloadSize”参数值均为256B,OS 下该参数值与Bios一致,排除该参数不一致导致出现问题可能性。

    image.png

    7. 进一步分析现场情况,对比发现仅配置了VF环境偶发此类问题,现场系统配置64个VF,VF(Virtual Function)是建立在PCIe PF(Physical Function)设备上的PCIe设备,相当于在一个PCIe接口上分裂出多个PCIe接口,64个VF对PCIe总线负载增加64倍,消息传输量增加,超出CPU Root Complex能力,会增加发生AER报错的几率和CTO的发生(CTO的发生在现有固件版本上会被误报为Malformed TLP AER,详情请见附录5.3

    image.png

    8. 现场使用的固件版本16.32.1010对AER错误类型处置缺乏清晰的处置规则,未屏蔽不该屏蔽的AER错误,导致在消息传输量增加情况下触发误报,错误上报了malformed TLP 类型的AER错误,导致系统出现异常,详情请见附录5.2。

    image.png

    9. 新固件版本对该问题进行了处理,处理方式是按照AER规则将上报的AER错误在网卡固件侧处置,避免系统由于此类误报导致系统异常。

    Mellanox 固件历史修复问题:

    image.png

    固件修复详情:

    image.png

    上图内容概要:CX-5 硬件参数设置不当,未屏蔽AER必要信息,导致网卡固件在PCIe负载较大或者发生超时时发生误报,正确行为应为固件侧根据AER规则进行处理。

    修复流程示意图: 

    image.png

    3.2原因分析总结

    综上,当前问题根因为设备配置网卡MCX512A-ACUT固件版本16.32.1010存在Malformed TLP AER误报BUG,且结合现场情况分析和历史案例情况,VF数量增加会导致PCIe总线负载增加,加大触发误报的概率,进而导致系统出现异常重启问题。


    四、解决方案

    建议升级网卡MCX512A-ACUT固件至16.35.3006,解决误报问题,从而解决服务器异常重启问题。