Аварийная перезагрузка контроллера Dell SC5020

Авария контроллера Dell

Добрый день! Продолжаю с вами делиться опытом взаимодействия с системами хранения данных Dell. В сегодняшней публикации я разберу ситуацию, когда один из контроллеров у вас может нештатно уйти в перезагрузку минут на 5, после чего в логах вы можете обнаружить ошибку "An unrecoverable problem was found with caching hardware on controller 375388 during system startup". Давайте разбираться, что тут не так.

Каковы причины данной ошибки

После загрузки контроллера после сбоя вы будите лицезреть данное событие:

"An unrecoverable problem was found with caching hardware on controller 375388 during system startup"

An unrecoverable problem was found with caching hardware on controller 375388 during system startup.

естественно вам напомнят, что нужно сделать ребалансировку портов (Rebalance Ports). Это можно сделать в любое вечернее время на живую.

Rebalance ports Dell Sc5020

Controller front end local ports are unbalanced

Обязательно изучите раздел "Alerts" в веб версии и в Dell Storage Manager Client, там может содержаться нужная нам информация. В первый раз когда была такая аварийная перезагрузка там было такое же событие, а вот во второй раз я уже увидел дополнительную ошибку, которая пролила свет на проблему. Тут красовалась запись, что есть проблемы на одном из модулей памяти:

7/16/25, 1:28:57 AM Unknown EVENT: 07/16/2025-00:11:00[GMT 07/15/2025-21:11:00] 1b MEMORY DIMM[B][0]TRANS TO CRIT FROM LESS SEVERE ASSERT Critical No MemoryAlert System

Ошибка в веб интерфейсе Dell SC5020: 1b MEMORY DIMM[B][0]TRANS TO CRIT FROM LESS SEVERE ASSERT Critical No MemoryAlert System

1b MEMORY DIMM[B][0]TRANS TO CRIT FROM LESS SEVERE ASSERT Critical No MemoryAlert System

Как и говорит Google, проблема в кэш-памяти на контроллере, но остается выяснить на какой именно. После сбоя я сразу собрал логи и передал их подрядчику, который помогает поддерживать данное оборудование. Дополнительно подрядчик попросил выгрузить логи еще и с BMC модуля, сбойного контроллера (Это такой IDRAC для них).

Называется это сбор TSR. Найти его можно в разделе "Troubleshooting - Tech Support Report". Выставите там галку "I agree to allow Technical Support to use this data" и нажмите кнопку Export.

Tech Support Report

Через некоторое время коллеги подтвердили догадку, что контроллер Dell SC5020 аварийно перезагрузился из-за ошибок на планке памяти.

Cerrectable memory error rate exceeded for DIMM_A4

Cerrectable memory error rate exceeded for DIMM_A4

Если вам не лень, то эту информацию вы так же сами можете увидеть сами в журнале BMC модуля. Пройдите там в раздел "Logs", в качестве ключевого слова укажите DIMM и примените фильтр. У вас отобразятся события по типу:

Multi-bit memory error rate exceeded for DIM_A4

Multi-bit memory error rate exceeded for DIM_A4

В результате мне требуется заменить модуль A4. В моем случае, контроллер будет одно процессорным, так что памяти там будет куда меньше. Вы это увидите на фото материнской платы.

Схема DIMM на материнской плате Dell SC5020

Процедура замены памяти на контроллере Dell Sc5020

Данный процесс по извлечению и замене на первых шагах будет напоминать работы по замене BBU, но повторение мать учения. Сам модуль памяти выгляди и по сути является обычной планкой ОЗУ.

ОЗУ для Dell SC5020

Выключаем контроллер с помощью "Dell Storage Manager Client". Переходим там в раздел "Hardware - Controller". Выбираем нужный и нажимаем кнопку "Shutdown/Restart Controller". Далее следуем шагам мастера.

Выключение контроллера Dell SC5020

Далее отключаем все провода от контроллера и нажимаем на оранжевую кнопку

Кнопка извлечения контроллера Dell SC5020

В результате чего у вас появится возможность потянуть железный рычаг, для извлечения контроллера.

Схема извлечения контроллера Sc5020

Вдвигаем с помощью голубой кнопки закрывающую крышку.

Открытие крышки Dell SC5020-01

Далее вам необходим открутить два болта, чтобы снять пластиковый короб защищающий материнскую плату.

Откручивание болтов на Контроллере Dell SC5020

Откручивание второго болта Контроллера Dell SC5020

Как я и писал выше, у меня на контроллере 1 CPU и к нему относятся 4 модуля памяти. Меня интересует А4. Производим ее извлечение. с помощью белых крепежей.

Материнская плата Контроллера Dell SC5020

Ну и остается вставить теперь новую планку памяти.

извлечение планки ОЗУ на Dell SC5020

После этих действий собираем ваш контроллер и устанавливаем его. Первым делом я вам советую зайти в BMC и понаблюдать за логами. Если все сделано правильно и планка ОЗУ работоспособная, все становится хорошо. Теперь ваш контроллер не будет нештатно перезагружаться и вы будите спать спокойнее.

A replacement part was detected for device

Почему еще может остаться ошибка "An unrecoverable problem was found with caching hardware on controller 375388 during system startup"

  • Еще причиной данной ошибки кроме оперативной памяти на контроллере, может быть помирающая батарейка для защиты кэширования. В таких случаях, чтобы это проверить я вам советую почитать статью "Как производить диагностику BBU батарейки на Dell SC5020". Там будут команды и алгоритм к действию.
  • Второй причиной может быть программные ошибки, которые чаще всего устраняются путем обновления СХД, об этом я так же писал в отдельной статье.
Оцените статью
Настройка серверов windows и linux
Добавить комментарий