Аварийная перезагрузка контроллера Dell SC5020
Добрый день! Продолжаю с вами делиться опытом взаимодействия с системами хранения данных Dell. В сегодняшней публикации я разберу ситуацию, когда один из контроллеров у вас может нештатно уйти в перезагрузку минут на 5, после чего в логах вы можете обнаружить ошибку "An unrecoverable problem was found with caching hardware on controller 375388 during system startup". Давайте разбираться, что тут не так.
Каковы причины данной ошибки
После загрузки контроллера после сбоя вы будите лицезреть данное событие:
"An unrecoverable problem was found with caching hardware on controller 375388 during system startup"
естественно вам напомнят, что нужно сделать ребалансировку портов (Rebalance Ports). Это можно сделать в любое вечернее время на живую.
Обязательно изучите раздел "Alerts" в веб версии и в Dell Storage Manager Client, там может содержаться нужная нам информация. В первый раз когда была такая аварийная перезагрузка там было такое же событие, а вот во второй раз я уже увидел дополнительную ошибку, которая пролила свет на проблему. Тут красовалась запись, что есть проблемы на одном из модулей памяти:
7/16/25, 1:28:57 AM Unknown EVENT: 07/16/2025-00:11:00[GMT 07/15/2025-21:11:00] 1b MEMORY DIMM[B][0]TRANS TO CRIT FROM LESS SEVERE ASSERT Critical No MemoryAlert System
Как и говорит Google, проблема в кэш-памяти на контроллере, но остается выяснить на какой именно. После сбоя я сразу собрал логи и передал их подрядчику, который помогает поддерживать данное оборудование. Дополнительно подрядчик попросил выгрузить логи еще и с BMC модуля, сбойного контроллера (Это такой IDRAC для них).
Называется это сбор TSR. Найти его можно в разделе "Troubleshooting - Tech Support Report". Выставите там галку "I agree to allow Technical Support to use this data" и нажмите кнопку Export.
Через некоторое время коллеги подтвердили догадку, что контроллер Dell SC5020 аварийно перезагрузился из-за ошибок на планке памяти.
Cerrectable memory error rate exceeded for DIMM_A4
Если вам не лень, то эту информацию вы так же сами можете увидеть сами в журнале BMC модуля. Пройдите там в раздел "Logs", в качестве ключевого слова укажите DIMM и примените фильтр. У вас отобразятся события по типу:
Multi-bit memory error rate exceeded for DIM_A4
В результате мне требуется заменить модуль A4. В моем случае, контроллер будет одно процессорным, так что памяти там будет куда меньше. Вы это увидите на фото материнской платы.
Процедура замены памяти на контроллере Dell Sc5020
Данный процесс по извлечению и замене на первых шагах будет напоминать работы по замене BBU, но повторение мать учения. Сам модуль памяти выгляди и по сути является обычной планкой ОЗУ.
Выключаем контроллер с помощью "Dell Storage Manager Client". Переходим там в раздел "Hardware - Controller". Выбираем нужный и нажимаем кнопку "Shutdown/Restart Controller". Далее следуем шагам мастера.
Далее отключаем все провода от контроллера и нажимаем на оранжевую кнопку
В результате чего у вас появится возможность потянуть железный рычаг, для извлечения контроллера.
Вдвигаем с помощью голубой кнопки закрывающую крышку.
Далее вам необходим открутить два болта, чтобы снять пластиковый короб защищающий материнскую плату.
Как я и писал выше, у меня на контроллере 1 CPU и к нему относятся 4 модуля памяти. Меня интересует А4. Производим ее извлечение. с помощью белых крепежей.
Ну и остается вставить теперь новую планку памяти.
После этих действий собираем ваш контроллер и устанавливаем его. Первым делом я вам советую зайти в BMC и понаблюдать за логами. Если все сделано правильно и планка ОЗУ работоспособная, все становится хорошо. Теперь ваш контроллер не будет нештатно перезагружаться и вы будите спать спокойнее.
Почему еще может остаться ошибка "An unrecoverable problem was found with caching hardware on controller 375388 during system startup"
- Еще причиной данной ошибки кроме оперативной памяти на контроллере, может быть помирающая батарейка для защиты кэширования. В таких случаях, чтобы это проверить я вам советую почитать статью "Как производить диагностику BBU батарейки на Dell SC5020". Там будут команды и алгоритм к действию.
- Второй причиной может быть программные ошибки, которые чаще всего устраняются путем обновления СХД, об этом я так же писал в отдельной статье.