Пропали SSD диски на сервере Dell PowerEdge R750

В один из осенних вечеров, пришли коллеги базисты с таким интересным инцидентом. Есть два сервера Dell PowerEdge R750 в кластере Always On. Было вечернее сервисное обслуживание, где предполагалась перезагрузка серверов. После перезагрузки у одного сервера все было хорошо, а вот у второго потерялся один локальный том созданный из двух физических SSD подключенных к RAID контроллеру. Алертов в систему мониторинга по физическому состоянию данного сервера не прилетало, так что с моим коллегой мы стали разбираться и вот, что из этого получилось.
🚫Пропал один Enclosures
Любые физические проблемы на серверах Dell всегда правильно смотреть через интерфейс управления IDRAC. Когда я туда попал, то все было зеленым.
- Раз так, думаю всегда в большинстве случаев помогает перезагрузка сервера. Сказано, сделано. Ничего не поменялось.
- Следующим шагом всегда пробую выключить сервера минуты на 2 и заново его включить. Провожу процедуру, в IDRAC пропадает один из Enclosures.
Enclosures - отсеки для установки накопителей. Они позволяют гибко конфигурировать систему хранения данных, размещая жесткие диски (HDD) или твердотельные накопители (SSD) на передней и задней панели сервера
Должно быть вот так. Получается, что сервер не видит один PERC H755N с 4 SSD дисками.
- У серверов Dell PowerEdge R750 бывает такое, вендор всегда рекомендует попробовать полностью обесточить сервер. Написали заявку в ЦОД, и у сервера на 5 минут вытащили провода питания. Затем повторно включили. Зайдя в IDRAC я уже по-честному видел красноту
The System Configuration Check operation resulted in the following issue: Comm Error Backplane 2
Пропали все физические диски и виртуальные на сервере.
RAC0601: There are no physical disks to be displayed
Читайте так же - Не загружается сервер Dell PowerEdge R740
При загрузке сервера он так же сообщал, что не нашел ни одного Virtual Drive и Non-RAID Disks.
⚙️Варианты починки
- Первым делом я вам рекомендую произвести перезагрузку IDRAC, сделать это можно в меню:
Maintenance - Diagnostics- Reboot IDRAC
- Далее отправить сервер в перезагрузку и войти в lifeCycle Controller. Для этого нажмите
F10в меню при включении сервера
- В Lifecycle Controller запустите диагностирование сервера, для этого найдите меню "Hardware Diagnostics - Run Hardware Diagnostics".
Дождитесь когда мастер проведет все тесты. В моем случае это помогло и после завершения я вновь увидел оба Enclosures и все физические диски. Выглядело в IDRAC это так. Все статусы стали зелеными.
Enclosures появились, но в статусе был вопросительный знак.
Такой же статус был у физических дисков, который постепенно менялся на зеленый.
с виртуальными дисками была зеркальная ситуация.
Подождав минуту все в итоге позеленело.
💡Дополнительные методы
Если данный алгоритм описанный выше вам не помог, то следующими шагами я бы предложил:
- Произвести обновление прошивок на сервере
- Или наоборот откатить драйвера, если вы заметили, что данная ситуация была после недавнего обновления
- Обесточить сервер, потыкать диски, проверить, что все корректно подключено и не болтается.
- Обратиться к вендору или подрядчику, если есть поддержка
Надеюсь, что у вас данная ситуация никогда не случится и все ваши серверы будут работать без сбоев. С вами был Иван Сёмин, автор и создатель данного портала.



















