Не видятся диски на сервере Dell PowerEdge M630

Добрый день! Уважаемые читатели и гости одного из крупнейших IT блогов России. В прошлый раз мы с вами научились выходить из ситуации, когда ваш USB диск защищен от записи, поняли как этого избежать. Сегодня я хочу поговорить на тему серверного оборудования, а именно разберем ситуацию, когда у меня перестал работать сервер PowerEdge M630, определяя загрузочные диски в статусе "Fault detected on drive 1 in disk drive bay 1".
Описание проблемы
В один прекрасный рабочий день система мониторинга прислала оповещение, что перестал отвечать по сети (через команду PING) один из серверов. В результате разбора полетов это оказалось лезвие PowerEdge M630. Сервер по RDP не отвечал, поэтому пришлось воспользоваться интерфейсом порта управления IDRAC. Когда я попал в форму веб управления корзиной PowerEdge M1000e, то напротив нужного мне лезвия, стоял статус с ошибкой, где напротив пункта "Health" красовался красный круг с крестом.
Перейдя в интерфейс с управлением самого лезвия уже было более понятно в чем дело. IDRAC System Event Log сообщал, что оба диска на которых была установлена система были недоступны и имели статус "Fault detected on drive 1 in disk drive bay 1".
Открыв консольное подключение к серверу я увидел вот такую прекрасную надпись:
There are offline or missing virtual drives with preserved cache. Please check the cables and ensure that all drives are present. Press any key to enter the configuration utility
Далее я попытался войти в PowerEdge Expandable RAID Controller BIOS, через сочетание клавиш CTRL+R. Конфигурация пропала, был статус "No Configuration Present"
Если посмотреть информацию, о самих дисках, то каждый из них имел статус "Failed". Обратите внимание, что показатели S.M.A.R.T в норме.
На всякий случай я подсветил оба диска и включил на них LED подсветку.
Статус на RAID контроллере PERC H730P Mini был "Need Attention".
Устранение проблем с отсутствующими дисками
Я понимаю, что если бы вышел из строя один диск, то это возможно, но вот оба одновременно, это мало вероятно. Первое, что советует сделать Dell, это полностью выключить лезвие и желательно его вытащить на часик и более, я видел случаи, что люди оставляли его вытащенным на сутки и потом все заводилось. Для начала я вытащил диски и заново воткнул. Видно, что диски получали статус "Remove", сервер видит два диска и один виртуальный массив.
Диски получили статус Online на какое-то время.
Но virtual drive все еще имел статус ""Degraded
Раз просто переподключить диски не помогло, то я обесточил лезвие, вытащил на 30 минут его, в IDRAC на корзине вы сразу увидите статус "Reconnecting" после его подключения.
После восстановления связи с лезвием я получил новую ошибку на дисках:
RAC0501: There are no physical disks to be displayed. 1. Check if the host system is powered off or shutdown. 2. Check if the physical disks are inserted into the enclosure or attached to the backplane. 3. There are no out-of-band capable controllers detected
Теперь они вообще не определялись.
Физические диски отсутствовали и была надпись
RAC0503: There are no out-of-band capable controllers to be displayed. Check if the host system is powered off or shutdown.
Чтобы устранить данную ошибку, вам нужно произвести Power Off вашему лезвию, далее в интерфейсе IDRAC выбрать пункт "Server - Properties" В разделе "Quick Launch Tasks" необходимо произвести перезагрузку IDRAC, выбираем пункт "Reset IDRAC".
Соглашаемся с перезагрузкой IDRAC.
Вы получите сообщение, что
iDRAC is resetting, it may take several minutes for iDRAC to reset. You will not be able to access the iDRAC with this browser session. Please close and reconnect to the iDRAC using new browser session.
Волноваться не нужно настройки IP-адреса у IDRAC не слетят.
Проверяем статусы ваших дисков и загрузку сервера, иногда приходится после этого сделать еще один раз "Reset IDRAC", но уже на включенном сервере. На этом у меня все, мы рассмотрели интересную ситуацию, когда блейд PowerEdge M630 перестает видеть свои диски. С вами был Иван Семин, автор и создатель IT портала Pyatilistnik.org.























Отлично! Благодарю за наводку, в мануале не было информации, что нужно сбросить idrac, якобы только питание отключить.
Спасибо за подсказку! Dell t420 все починилось
Благодарю за информацию. Возникла такая же ошибка, но слегка в другом сценарии. В итоге решение, описанное в заметке — очень помогло.
спасибо, затестил на dell r720xd
не помогло 🙁
Ошибка RAC0503, решение описанное в статье помогло.