Не грузится сервер Dell PowerEdge R740
Добрый день! Уважаемые читатели и гости IT блога Pyatilistnik.org. В прошлый раз я вам показал, что у утилиты Winget есть возможность использовать GUI интерфейс, что позволяет его сделать более дружелюбным по отношению к пользователю. В сегодняшней статье я покажу свой опыт по решению ситуации, когда у меня в новогодние праздники вышел из строя сервер Dell PowerEdge R740 и просто перестал загружаться. Я опишу алгоритм как я пытался его оживить и что из этого у меня получилось. Опыт больше записываю для себя и надеюсь, что больше к нему не прибегну😀.
Ошибка CPU 2 machine check error detected
Третьего января, пока вся страна отдыхала на праздничной неделе, я работал. Так как это идеальное время выполнить те работы, которые бы затронули большое количество людей, то нужно делать. В какой-то момент прилетело уведомление от Zabbix, что один из серверов ESXI стал недоступен по сети.
Этим сервером оказался Dell PowerEdge R740, из которых состоит мой серверный парк. Первым делом я полез в веб-интерфейс управления IDRAC, как его настраивать читайте по ссылке слева. Там меня встретила вот такая картина:
Далее если вчитываться в логи сервера, то было ряд предупреждений:
Когда мне удалось зайти в виртуальную консоль в IDRAC, то там я увидел вот такое предупреждение:
Я увидев это попробовал нажать F1. В результате операционная система загрузилась, но через какое-то время сервер вновь показал ошибку "CPU 2 machine check error detected". Еще через день он просто перестал даже грузиться до полной инициализации BIOS, на моменте "Loading BIOS Drivers" происходила перезагрузка сервера и далее по бесконечному циклу.
Что делать в подобной ситуации?
1️⃣Если у вас есть техническая поддержка после 24 февраля 2022, то вам в этом повезло😀, мне от части тоже некоторые партнеры попробовали помочь, но для этого нужно предоставить логи от сервера, давайте и вы соберите так как это упростит вам дальнейшую диагностику. Вы будите видеть все в едином отчете локально.
Переходим в раздел "Maintenance - SupportAssist". Откажитесь от регистрации.
Нажимаем кнопку "Start a Collection".
Обязательно выберите:
- Storage logs
- Debug Logs
- Filter Data
и сохраняем журнал отчета локально "Save Locally". Нажмите "Collect".
Начнется процесс сбора логов. Он занимает около 5 минут.
Если хотите сохранить локальный архив, в имени которого будет указан Service Tag сервера, то нажмите кнопку "Save and View".
Чтобы открыть последний отчет нажмите "View Last Collection".
2️⃣Я эти логи отправил коллегам. Пока они их изучали, я начал их так же изучать и просматривать информацию в IDRAC. В разделе "Хранилищ (Storage)" я обнаружил, что моих диско сервер Power Edge R740 не видит, и есть уведомление:
1. Make sure that the supported physical drives are inserted into the enclosure or attached to the backplane.
2. Make sure that the latest iDRAC firmware is installed.
3. Reset iDRAC to its initial state. To reset, click Maintenance > Diagnostics > Reset iDRAC to Factory Defaults. Else, run the RACADM command at the Command Line Interface (CLI): racadm racresetcfg.
4. Restart the server. To restart, click Configuration > Power Management > Power Control > Power Cycle System (cold boot). Else, run the RACADM command at the Command Line Interface (CLI): racadm serveraction powercycle.
5. Make sure that the host server is powered on.
Нам тут тонко намекают, что нужно сбросить IDRAC на начальные настройки.
3️⃣После сбора логов и передачи их для изучения. Я первым делом попытался обновить IDRAC. Наверху у меня скриншот с уже обновленной версией, но она была на год младше. Сам процесс обновления IDRAC я описывал. Тут я выбрал локальный метод, где скачал версию прошивки для Windows и загрузил ее через веб-интерфейс.
Но мое задание до бесконечности висело со статусом "Not Applicable"
Все дело в том, что компонент Lifecycle Controller который является частью IDRAC занят, хоть ваш сервер и не загружается. Чтобы это поправить вам нужно выключить Lifecycle Controller и заново включить. Как это делать я уже описывал. После этих манипуляций задание пошло
4️⃣Обновление IDRAC мне не подошло. Далее в интернете люди советовали полностью обновить BIOS и вообще все прошивки. ISO образ SUU я создал, но так как мой сервер Dell не мог загрузиться то, и диском воспользоваться я не мог.
Я все же попытался произвести полный сброс IDRAC, тут есть несколько нюансов, вы должны иметь возможность в случае чего найти новый IP-адрес интерфейса и логин с паролем. По-хорошему вы должны произвести сброс с сохранением сетевых настроек и текущих пользователей. Для этого есть определенные ключи. Сам процесс сброса IDRAC на начальные настройки с сохранение сетевых параметров и пользовательских я описывал, посмотрите. Напомню тут команду:
После перезагрузки IDRAC, сервер так и продолжает не грузиться. Взял паузу думаю, что делать. По планам повытаскивать память, не хотелось бы, но возможно проц.
5️⃣Еще советуют для профиля питания выставить нужный режим. Для этого пройдите в "Configuration - BIOS settings - System Profile Settings" и выставите у "System Profile" значение "Performance". Не забудьте применить настройки.
Данный режим выключает:
- ✅C1E - Disabled
- ✅C States - Disabled
К сожалению, это пока не решило проблему. Жду поездки в ЦОД. Скатавшись в ЦОД, я извлек 2-й CPU, это позволило серверу нормально загрузиться, после чего я смог применить к нему ISO образ SUU с обновлениями. После чего нашлось удачное прошивание сервера. В результате я получил версию BIOS 2.16.1.
После включения сервера картина не изменилась, шла циклическая загрузка до момента "Loading BIOS Drivers", а затем перезагрузка.
Если посмотреть в IDRAC логи, то там можно заметить события.
После некоторого времени появилось критическое уведомление:
С высокой долей вероятности придется менять процессор. Но мы провели еще одно тестирование, попросили техподдержку ЦОДА, произвести такие действия:
- Отключить сервер от питания
- Полностью раскоммутировать сервер
- Выдвинуть сервер на салазках из стойки
- Снять органайзер воздушных потоков
- Отсоединить радиатор процессора №2
- Вынуть процессор №2
- Отсоединить радиатор процессора №1
- Вынуть процессор №1
- В сокет процессора №1 вставить процессор№2
- Установить радиатор №1
- Установить процессор №1 В сокет №2
- Установить Радиатор №2
- Установить органайзер воздушных потоков
- Закрыть крышку
- Задвинуть сервер на салазках в стойку
- Скоммутировать сервер
- Подключить питание
В результате такой рокировки. Сервер не загрузился, и все также ругался на неисправность второго сокета в котором был CPU1, и я точно знал, что он рабочий. Получается, что проблема в сокете или материнской плате.
Тут вариантов два:
- Вытащить данные процессоры и вставить в другой такой же сервер, чтобы точно удостовериться, что с ними все ок
- Второй вариант это если у вас есть подрядчики и поставщики у кого вы покупали оборудование, то попытаться нанять их чтобы они проверили все и сказали, что сломалось.
- Третий, но сейчас невозможный это пойти в Dell и запросить у них поддержку.
один в один. началось вчера 23.01.23
Удалось найти решение?
Да отдали в ремонт в итоге, подозрение на материнскую плату.
Как завершился ремонт? Успех или не успех? Где ремонтировали? Какие впечатления? Интересно в текущих обстоятельствах.
Ремонт завершился хорошо, успешно. Ремонтировали у поставщиков lwcom.