Не грузится сервер Dell PowerEdge R740

Dell логотип

Добрый день! Уважаемые читатели и гости IT блога Pyatilistnik.org. В прошлый раз я вам показал, что у утилиты Winget есть возможность использовать GUI интерфейс, что позволяет его сделать более дружелюбным по отношению к пользователю. В сегодняшней статье я покажу свой опыт по решению ситуации, когда у меня в новогодние праздники вышел из строя сервер Dell PowerEdge R740 и просто перестал загружаться. Я опишу алгоритм как я пытался его оживить и что из этого у меня получилось. Опыт больше записываю для себя и надеюсь, что больше к нему не прибегну😀.

Ошибка CPU 2 machine check error detected

Третьего января, пока вся страна отдыхала на праздничной неделе, я работал. Так как это идеальное время выполнить те работы, которые бы затронули большое количество людей, то нужно делать. В какой-то момент прилетело уведомление от Zabbix, что один из серверов ESXI стал недоступен по сети.

Недоступность хоста ESXI

Этим сервером оказался Dell PowerEdge R740, из которых состоит мой серверный парк. Первым делом я полез в веб-интерфейс управления IDRAC, как его настраивать читайте по ссылке слева. Там меня встретила вот такая картина:

SYSTEM HAS CRITICAL ISSUES

SYSTEM HAS CRITICAL ISSUES

Далее если вчитываться в логи сервера, то было ряд предупреждений:

CPU 2 machine check error detected

CPU 2 machine check error detected

Когда мне удалось зайти в виртуальную консоль в IDRAC, то там я увидел вот такое предупреждение:

UEFI0078: One or more Machine Check errors occurred in the previous boot. Check the System Event Log (SEL) to identify the source of the Machine Check error and resolve the issues.

One or more Machine Check errors occurred in the previous boot

Я увидев это попробовал нажать F1. В результате операционная система загрузилась, но через какое-то время сервер вновь показал ошибку "CPU 2 machine check error detected".  Еще через день он просто перестал даже грузиться до полной инициализации BIOS, на моменте "Loading BIOS Drivers" происходила перезагрузка сервера и далее по бесконечному циклу.

Loading BIOS Drivers

Что делать в подобной ситуации?

1️⃣Если у вас есть техническая поддержка после 24 февраля 2022, то вам в этом повезло😀, мне от части тоже некоторые партнеры попробовали помочь, но для этого нужно предоставить логи от сервера, давайте и вы соберите так как это упростит вам дальнейшую диагностику. Вы будите видеть все в едином отчете локально.

Переходим в раздел "Maintenance - SupportAssist". Откажитесь от регистрации.

Локальный сбор логов на Dell R740

Нажимаем кнопку "Start a Collection".

SupportAssist Collection

Обязательно выберите:

  • Storage logs
  • Debug Logs
  • Filter Data

и сохраняем журнал отчета локально "Save Locally". Нажмите "Collect".

Сбор логов с сервера Dell

Начнется процесс сбора логов. Он занимает около 5 минут.

Задание по сбору логов на сервере Dell.jpg

Если хотите сохранить локальный архив, в имени которого будет указан Service Tag сервера, то нажмите кнопку "Save and View".

Сохранение логов с сервера Dell

Чтобы открыть последний отчет нажмите "View Last Collection".

Открытие отчета с логами на сервере Dell

2️⃣Я эти логи отправил коллегам. Пока они их изучали, я начал их так же изучать и просматривать информацию в IDRAC. В разделе "Хранилищ (Storage)" я обнаружил, что моих диско сервер Power Edge R740 не видит, и есть уведомление:

RAC0501: There are no physical disks to be displayed.
1. Make sure that the supported physical drives are inserted into the enclosure or attached to the backplane.
2. Make sure that the latest iDRAC firmware is installed.
3. Reset iDRAC to its initial state. To reset, click Maintenance > Diagnostics > Reset iDRAC to Factory Defaults. Else, run the RACADM command at the Command Line Interface (CLI): racadm racresetcfg.
4. Restart the server. To restart, click Configuration > Power Management > Power Control > Power Cycle System (cold boot). Else, run the RACADM command at the Command Line Interface (CLI): racadm serveraction powercycle.
5. Make sure that the host server is powered on.

Нам тут тонко намекают, что нужно сбросить IDRAC на начальные настройки.

RAC0501 There are no physical disks to be displayed.

3️⃣После сбора логов и передачи их для изучения. Я первым делом попытался обновить IDRAC. Наверху у меня скриншот с уже обновленной версией, но она была на год младше. Сам процесс обновления IDRAC я описывал. Тут я выбрал локальный метод, где скачал версию прошивки для Windows и загрузил ее через веб-интерфейс.

RED023: Lifecycle Controller in use. This job will start when Lifecycle Controller is available.

Загрузка прошивки IDRAC на сервер

Но мое задание до бесконечности висело со статусом "Not Applicable"

Not Applicable

Все дело в том, что компонент Lifecycle Controller который является частью IDRAC занят, хоть ваш сервер и не загружается. Чтобы это поправить вам нужно выключить Lifecycle Controller и заново включить. Как это делать я уже описывал. После этих манипуляций задание пошло

Загрузка прошивки IDRAC

Успешное обновление IDRAC

4️⃣Обновление IDRAC мне не подошло. Далее в интернете люди советовали полностью обновить BIOS и вообще все прошивки. ISO образ SUU я создал, но так как мой сервер Dell не мог загрузиться то, и диском воспользоваться я не мог.

Я все же попытался произвести полный сброс IDRAC, тут есть несколько нюансов, вы должны иметь возможность в случае чего найти новый IP-адрес интерфейса и логин с паролем. По-хорошему вы должны произвести сброс с сохранением сетевых настроек и текущих пользователей. Для этого есть определенные ключи. Сам процесс сброса IDRAC на начальные настройки с сохранение сетевых параметров и пользовательских я описывал, посмотрите. Напомню тут команду:

racadm racresetcfg -f

После перезагрузки IDRAC, сервер так и продолжает не грузиться. Взял паузу думаю, что делать. По планам повытаскивать память, не хотелось бы, но возможно проц.

5️⃣Еще советуют для профиля питания выставить нужный режим. Для этого пройдите в "Configuration - BIOS settings - System Profile Settings" и выставите  у "System Profile" значение "Performance". Не забудьте применить настройки.

Для серверов рекомендуется оставить настройки без энергосбережения. Изменение состояния C в настройках BIOS не влияет на производительность устройства, однако для полного выхода процессора из спящего режима потребуется больше времени.

Dell System Profile

Данный режим выключает:

  •  ✅C1E - Disabled
  •  ✅C States - Disabled

C States - Disabled

К сожалению, это пока не решило проблему. Жду поездки в ЦОД. Скатавшись в ЦОД, я извлек 2-й CPU, это позволило серверу нормально загрузиться, после чего я смог применить к нему ISO образ SUU с обновлениями. После чего нашлось удачное прошивание сервера. В результате я получил версию BIOS 2.16.1.

Обновление BIOS Dell Power Edge

После включения сервера картина не изменилась, шла циклическая загрузка до момента "Loading BIOS Drivers", а затем перезагрузка.

Loading BIOS Drivers

Если посмотреть в IDRAC логи, то там можно заметить события.

Device not detected: Intel(R) Xeon(R) Gold 6244 CPU @ 3.60GHz(CPU 2)

Device not detected Intel(R) Xeon(R) Gold 6244 CPU @ 3.60GHz(CPU 2)

После некоторого времени появилось критическое уведомление:

System BIOS has halted: Do one of the following: 1) If new hardware has been added, remove the new hardware and restart the server, 2) Turn server off and back on using the power button, or 3) Remove and reapply server input power. If the problem persists, contact your service provider. Refer to the product documentation to choose a convenient contact method.

System BIOS has halted

System BIOS has halted

С высокой долей вероятности придется менять процессор. Но мы провели еще одно тестирование, попросили техподдержку ЦОДА, произвести такие действия:

    1. Отключить сервер от питания
    2. Полностью раскоммутировать сервер
    3. Выдвинуть сервер на салазках из стойки
    4. Снять органайзер воздушных потоков
    5. Отсоединить радиатор процессора №2
    6. Вынуть процессор №2
    7. Отсоединить радиатор процессора №1
    8. Вынуть процессор №1
    9. В сокет процессора №1 вставить процессор№2
    10. Установить радиатор №1
    11. Установить процессор №1 В сокет №2
    12. Установить Радиатор №2
    13. Установить органайзер воздушных потоков
    14. Закрыть крышку
    15. Задвинуть сервер на салазках в стойку
    16. Скоммутировать сервер
    17. Подключить питание

В результате такой рокировки. Сервер не загрузился, и все также ругался на неисправность второго сокета в котором был CPU1, и я точно знал, что он рабочий. Получается, что проблема в сокете или материнской плате.

Dell Information not avaliable

Тут вариантов два:

  • Вытащить данные процессоры и вставить в другой такой же сервер, чтобы точно удостовериться, что с ними все ок
  • Второй вариант это если у вас есть подрядчики и поставщики у кого вы покупали оборудование, то попытаться нанять их чтобы они проверили все и сказали, что сломалось.
  • Третий, но сейчас невозможный это пойти в Dell и запросить у них поддержку.
Оцените статью
Настройка серверов windows и linux
Добавить комментарий

  1. Андрей

    один в один. началось вчера 23.01.23

  2. Даниил

    Удалось найти решение?

  3. Иван Семин автор

    Да отдали в ремонт в итоге, подозрение на материнскую плату.

  4. Nik

    Как завершился ремонт? Успех или не успех? Где ремонтировали? Какие впечатления? Интересно в текущих обстоятельствах.

  5. Иван Семин автор

    Ремонт завершился хорошо, успешно. Ремонтировали у поставщиков lwcom.