Ошибка Multi-bit memory errors are detected on the memory device

Обновлено 28.02.2024

Memory ddr4 logo

Добрый день! Уважаемые читатели и гости IT блога Pyatilistnik. В минувший раз мы с вами разобрали установку и базовую настройку NAS QNAP TS-1273AU-RP, оборудование интересное. Сегодня я вновь хочу поговорить по физическое оборудование и рассказать историю, по которой мой сервер Dell PowerEdge R840 не загружался после перезагрузки без моего вмешательства, там была ошибка "UEFI0079: One or more uncorrectable Memory errors occurred in the previous boot". Давайте разбираться в чем дело и как это исправить.

Почему не загружается сервер Dell PowerEdge R840

У моего коллеги DBA было плановое обслуживание сервера PowerEdge Dell R840, через какое-то время он написал, что сервер долгое время не загружается и не отвечает на ping. Я подключился к данной проблеме. Первое, что я начал делать это производить проверку сервера через порт управления IDRAC. Сервер находился на шаге самодиагностики:

UEFI0079: One or more uncorrectable Memory errors occurred in the previous boot.

Check the System Event Log (SEL) to identity the  non-functional DIMM, and then replace the DIMM

F1 to Continue and Retry Boot Order

F2 for System Setup (BIOS)

F10 for Lifecycle Controller

F11 for Boot Manager

Видим, что есть ошибка в модуле памяти, для продолжения загрузки сервера нажимаем F1.

UEFI0079: One or more uncorrectable Memory errors occurred in the previous boot.

Вижу ошибки на 6-ом модуле памяти.

Multi-bit memory errors are detected on the memory device at location(s) DIMM_A6. Immediately replace the DIMM.

The system memory has uncorrectable multi-bit memory errors in the non-execution path of a memory device at the location DIMM_A6. Immediately replace the DIMM.

 

Multi-bit memory errors are detected on the memory device at location(s) DIMM_A6. Immediately replace the DIMM

Тут у нас два варианта, продиагностировать текущую память на ошибки или поменять, по своей практике скажу, что меняйте, после проверки может все стать опять зеленым. но оно потом сбойнет в самый не подходящий момент.

Как выяснить модель памяти для замены

На основном дашборде я вижу, что ругается на слот памяти DIMM_A6, открываем пункт меню "System - Inventory - Hardware Inventory". Находите там DIMM_A6, откройте дополнительную информацию, тут из полезного будет:

  • MemoryType
  • Manufacturer
  • Model
  • PartNumber
  • Size
  • Speed

Как выяснить модель памяти для замены

Заказываем планки памяти и готовимся к ее замене.

Как заменить планку памяти на сервере Dell PowerEdge

Выключите сервер. Откройте защитную крышку, и на ее внутренней стороне найдите инструкцию расположения номеров DIMM памяти. Найдите в инструкции нужный номер DIMM памяти, у меня это A6, я подсветил его стрелкой.

инструкция расположения номеров DIMM памяти

Снимаем защитную пластмассовую защиту (напыльник)

Замена DIMM модулей в Dell PowerEdge

Извлекаем сбойный модуль оперативной памяти, сделать это можно за счет нажатия на белые или черные задвижки по ее концам. Установите новую планку памяти. Закройте кройте крышку и включите сервер.

Вставляем новую планку памяти

Далее идем вновь в IDRAC, и проверяем что все зелененькое. Там вы увидите такие события:

  • The chassis is open while the power is off.
  • A replacement part was detected for device: DDR4 DIMM(DIMM A6)

A replacement part was detected for device: DDR4 DIMM(DIMM A6)

На этом можно сказать, что основная наша задача выполнена. Осталось только проверить новую планку памяти в проде.

Успено замененная сбойная память на Dell PowerEdge R840

На этом у меня все, с вами был Иван Сёмин, автор и создатель IT портала Pyatilistnik.org.

Автор - Сёмин Иван

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *