Ошибка Multi-bit memory errors are detected on the memory device
Добрый день! Уважаемые читатели и гости IT блога Pyatilistnik. В минувший раз мы с вами разобрали установку и базовую настройку NAS QNAP TS-1273AU-RP, оборудование интересное. Сегодня я вновь хочу поговорить по физическое оборудование и рассказать историю, по которой мой сервер Dell PowerEdge R840 не загружался после перезагрузки без моего вмешательства, там была ошибка "UEFI0079: One or more uncorrectable Memory errors occurred in the previous boot". Давайте разбираться в чем дело и как это исправить.
Почему не загружается сервер Dell PowerEdge R840
У моего коллеги DBA было плановое обслуживание сервера PowerEdge Dell R840, через какое-то время он написал, что сервер долгое время не загружается и не отвечает на ping. Я подключился к данной проблеме. Первое, что я начал делать это производить проверку сервера через порт управления IDRAC. Сервер находился на шаге самодиагностики:
Check the System Event Log (SEL) to identity the non-functional DIMM, and then replace the DIMM
F1 to Continue and Retry Boot Order
F2 for System Setup (BIOS)
F10 for Lifecycle Controller
F11 for Boot Manager
Видим, что есть ошибка в модуле памяти, для продолжения загрузки сервера нажимаем F1.
Вижу ошибки на 6-ом модуле памяти.
Multi-bit memory errors are detected on the memory device at location(s) DIMM_A6. Immediately replace the DIMM.
The system memory has uncorrectable multi-bit memory errors in the non-execution path of a memory device at the location DIMM_A6. Immediately replace the DIMM.
Очень часто вы можете поймать синий экран смерти или PSOD.
Тут у нас два варианта, продиагностировать текущую память на ошибки или поменять, по своей практике скажу, что меняйте, после проверки может все стать опять зеленым. но оно потом сбойнет в самый не подходящий момент.
Как выяснить модель памяти для замены
На основном дашборде я вижу, что ругается на слот памяти DIMM_A6, открываем пункт меню "System - Inventory - Hardware Inventory". Находите там DIMM_A6, откройте дополнительную информацию, тут из полезного будет:
- MemoryType
- Manufacturer
- Model
- PartNumber
- Size
- Speed
Заказываем планки памяти и готовимся к ее замене.
Как заменить планку памяти на сервере Dell PowerEdge
Выключите сервер. Откройте защитную крышку, и на ее внутренней стороне найдите инструкцию расположения номеров DIMM памяти. Найдите в инструкции нужный номер DIMM памяти, у меня это A6, я подсветил его стрелкой.
Снимаем защитную пластмассовую защиту (напыльник)
Извлекаем сбойный модуль оперативной памяти, сделать это можно за счет нажатия на белые или черные задвижки по ее концам. Установите новую планку памяти. Закройте кройте крышку и включите сервер.
Далее идем вновь в IDRAC, и проверяем что все зелененькое. Там вы увидите такие события:
- The chassis is open while the power is off.
- A replacement part was detected for device: DDR4 DIMM(DIMM A6)
На этом можно сказать, что основная наша задача выполнена. Осталось только проверить новую планку памяти в проде.
На этом у меня все, с вами был Иван Сёмин, автор и создатель IT портала Pyatilistnik.org.