Фантомный диск на Dell SC5020

Dell SC5020 ReadyForRemoval diskВсем, добрый день. У меня в голове еще много идей, что бы я хотел рассказать про систему хранения данных Dell SC5020. В сегодняшней публикации поделюсь с вами интересным случаем, когда я обнаружил вышедший из стоя SSD диск, пытался его диагностировать, а в итоге оказалось, что это был просто диск-призрак с предыдущей замены. Вообще забавная ситуация, которая при первом опыте с СХД может привести к нехорошим последствиям, наломав дров, обо всем по порядку.

Диск со статусом "PredictedError"

В предыдущей статье я вам рассказывал, как вы можете оценить степень состояния ваших SSD на Dell SC5020 и один из методов был в использовании консольных команд. Там меня привлек вывод команды, который показал, что у меня есть оказывается один SSD-диск, в состоянии "Down" и статусом "PredictedError". Меня это удивило так как в веб интерфейсе или в утилите Dell Storage Manage не было никаких ошибок или предупреждений.

disk show

У диска в столбце "ParentFolder" было странное значение 22222222 и размер "PhysicalSectorSize" был 0.

Запуск команды Disk show

следующим шагом мне стало интересно понять, в каком слоте корзины установлен данный диск, для этого вам может пригодится команда.

disk select Index DiskSize OperStatus OperStatus VendorID ProductID SerialNumber JBODDiskPos OperMode

Тут нам поможет столбец JBODDiskPos. Номера в JBODDiskPos должны быть уникальными. но в моем случае оказалось, что под номером 4 пресутсвуют как раз сбойный диск "PredictedError" и нормальный. Еще советую обратить внимание на столбец "OperMode", тут есть режим диска, и вот у сбойного статус "ReadyForRemoval", говорит, что он готов к извлечению и замене и вот тут я начал потихоньку догадываться.

Поиск диска ReadyForRemoval

Еще я обратил внимание, что по индексу у меня 31 SSD диск, хотя я точно знал, что их в СХД 30.

Записав серийные номера я полез в Dell Storage Manage проверять свою гипотезу, что ранее диск, что я искренне считал вышедшим из стоя и требующий замены на самом деле, это ошибочная, старая информация оставшаяся после предыдущей, успешной замены диска. По какой-то причине данная информация до сих пор осталась в памяти конфигурации СХД.

Открыв раздел с дисками я удостоверился, что их действительно 30, и что под "JBODDiskPos" 4, установлен действительно свежий SSD, у него даже "Endurance" 99%.

Dell Storage Manage список дисков

Так что можно не переживать, с дисками на СХД все хорошо и Dell Storage Manage показывает правильные статусы. Из полезного вы можете вывести актуальный список дисков с их статусами командой:

disk show where ParentFolder != 22222222

Обратите внимание, что у меня количество 30 из 31 в индексе и нет неизвестного диска у которого режим "ReadyForRemoval".

Вывод информации о статусе дисков Dell SC5020

Нужно ли удалять фантомный диск?

У вас, конечно, может возникнуть вопрос, а можно и нужно ли удалять такую неактуальную запись, и вот тут однозначно НЕЛЬЗЯ. Вендор вам предлагает конечно команду:

disk delete

НО, Dell не рекомендует выполнять команду disk delete на СХД SC5020 с прошивкой выше версии 6.6 из-за изменений в архитектуре управления дисками и потенциальных рисков для целостности данных.

Из основных причин я могу выделить:

  1. Изменения в логике работы прошивки - Начиная с версии SCOS 6.7, Dell внесла изменения в алгоритмы обработки дисков, включая улучшенные механизмы RAID-контроллера и кэширования. Удаление диска через низкоуровневые команды (disk delete) может нарушить эти процессы, что приведет к нестабильности системы или повреждению данных
  2. Риск нарушения работы - Storage Center SC5020 использует Dell Storage Manager (DSM) для управления дисками. Прямое удаление диска в обход DSM (особенно в версиях прошивки выше 6.6) может вызвать конфликты с логикой Storage Center, например: Неправильное обновление метаданных RAID. Ошибки при реконструкции массивов после замены диска
  3. Отсутствие поддержки в новых версиях - В документации SC Series указано, что для прошивок выше 6.6 удаление дисков должно выполняться только через интерфейс DSM или Unisphere. Это связано с тем, что: Команда disk delete не учитывает новые функции, такие как автоматическое перераспределение данных или Hot-Swap 2.0. Dell прекратила тестирование этого метода для актуальных версий ПО
  4. Гарантийные ограничения - Использование неподдерживаемых команд может привести к аннулированию гарантии, если система выйдет из строя. В руководствах SC5020 подчеркивается, что все операции с дисками должны соответствовать официальным инструкциям Dell.

Так что я для себя принял решение, что просто буду это игнорировать, так как это кроме визуального порядка не влияет на функционал системы хранения данных. С вами был Иван Сёмин, автор и создатель IT портала Pyatilistnik.org.

Оцените статью
Настройка серверов windows и linux
Добавить комментарий