Замена сломанного диска на Dell SC 5020

Dell SC5020 logoДобрый день! Уважаемые читатели и гости блога. В последнее время я очень часто стал писать про системы хранения данных Dell SC5020, вы просто не могли этого не заметить, одной из последних публикаций была ситуация, что у меня перестал быть доступен один из FC портов. В сегодняшней статья я расскажу, как у меня уже сломался SSD диск, который мы доблестно заменили и произвели дополнительные действия по его вводу в эксплуатацию. Понимаю, что для кого-то это тривиальная вещь, но у меня на данном оборудовании это произошло впервые за 5 лет. Поэтому я и решил сделать памятку себе.

Процедура диагностику вылетевшего SSD диска на Dell SC 5020

С утра система мониторинга прислала занимательные сообщения об ошибках.

⛔️ Важно : SC5020: SC5020_Dell : Global status of SC5020 is critical

❌ Чрезвычайно важно : SC5020: SC5020_Dell : Disk 11 is down on SC5020

Alert created on controller 'Dell[364554]' for object [internal ref: 'DiskFolderClass 3 8'] - [SpareHunger]: Disk Folder Assigned requires 1 additional disks of class Read-Intensive SSD to satisfy internal sparing requirements

Alert created on controller 'Dell[364554]' for object [internal ref: 'Disk 11 Position[1-4]'] - [Health]: Disk 11 health code change: PredictedError SN: S40GNX0M800683

Из которых стало понятно, что произошло нехорошее событие с дисками на СХД. Первым делом я побежал смотреть состояние оборудования с помощью веб-интерфейса. На главном дашборде в разделе "Alerts" были 7 критических событий. Обратите внимание, что в разделе "Inventory" видно общее количество диков, их 30, 29 зеленые и один с ошибкой.

Дашборд Dell SC5020

Далее я вам советую всегда обратиться к разделу "Logs". Тут было важное событие, что диск 11 скоро выйдет из строя, имея статус "PredictedError" и уже удален из массива, так же сообщается что он готов к замене или удалению.

Disk 11 SN: S40GNX0M800683 failed [PredictedError] and is ready to be removed

failed PredictedError and is ready to be removed

Статус "PredictedError" у диска в системах хранения данных (СХД) Dell указывает на то, что контроллер или программное обеспечение системы хранения предсказало потенциальную ошибку или сбой в работе данного диска. Это может быть связано с различными факторами, такими как:

  1. Состояние диска: Диск может иметь проблемы с его физическим состоянием, например, износ или повреждение.
  2. SMART-данные: Многие жесткие диски и SSD поддерживают технологию SMART (Self-Monitoring, Analysis, and Reporting Technology), которая отслеживает различные параметры работы устройства. Если какие-либо из этих параметров выходят за пределы допустимых значений, это может привести к статусу "PredictedError".
  3. Ошибки чтения/записи: Если диск часто сталкивается с ошибками чтения или записи, это также может вызвать предупреждение о предсказанной ошибке.
  4. Заканчивается TBW

Алгоритм замены SSD диска на СХД Dell SC 5020

Сразу скажу, что паниковать не стоит. Так как в данном типе СХД особый проприетарый ADAPT RAID, поэтому данные размазаны по всем дискам. Да и процедуру замены мы уже делали на RAID PERC H740P Adapter и LSI контроллере, где был статус у диска "Predictive failure".

RAID ADAPT (Advanced Data Protection Technology) — это технология, разработанная компанией Dell для повышения надежности и доступности данных в системах хранения. Она предназначена для защиты от потери данных и обеспечения высокой производительности при работе с RAID-массивами.

Если вы видите статус "PredictedError", рекомендуется предпринять следующие шаги: Откройте раздел "Disks - Assigned". Разверните там папку "Read-intensive SSD".

Disks Assigned

Найдите сбойный SSD диск. У него будет статус "Down". Обратите внимание, что его использование в RAID массиве ADAPT 0%, то есть данных на нем нет, они все были уже перенесены на другие диски.

Обратите внимание на время работы диска (5 лет) и степень его износа Endurance всего 17%, значит он получил статус PredictedError не из-за SMART показателей. Еще помните, что выше ругалось на Disk 11, это был не его номер, а "Index".

Сбойный SSD на Dell SC5020

Через правый клик вы можете произвести подсветку диска "Toggle indicator", чтобы его проще было найти при замене.

Ранее я рассказывал про включение индикации на серверах и дисках в статьях: "Как подсветить диски на сервере HP ProLiant DL380 G7" и "Как подсветить блейды в IBM BladeCenter"

Toggle indicator

Еще более подробную информацию вы можете найти в разделе "System - Hardware - Disks", тут из полезного будет:

  • Статус диска
  • Время работы диска
  • Его позиция в корзине (Enclosure Possition)
  • Номер индекса
  • Вендор
  • Продукт
  • Шкала износа диска
  • Картинка с визуальным отображением про какой диск идет речь.

Подробная информация по сбойному SSD

Процедура замены диска на системах хранения данных Dell SC5020 очень простая. Выберите диск и нажмите кнопку "Replace Disk".

Replace Disk

Или то же самое можно сделать в Dell Storage Manager Client.

Dell Storage Manager Client Replace Disk

Следуйте инструкциям по физическому извлечению, а после извлечения неисправного диска нажмите далее. Будет небольшой мастер, если все сделано верно, то увидите заветную фразу "Disk replacement status - The disk replacement was successful"

Disk replacement status

Дожидаемся в логах окончания ребилда RAID массива.

RAID Rebuild Dell SC5020

Как видно из скриншоты новый диск успешно определился, его степень износа 0%, время работы N/A.

Новый SSD в Dell SC 5020

Остается в вечернее время выполнить "Rebalance RAID". Процедура Rebalance RAID (перебалансировка RAID) в системах хранения данных (СХД) Dell SC5020 предназначена для оптимизации распределения данных между дисками в RAID-массиве. Эта процедура может быть необходима в следующих случаях:

  1. Добавление новых дисков: Когда в массив добавляются новые диски, данные могут быть неравномерно распределены. Перебалансировка помогает перераспределить данные, чтобы использовать все доступные ресурсы и улучшить производительность.
  2. Замена дисков: Если диск в массиве был заменен, особенно на диск с другой емкостью, может потребоваться перебалансировка для оптимизации использования пространства.
  3. Изменение конфигурации RAID: При изменении уровня RAID
  4. Устранение деградации производительности: Со временем данные могут накапливаться неравномерно, что может привести к снижению производительности. Перебалансировка помогает улучшить скорость чтения и записи, перераспределяя данные более равномерно.

Так же интересно - Виды RAID, их плюсы и минучы

Процесс перебалансировки RAID

Процесс обычно включает следующие шаги:

  • Анализ текущего состояния массива: Система анализирует текущее распределение данных и определяет необходимость в перебалансировке.
  • Перераспределение данных: Система начинает перемещать данные между дисками, чтобы достичь более равномерного распределения.
  • Мониторинг и завершение: Процесс мониторится для обеспечения его успешного завершения. По окончании перебалансировки массив должен работать более эффективно.

Выберите раздел "Disks" и в контекстном меню найдите кнопку "Rebalance RAID", нажмите на нее.

Rebalance RAID

Увидите, что статус говорит о необходимости запуска процедуры. Так как я делаю это в вечернее время, значит могу сделать немедленно, либо можно настроить по расписанию.

• Процедура может занимать некоторое время в зависимости от объема данных и конфигурации массива. Важно следить за состоянием системы во время перебалансировки, так как она может временно повлиять на производительность. Рекомендуется выполнять перебалансировку в период низкой активности, чтобы минимизировать влияние на пользователей

Rebalance RAID Dell SC 5020

На этом у меня все. Мы с вами успешно заменили сбойный SSD диск на новый и восстановили штатную работоспособность СХД Dell SC5020. С вами был Иван Сёмин, автор и создатель IT портала Pyatilistnik.org.

Дополнительно

https://www.dell.com/support/kbdoc/en-us/000117921/replacing-disks-in-sc-series-via-the-dell-storage-manager-client

Оцените статью
Настройка серверов windows и linux
Добавить комментарий