Как посмотреть износ SSD дисков на Dell PowerStore 3200t
Добрый день! Уважаемые читатели и гости IT блога Pyatilistnik. В предыдущей публикации мы с вами успешно смогли сохранить свои данные с жесткого диска на котором была ошибка "Структура диска повреждена чтение невозможно". Продолжим с вами работу с накопителями и сегодня будет интересный кейс. Потребовалось мне на одной их систем хранения Dell PowerStore 3200t получить информацию, о состоянии NVME дисков, к сожалению, штатный веб-интерфейс очень скудный и не может предоставить казалось бы простую информацию. как это видно на других моделях, но всегда есть и альтернативные возможности с которыми я вас и хочу познакомить. Думаю. что мне в бедующем самому пригодится эта информация.
Немного о S.M.A.R.T. в Dell PowerStore
Что такое S.M.A.R.T. ( это аббревиатура от Self-Monitoring, Analysis and Reporting Technology (технология само диагностики, анализа и отчетности)) для рядовых дисков я вам рассказывал, у серверов Dell и систем хранения данных эти технологии называются "Percentage Used" или "Endurance remaining". Каждая ячейка флэш-памяти NAND может выдержать несколько тысяч циклов программирования и стирания, прежде чем выйдет из строя, однако контроллер SSD обеспечит равномерное распределение циклов по всем ячейкам чипов SSD, чтобы максимально увеличить срок их службы.
Endurance remaining в хранилище данных Dell PowerStore 3200t представляет собой метрику, которая показывает оставшуюся прочность (или износ) SSD-накопителей в системе. SSD-накопители имеют ограниченное количество циклов записи/стирания, что означает, что со временем они могут изнашиваться и терять свою производительность.
Это позволяет администраторам системы отслеживать состояние накопителей и принимать меры заранее для замены или обслуживания, чтобы предотвратить возможные сбои или потерю данных. Мониторинг Endurance remaining важен для обеспечения надежной работы системы хранения данных и продления срока службы SSD-накопителей. Когда значение Endurance remaining приближается к 90%, это может быть сигналом к необходимости замены накопителя, чтобы избежать потенциальных проблем.
Во скриншот из веб-интерфейса, где есть лицевая сторона со списком дисков, к сожалению, вы тут не увидите Endurance remaining, в чем сложность это сделать мне непонятно.
Ошибка "No supported authentication methods available (sever sent: publickey)" при подключении по SSH к Dell PowerStore 3200t
Чтобы получить состояние износа NVME дисков можно воспользоваться командой в консоли. Для подключения по SSH убедитесь, что у вас включена данная служба на СХД. Для этого зайдите в раздел "Security - SSH Management" и убедитесь, что кнопка "Enable SSH" неактивна.
Далее запускаем Putty и пробуем подключиться к вашей системе хранения данных При попытке ввода логина я стал получать ошибку"
Решается она для Dell PowerStore 3200t очень просто, вся проблема в безопасности. По умолчанию производить SSH подключение может определенная сервисная учетная запись с типом "Service Account"
Логин пользователя "service" найти его и задать нужный пароль можно в разделе "Security - Service Account".
Теперь при использовании логина "service" не выскакивает ошибка "No supported authentication methods available (sever sent: publickey)" и Putty позволяет вам ввести пароль.
Как посмотреть S.M.A.R.T. на Dell PowerStore 3200t
После успешного подключения по ssh мы можем воспользоваться командой svc_drive_stats. Команда svc_drive_stats в Dell PowerStore 3200t предоставляет информацию о состоянии и статистике дисков (накопителей) в системе хранения данных. Эта команда позволяет администраторам получить подробные сведения о каждом диске, включая его текущее состояние, скорость передачи данных, температуру, использование и другие параметры, мониторить производительность и загрузку дисков, а также принимать меры по оптимизации работы системы хранения данных.
Введите команду для просмотра состояния SSD дисков (износ):
В приведенных выше выводах статистика износа дисков для каждого диска в устройстве PowerStore будет отображаться дважды. В приведенном выше примере у всех дисков в устройстве PowerStore осталось от 100% полезного ресурса, 0% означает, что у TBW запас очень большой. Percentage Used будет равно Endurance remaining.
Если вы внимательные, то увидите тут упоминание утилиты smartctl. Если вы запустите команду без grep, то вывод будет очень подобным:
************************************************************
*** Drive_0_0_16 /dev/nvme8n1 (peer), Serial Number PHLP2304001A8P0C ***
************************************************************
smartctl 7.0 2019-05-21 r4917 [x86_64-linux-5.3.18-150200.24.151.1.1694684726940108455-default] (SUSE RPM)
=== START OF INFORMATION SECTION ===
Model Number: INTEL SSDPD2KS076T8R
Serial Number: PHLP2304001A8P0C
Firmware Version: VPV1ET10
PCI Vendor ID: 0x8086
PCI Vendor Subsystem ID: 0x1120
IEEE OUI Identifier: 0x5cd2e4
Total NVM Capacity: 7,681,501,126,656 [7.68 TB]
Unallocated NVM Capacity: 0
Controller ID: 1
Number of Namespaces: 1
Namespace 1 Size/Capacity: 7,681,501,126,656 [7.68 TB]
Namespace 1 Formatted LBA Size: 512
Namespace 1 IEEE EUI-64: 5cd2e4 01797c0500
Local Time is: Wed Jun 5 16:23:16 2024 UTC
Firmware Updates (0x02): 1 Slot
Optional Admin Commands (0x001f): Security Format Frmw_DL NS_Mngmt Self_Test
Optional NVM Commands (0x006e): Wr_Unc DS_Mngmt Wr_Zero Resv Timestmp
Maximum Data Transfer Size: 32 Pages
Warning Comp. Temp. Threshold: 70 Celsius
Critical Comp. Temp. Threshold: 76 Celsius
Supported Power States
St Op Max Active Idle RL RT WL WT Ent_Lat Ex_Lat
0 + 25.00W - - 0 0 0 0 0 0
1 + 16.00W - - 0 0 0 0 0 0
2 + 15.20W - - 0 0 0 0 0 0
Supported LBA Sizes (NSID 0x1)
Id Fmt Data Metadt Rel_Perf
0 + 512 0 2
1 - 512 8 2
2 - 4096 0 0
3 - 4096 8 0
=== START OF SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
SMART/Health Information (NVMe Log 0x02)
Critical Warning: 0x00
Temperature: 28 Celsius
Available Spare: 100%
Available Spare Threshold: 10%
Percentage Used: 0%
Data Units Read: 1,645,774 [842 GB]
Data Units Written: 977,534 [500 GB]
Host Read Commands: 344,525,551
Host Write Commands: 237,858,734
Controller Busy Time: 157
Power Cycles: 29
Power On Hours: 1,050
Unsafe Shutdowns: 26
Media and Data Integrity Errors: 0
Error Information Log Entries: 0
Warning Comp. Temperature Time: 0
Critical Comp. Temperature Time: 0
Error Information (NVMe Log 0x01, max 128 entries)
No Errors Logged
Очень важным будет параметр "Available Spare Threshold" для SSD (Solid State Drive) в системе хранения данных Dell PowerStore 3200t определяет минимальный процент доступного резерва (незадействованной памяти) на SSD, который необходим для обеспечения нормальной работы диска. Когда уровень доступного резерва памяти на SSD опускается ниже установленного порога, система может начать генерировать предупреждения или принимать меры для предотвращения возможных проблем.
Использование CloudIQ
CloudIQ - это облачный сервис мониторинга и аналитики от компании Dell Technologies, который предназначен для управления и мониторинга инфраструктуры хранения данных. CloudIQ предоставляет возможность администраторам центра обработки данных (ЦОД) получать информацию о состоянии и производительности своей инфраструктуры, а также проводить анализ данных для оптимизации работы системы хранения.
С помощью CloudIQ администраторы могут отслеживать состояние систем хранения данных, получать уведомления о проблемах или потенциальных угрозах, анализировать данные о производительности и использовании ресурсов, а также принимать решения по оптимизации работы инфраструктуры.
Найти настройку на интеграцию вашей системы хранения данных с CloudIQ можно в веб-интерфейсе, нажав на кнопку с 9-ю квадратами и выбрав соответствующую иконку.
Вас перекинет в раздел "Support- Support Connectivity"
Далее вам нужно после связки зайти на сайт https://cloudiq.emc.com/ в раздел "Monitor - Systems - Inventory - System Name - Inventory - Drives". Тут у каждого диска будет столбец Endurance remaining в %, но тут уже будет 100, это максимальное здоровье.
Наверняка есть еще какие-то методы позволяющие вам определить уровень износа SSD дисков на системах хранения данных Dell PowerStore, можете об этом написать в комментариях. На этом у меня все, с вами был Иван Сёмин, автор и создатель IT портала Pyatilistnik.org.
Дополнительно
- https://www.dell.com/support/manuals/en-us/dell-opnmang-srvr-admin-v8.2/omss_ug-v8.1.1/setting-the-remaining-rated-write-endurance-threshold
- https://www.dell.com/support/kbdoc/en-us/000206542/powerstore-how-to-check-drive-wear-statistics-of-a-powerstore-appliance