Как посмотреть износ SSD дисков на Dell PowerStore 3200t

Обновлено 06.06.2024

схд Dell PowerStore 3200tДобрый день! Уважаемые читатели и гости IT блога Pyatilistnik. В предыдущей публикации мы с вами успешно смогли сохранить свои данные с жесткого диска на котором была ошибка "Структура диска повреждена чтение невозможно". Продолжим с вами работу с накопителями и сегодня будет интересный кейс. Потребовалось мне на одной их систем хранения Dell PowerStore 3200t получить информацию, о состоянии NVME дисков, к сожалению, штатный веб-интерфейс очень скудный и не может предоставить казалось бы простую информацию. как это видно на других моделях, но всегда есть и альтернативные возможности с которыми я вас и хочу познакомить. Думаю. что мне в бедующем самому пригодится эта информация.

Немного о S.M.A.R.T. в Dell PowerStore

Что такое S.M.A.R.T. ( это аббревиатура от Self-Monitoring, Analysis and Reporting Technology (технология само диагностики, анализа и отчетности)) для рядовых дисков я вам рассказывал, у серверов Dell и систем хранения данных эти технологии называются "Percentage Used" или "Endurance remaining". Каждая ячейка флэш-памяти NAND может выдержать несколько тысяч циклов программирования и стирания, прежде чем выйдет из строя, однако контроллер SSD обеспечит равномерное распределение циклов по всем ячейкам чипов SSD, чтобы максимально увеличить срок их службы.

Процент, сообщаемый через SMART, представляет собой остаточный ресурс накопителя, рассчитанный с использованием оставшихся циклов P/E.

Endurance remaining в хранилище данных Dell PowerStore 3200t представляет собой метрику, которая показывает оставшуюся прочность (или износ) SSD-накопителей в системе. SSD-накопители имеют ограниченное количество циклов записи/стирания, что означает, что со временем они могут изнашиваться и терять свою производительность.

Про количество циклов записи/стирания (DWPD и TBW) я уже подробно описывал

Это позволяет администраторам системы отслеживать состояние накопителей и принимать меры заранее для замены или обслуживания, чтобы предотвратить возможные сбои или потерю данных. Мониторинг Endurance remaining важен для обеспечения надежной работы системы хранения данных и продления срока службы SSD-накопителей. Когда значение Endurance remaining приближается к 90%, это может быть сигналом к необходимости замены накопителя, чтобы избежать потенциальных проблем.

Во скриншот из веб-интерфейса, где есть лицевая сторона со списком дисков, к сожалению, вы тут не увидите Endurance remaining, в чем сложность это сделать мне непонятно.

Dell PowerStore 3200t список дисков

Ошибка "No supported authentication methods available (sever sent: publickey)" при подключении по SSH к Dell PowerStore 3200t

Чтобы получить состояние износа NVME дисков можно воспользоваться командой в консоли. Для подключения по SSH убедитесь, что у вас включена данная служба на СХД. Для этого зайдите в раздел "Security - SSH Management" и убедитесь, что кнопка "Enable SSH" неактивна.

Включение ssh на Dell PowerStore 3200

Далее запускаем Putty и пробуем подключиться к вашей системе хранения данных При попытке ввода логина я стал получать ошибку"

"No supported authentication methods available (sever sent: publickey)"

putty no supported authentication methods available

Решается она для Dell PowerStore 3200t очень просто, вся проблема в безопасности. По умолчанию производить SSH подключение может определенная сервисная учетная запись с типом "Service Account"

Your Storage System cluster has a default service user account which provides access to each of your Storage System appliances over a secure shell (SSH) connection. Manage your appliance's SSH access via the SSH Management settings page.

Логин пользователя "service" найти его и задать нужный пароль можно в разделе "Security - Service Account".

Service Account в Dell PowerStore 3200t

Теперь при использовании логина "service" не выскакивает ошибка "No supported authentication methods available (sever sent: publickey)" и Putty позволяет вам ввести пароль.

Успешное подключение по ssh к Dell PowerStore 3200t

Как посмотреть S.M.A.R.T. на Dell PowerStore 3200t

После успешного подключения по ssh мы можем воспользоваться командой svc_drive_stats. Команда svc_drive_stats в Dell PowerStore 3200t предоставляет информацию о состоянии и статистике дисков (накопителей) в системе хранения данных. Эта команда позволяет администраторам получить подробные сведения о каждом диске, включая его текущее состояние, скорость передачи данных, температуру, использование и другие параметры, мониторить производительность и загрузку дисков, а также принимать меры по оптимизации работы системы хранения данных.

svc_drive_stats

Введите команду для просмотра состояния SSD дисков (износ):

svc_drive_stats list --smartData | grep -E 'Drive_|Percentage Used'

PS3200T smart disks

В приведенных выше выводах статистика износа дисков для каждого диска в устройстве PowerStore будет отображаться дважды. В приведенном выше примере у всех дисков в устройстве PowerStore осталось от 100% полезного ресурса, 0% означает, что у TBW запас очень большой. Percentage Used будет равно Endurance remaining.

Если вы внимательные, то увидите тут упоминание утилиты smartctl. Если вы запустите команду без grep, то вывод будет очень подобным:

svc_drive_stats list --smartData

************************************************************
*** Drive_0_0_16 /dev/nvme8n1 (peer), Serial Number PHLP2304001A8P0C ***
************************************************************
smartctl 7.0 2019-05-21 r4917 [x86_64-linux-5.3.18-150200.24.151.1.1694684726940108455-default] (SUSE RPM)

=== START OF INFORMATION SECTION ===

Model Number: INTEL SSDPD2KS076T8R

Serial Number: PHLP2304001A8P0C

Firmware Version: VPV1ET10

PCI Vendor ID: 0x8086

PCI Vendor Subsystem ID: 0x1120

IEEE OUI Identifier: 0x5cd2e4

Total NVM Capacity: 7,681,501,126,656 [7.68 TB]

Unallocated NVM Capacity: 0

Controller ID: 1

Number of Namespaces: 1

Namespace 1 Size/Capacity: 7,681,501,126,656 [7.68 TB]

Namespace 1 Formatted LBA Size: 512

Namespace 1 IEEE EUI-64: 5cd2e4 01797c0500

Local Time is: Wed Jun 5 16:23:16 2024 UTC

Firmware Updates (0x02): 1 Slot

Optional Admin Commands (0x001f): Security Format Frmw_DL NS_Mngmt Self_Test

Optional NVM Commands (0x006e): Wr_Unc DS_Mngmt Wr_Zero Resv Timestmp

Maximum Data Transfer Size: 32 Pages

Warning Comp. Temp. Threshold: 70 Celsius

Critical Comp. Temp. Threshold: 76 Celsius

 

Supported Power States

St Op Max Active Idle RL RT WL WT Ent_Lat Ex_Lat

0 + 25.00W - - 0 0 0 0 0 0

1 + 16.00W - - 0 0 0 0 0 0

2 + 15.20W - - 0 0 0 0 0 0

Supported LBA Sizes (NSID 0x1)

Id Fmt Data Metadt Rel_Perf

0 + 512 0 2

1 - 512 8 2

2 - 4096 0 0

3 - 4096 8 0

 

=== START OF SMART DATA SECTION ===

SMART overall-health self-assessment test result: PASSED

SMART/Health Information (NVMe Log 0x02)

Critical Warning: 0x00

Temperature: 28 Celsius

Available Spare: 100%

Available Spare Threshold: 10%

Percentage Used: 0%

Data Units Read: 1,645,774 [842 GB]

Data Units Written: 977,534 [500 GB]

Host Read Commands: 344,525,551

Host Write Commands: 237,858,734

Controller Busy Time: 157

Power Cycles: 29

Power On Hours: 1,050

Unsafe Shutdowns: 26

Media and Data Integrity Errors: 0

Error Information Log Entries: 0

Warning Comp. Temperature Time: 0

Critical Comp. Temperature Time: 0

Error Information (NVMe Log 0x01, max 128 entries)

No Errors Logged

Очень важным будет параметр  "Available Spare Threshold" для SSD (Solid State Drive) в системе хранения данных Dell PowerStore 3200t определяет минимальный процент доступного резерва (незадействованной памяти) на SSD, который необходим для обеспечения нормальной работы диска. Когда уровень доступного резерва памяти на SSD опускается ниже установленного порога, система может начать генерировать предупреждения или принимать меры для предотвращения возможных проблем.

Available Spare Threshold

Использование CloudIQ

CloudIQ - это облачный сервис мониторинга и аналитики от компании Dell Technologies, который предназначен для управления и мониторинга инфраструктуры хранения данных. CloudIQ предоставляет возможность администраторам центра обработки данных (ЦОД) получать информацию о состоянии и производительности своей инфраструктуры, а также проводить анализ данных для оптимизации работы системы хранения.

С помощью CloudIQ администраторы могут отслеживать состояние систем хранения данных, получать уведомления о проблемах или потенциальных угрозах, анализировать данные о производительности и использовании ресурсов, а также принимать решения по оптимизации работы инфраструктуры.

Найти настройку на интеграцию вашей системы хранения данных с CloudIQ  можно в веб-интерфейсе, нажав на кнопку с 9-ю квадратами и выбрав соответствующую иконку.

Использование CloudIQ

Вас перекинет в раздел "Support- Support Connectivity"

Support Connectivity CloudIQ

Далее вам нужно после связки зайти на сайт https://cloudiq.emc.com/ в раздел "Monitor - Systems - Inventory - System Name - Inventory  - Drives". Тут у каждого диска будет столбец Endurance remaining в %, но тут уже будет 100, это максимальное здоровье.

CloudIQ interface

Наверняка есть еще какие-то методы позволяющие вам определить уровень износа SSD дисков на системах хранения данных Dell PowerStore, можете об этом написать в комментариях. На этом у меня все, с вами был Иван Сёмин, автор и создатель IT портала Pyatilistnik.org.

Дополнительно

  • https://www.dell.com/support/manuals/en-us/dell-opnmang-srvr-admin-v8.2/omss_ug-v8.1.1/setting-the-remaining-rated-write-endurance-threshold
  • https://www.dell.com/support/kbdoc/en-us/000206542/powerstore-how-to-check-drive-wear-statistics-of-a-powerstore-appliance
Автор - Сёмин Иван

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *