Ремонт кэширования на Dell SC5020

Cache Dell SC5020

Добрый день! цикл статей по системам хранения данных Dell SC5020 продолжается, и мне хочется для себя записать мысли и практический опыт по работе с кэшированием и его настройкой. Я рассмотрю траблшутинг, когда вы можете получать предупреждение "Write cache is currently down on the Storage Center", что говорит вам о проблемах и неработающем кэшировании на запись. Приведу полезные команды, позволяющие вам получать больше полезной информации о вашем оборудовании и настройках, так что будет интересно.

Уровни кэширования на СХД Dell SC5020

Read Cache (кэш чтения) — это механизм, который хранит копии часто запрашиваемых данных в быстрой памяти (например, DRAM или SSD), чтобы уменьшить задержки при обращении к медленным носителям, таким как HDD. Когда данные запрашиваются из хранилища, система сначала проверяет, находятся ли они в кэше чтения. Если данные присутствуют, они передаются немедленно; если нет, данные считываются с основного носителя и затем могут быть помещены в кэш для будущих запросов

  • При использовании HDD: Кэш чтения особенно полезен для систем с жесткими дисками, которые имеют высокую задержку из-за механических ограничений
  • Для SSD: Может использоваться для дальнейшего ускорения операций, хотя SSD сами по себе быстры, но кэш чтения в DRAM может еще улучшить производительность

Write Cache (кэш записи) — это механизм, который временно хранит данные, предназначенные для записи на постоянные носители. Это создает иллюзию мгновенной записи, так как данные сначала помещаются в быстрый кэш, а затем асинхронно записываются на основные носители (например, HDD или SSD). Это позволяет сгладить пиковые нагрузки и повысить общую производительность системы

Данный вид кэширования может отключаться из соображения безопасности данных. если у вас есть проблемы с BBU

  • При использовании HDD: Кэш записи критически важен для скрытия медленной скорости записи на жесткие диски
  • Для SSD: Может использоваться для группировки операций записи и уменьшения износа ячеек памяти, хотя SSD сами по себе быстрее HDD

Причины по которым у вас может перестать работать Write Cache

Выглядит это таким образом вы открываете свойства контроллера в веб интерфейсе, или же в DSM. Переходите в раздел "Storage" и под опциями кэширования вы видите предупреждение:

Write cache is currently down on the Storage Center

Ошибка Write cache is currently down on the Storage Center

Write cache is currently down on the Storage Center в DSM

С вероятностью 90% у вас проблемы с батареей, которую нужно продиагностировать на первом этапе, а далее заменить при необходимости. Как все это делать я уже подробно рассказывал, так что не буду на этом устанавливаться.

  1. Команды диагностики и состояния BBU на Dell SC5020
  2. Алгоритм замены батареи на Dell SC5020

Далее если вы проверили состояние работы ваших BBU и с ними вопросов не возникло, переходим к диагностике самого кэша, для этого есть специальные команды.

Команды по диагностике состояния и работы кэша

Всю эту детальную информацию у вас могут попросить представители технической поддержки

Отображает информацию о кэш-памяти контроллера, включая его состояние, размер и настройки. Полезно для проверки текущего статуса кэша и его конфигурации.

cache show

Далее извлекаем детальную информацию о конкретном кэше  с индексом 1.

cache get 1

Выведем проверку информации о батарее через интерфейс ACPI (Advanced Configuration and Power Interface). Используется для диагностики состояния батареи, включая напряжение и оставшуюся емкость.

cha acpi bbux

Далее уместно посмотреть общие сведения о батарее, такие как модель, серийный номер и производитель. Вдруг потребуется замена.

cha acpi bif

Оценим здоровье батареи

cha acpi bst

cha battery show

Убедимся в подлинности батареи, что у вас на руках не контрафакт.

cha battery vpd read

Далее советую вывести и проверить информацию общего мониторинга состояния шасси.

cha show

chassis show

Команда для отображения информации о неисправностях (Fault Management), связанных с логическими или системными ошибками. Используется для диагностики повторяющихся или скрытых проблем.

fm lfm sb show

Проверка ошибок кэша, тут проверяются именно аппаратные сбои кэша

fm pfm showcachefault

Еще нужно проверить логи неисправностей (fault), которые регистрируют ошибки системы.

log showsub cha

log showsub fault

Команда применяется технической поддержкой для диагностики сложных проблем кэша

cache debug showbuffer

Так же полезно будет проверить, а включены ли функции кэширования в вашу лицензию, для этого выполните.

mc licsub bundles show

Вывод статуса лицензий в Dell SC5020

Расшифровка функций (FeatureList):

Цифры в колонке FeatureList — это коды, которые соответствуют конкретным функциям системы. На основе общедоступной информации о лицензиях Dell EMC вот что значат эти цифры:

Для пакета Core Storage Center (H07): Это базовый пакет, который включает основные функции системы хранения. Его наличие обычно подтверждает, что система работает в полном функционале, а не в демо-режиме.

Для пакета Total Feature Bundle (H06): Это комплексный пакет, который разблокирует практически все расширенные функции на Storage Center. Наличие этой лицензии означает, что ваша система имеет максимальную функциональность.

Вот примерная расшифровка некоторых кодов из вашего списка (точное соответствие может незначительно отличаться в зависимости от поколения системы):

  • Код 7: Live Volume — функция для обеспечения непрерывной доступности и миграции рабочих нагрузок между двумя массивами.

  • Код 8: Data Progression — технология автоматического перемещения данных между разными типами дисков (SSD, SAS, NL-SAS) для оптимизации производительности и стоимости.

  • Код 11: Replay Manager — инструмент для создания и управления моментальными снимками (снапшотами) и репликами для целей резервного копирования и восстановления.

  • Коды 13, 14, 16, 17: Относятся к базовым функциям управления томами, тонким provisioning и т.д.

  • Код 24: Асинхронная репликация — для репликации данных на удаленный сайт.

  • Код 25: Синхронная репликация — для репликации данных с гарантией целостности на удаленный сайт (обычно для критичных приложений).

  • Коды 26, 27: Относятся к управлению репликациями.

  • Коды 64, 66, 67: Относятся к шифрованию данных (Data at Rest Encryption).

  • Коды 74, 76, 81, 82: Относятся к интеграции с облаком, работе с файловыми протоколами или дополнительным функциям управления.

Устранение ошибки "Write cache is currently down on the Storage Center"

Ниже приведенную команду, в целом нужно при, только после полной диагностики BBU и контроллеров. В моем случае я заменил все сбойные батареи, проверил на них напряжение. Проверил, что на контроллерах нет других ошибок, которые могли бы влиять на кэширование. Команда которую я приведу ниже, сбрасывает статусы "Cache Lost Error" и "Cache Internal Error" на СХД, если проще то внутреннего состояния кэша контроллера (контроллера с ID = 1). Это может помочь, так же в ситуациях:

  • Кэш работает некорректно (например, зависания, ошибки записи/чтения).

  • Возникают сбои в работе СХД из-за повреждения внутренних структур кэша.

  • После замены батареи или флеш-модулей BBU
  • При подозрении на "зависшие" операции в кэше

cache resetinternalstate 1

Выполнять ее можно на лету, на работающей системе. НО лучше когда нет активных операций ввода-вывода, например во время бэкапа или миграции данных

Если кэш работает нормально, лучше не выполнять сброс без необходимости

Успешное устранение Write cache is currently down on the Storage Center

Что происходит при выполнении команды?

  • Кэш очищается, все несохраненные данные (если они есть) сбрасываются на диски.

  • Внутренние структуры управления кэшем переинициализируются.

  • Статистика кэша сбрасывается (можно проверить через cache show).

  • Производительность временно снижается, пока кэш не заполнится заново.

Надеюсь, у вас все получилось и вы вернули Write cache в рабочее состояние. С вами был Иван Сёмин, автор и создатель IT платформы Pyatilistnik.

Оцените статью
Настройка серверов windows и linux
Добавить комментарий