Отвалился FC порт на контроллере Dell SC5020
Добрый день! Уважаемые читатели и гости IT блога Pyatilistnik.org. В прошлый раз мы с вами рассмотрели методы позволяющие производить ручное обновление групповой политики, как на локальном компьютере, так и на удаленном. Сегодня я вновь затрону тему систем хранения данных и поделюсь опытом диагностики, когда у вас может перестать отвечать FC порт на контроллере Dell SC5020. Думаю данная статья найдет своего читателя.
Описание ситуации
Как обычно это и бывает, ранним утром когда все спят, прилетает алерт от системы мониторинга, что на системе хранения данных Dell SC 5020 появилось критическое событие:
✋ 03:55:47,2024.10.25 : ⛔️ Важно : SC5020: SC5020F_Dell : Global status of SC5020 is critical
Зайдя на веб-интерфейс управления я увидел, что стал недоступен один из FC линков одного контроллера. Ситуация конечно неприятная, но не критичная, так как у каждого контроллера, есть по два подключения до FC фабрики.
Что делать в такой ситуации
У меня данное оборудование находится в ЦОДе, так что первым делом я попросил поддержку сделать:
- 1️⃣Выслать фото и видео индикации лампочек на обратной стороне контроллера, где идет FC подключение
- 2️⃣Попросил проверить, что FC патчкорды плотно подключены к оборудованию
В результате базовой проверки индикация была на оборудовании.
- 3️⃣Следующим шагом всегда нужно проверять физическую составляющую. Мой коллега поменял трансивер на стороне FC фабрики куда шло соединение от контроллера СХД. Смена трансивера не помогла.
FC-трансивер (Fiber Channel трансивер) — это устройство, используемое для передачи данных по оптоволоконным кабелям в сетях Fibre Channel. Он обеспечивает высокоскоростную передачу данных, обычно используемую в системах хранения данных и сетях хранения (SAN). Для пример приведу такую картинку.
- 4️⃣Следующим шагом я советую зайти на FC фабрику и проверить две вещи: ошибки на нужном FC порту и уровень сигнала на нем. Ошибок на FC порту не было, а вот замеры сигналы показали проблемы. Вам всегда помогут две команды:
sfpshow 30: Эта команда показывает информацию о SFP (Small Form-factor Pluggable) модуле, установленном в порту с номером 30. Вы получите данные о типе модуля, скорости передачи, состоянии подключения и других характеристиках.
porterrshow 30: Эта команда отображает статистику ошибок для порта 30. Вы сможете увидеть количество различных типов ошибок (например, CRC-ошибки, ошибки фреймов и т.д.), что поможет в диагностике проблем с сетью.
SFP имеет два разъема, к которым подключен оптоволоконный кабель FC, каждый разъем на SFP представляет свой собственный канал, один канал для отправки TX, а другой для приема RX, что делает модуль SFP устройством, которое функционирует как передатчик и приемник, объединенные в одном корпусе, который иначе известен как трансивер.
Красный TX канал левого трансивера является источником светового сигнала. Глядя на мощность TX на этом SFP, вы видите источник. Глядя на уровень мощности на правом SFP RX-канале, вы видите световую энергию, создаваемую левым SFP, когда она проходит по кабелю и достигает правого SFP, и наоборот для зеленого канала.
Децибелы (дБ) — это отношение выходной мощности к входной мощности, выраженное как 10*log (коэффициент мощности). dBm = мощность в децибелах относительно 1 мВт (1000 mW). Показание 0 dBm составляет 1 мВт. Если показание мощности плюс (+) dBm, мощность >1 mW, минус (-) составляет <1 mW.
Если показания мощности RX и TX вызывают беспокойство, а мощность Rx ниже ожидаемой, то правильным решением будет произвести замену FC-патчкорда.
RX Power (Приемная мощность): Это уровень оптической мощности, который приемник (например, SFP-модуль) получает от оптического сигнала. Измеряется в дБм (децибелах относительно 1 милливатта). Нормальные значения RX Power зависят от типа используемого оборудования и расстояния между передатчиком и приемником.
TX Power (Передающая мощность): Это уровень оптической мощности, который передатчик отправляет в оптическую сеть. Также измеряется в dBm.
Сбойный порт: RX Power: -4.5 dBm (356.6uW) TX Power: -1.8 dBm (666.9 uW) работающий порт: -2.7 dBm (540.2uW) TX Power: -0.4 dBm (914.3 uW)
После замены патчкорда порт перешел в рабочее состояние.
Через некоторое время система мониторинга прислала сообщение, что все стало хорошо.
Читатйе так же - Как отключить автоматический Chkdsk в отказоустойчивом кластере Windows
Справка по выводу команды porterrshow
- Frames tx (Отправленные кадры) - По сути, это то сколько кадров отправил порт, показатель статичный, участвуем в счетчиках подсчета ошибок
- Frames rx (Полученные кадры) - По сути, это то сколько кадров получил порт, так же показатель статичный, участвуем в счетчиках подсчета ошибок
- Enc in - Количество ошибок кодирования 8b/10b, которые произошли внутри границ кадра. По спецификации допускается, что может быть одна ошибка за 20 минут при скорости 1 Гбит/с. Так же эти ошибки могут возникать, если произведена инициализация и перезагрузка связанного порта Nx. Данный тип ошибок является частью ошибок LLI.
- Crc err - Существует циклическая проверка избыточности (CRC), и вот кадры которые ее не прошли входят в этот показатель. В кадре есть поле размером 4 байта, оно по спецификации всегда идет после поля данных, его CRC использует для проверки заголовка кадра и поля данных.
- crc g_eof - CRC с хорошим EOF (End Of Frame). Коммутатор при обнаружении End Of Frame производит увеличение счетчика crc g_eof, кадр помечается, чтобы другие порты его не считали. После этого кадр отправляется дальше.
- Too short - Данный счетчик ведет статистику ошибок, получая кадр ограниченный SOF (начало кадра) и EOF (конец кадра), и количество слов между SOF и EOF составляет менее 7 слов (6 слов заголовка плюс 1 слово CRC), то есть 38 байтов (а не 48), включая SOF и EOF, то он увеличивает данный счетчик. Зачастую такой кадр говорит о ненадежном соединении или ошибках на передатчике. Напомню, что размером кадра данных будет переменная начинающаяся от 0 до 2112. LLI так же учитывает эти ошибки.
- Loss sig - Если происходит потеря сигнала, то данный счетчик это фиксирует.
- frjt - Данный счетчик показывает, что доставка кадра была отклонена, например F_RJT не поддерживается, есть недопустимые поля в заголовке, N-порт недоступен.
- Too long - Данный парамер показывает количество кадров, у которых размер стал больше максимально-допустимого (36 байт + размер кадра данных). Переменная от 0 до 2112 это размер кадра данных. LLI так же учитывает эти ошибки. Из практики могу сказать, что FC кадры максимум 2148 байт. Если EOF поврежден то, генерируется слишком длинная ошибка.
- fbsy - показывает, что кадры не могут быть доставлены из-за загрузки порта
- pcs err - Количество ошибок блоков физического подуровня кодирования (PCS). Данный счетчик есть только на портах со скоростью 10 Гбит/с или 16 Гбит/с
✅ 14:40:45,2024.10.25 : SC5020 : SC5020_Dell: DEVICE GLOBAL STATUS : Ok (3) Восстановлено
На этом у меня все, с вами был Иван Сёмин, автор и создатель IT портала Pyatilistnik.org.
Дополнительные ссылки
- https://www.dell.com/support/kbdoc/en-vn/000028053/how-to-interpret-sfp-transceiver-tx-and-rx-power-levels-as-part-of-troubleshooting-the-sfp-transceiver
- https://www.rcannings.com/sfpshow-fault-finding-on-brocade-fibre-channel-switches/
- https://www.dell.com/support/kbdoc/en-us/000037925/emc34505-connectrix-b-series-how-to-interpret-the-brocade-porterrshow-output-and-what-do-the-counters-mean