Высокая нагрузка на вентиляторах Dell SC5020
Добрый день! Уважаемые читатели. Последнее время я часто пишу про системы хранения данных Dell, решил наконец-то записать все интересные ситуации, проблемы и их решения, так как долго откладывал это дело. На днях мне из сервисного обслуживания вернули отремонтированную СХД Dell SC5020, у нее были проблемы с перезагрузкой контроллеров. В результате подрядчики починили данную проблему. После ее монтажа и ввода в эксплуатацию, через мы заметили, что она очень сильно шумит, будто боинг при взлете. Начав диагностику мы выяснили, что показатель RPM на вентиляторах был в потолок. Давайте я покажу, какие причины тут могут быть и что можно сделать своими силами, а что с помощью подрядчиков и вендора.
Почему сильно гудит Dell SC5020
Давайте немного опишу фактуры и потом поговорим про действия которые вы можете предпринять для решения вашего вопроса. Как я писал выше одно из систем хранения данных стала очень сильно шуметь кулерами, что работала по звуку как целая стойка. На момент появлении проблемы она уже была в боевом режиме около недели. Так как все это добро стоит в ЦОДе, то о данном нюансе я узнал не сразу.
- Первое, что вы должны сделать, это конечно же изучить логи и посмотреть статусы в веб-интерфейсе контроллеров. На главном дашборде все статусы были в норме
- Далее раз дело было связано с шумом от вентиляторов, то я отправился в соответствующий раздел, по пути "System - Fan Sensors". Тут у меня у меня было 4 вентилятора. Все они имели зеленый статус. У вентиляторов есть такой показатель RPM.
RPM - (Revolutions Per Minute) — это единица измерения, которая обозначает количество оборотов вентилятора за одну минуту. В контексте вентиляторов, RPM указывает на скорость вращения лопастей вентилятора.
Revolutions Per Minute показывает 12 840 оборотов, что допустимо по верхнему уровню "Upper Normal Threshold" (До 18 000 оборотов), другими словами еще было 6000 оборотов в запасе.
- Далее я решил проверить сенсоры температуры. Найти их можно в разделе "System - Hardware - Temp. Sensors". Тут я также проверил все компоненты на предмет перегрева, но все были в зеленой зоне.
- У любого контроллера Dell SC520 есть еще BMC модули управления, это такой аналог IDRAC на серверах PowerEdge. Тут я так же отправился проверять "Fan Status". И вот тут меня ждал сюрприз. Оказалось, что все 4 вентилятора вертелись на максимальном PWM.
В iDRAC9 параметр Minimum Fan Speed in PWM (Pulse Width Modulation) (% of Max) определяет минимальную скорость вращения вентиляторов в процентах от их максимальной скорости.
Так как вентиляторы у меня с PWM, то контроллер посчитал, что нужно установить минимальную скорость вращения в 99% от максимальной, поэтому чем выше процент, тем быстрее вентилятор будет вращаться.
- Для сравнения показателей PWM и RPM я отправился на соседнюю систему хранения данных, той же модели. Там PWM был 44%, а RPM 5400 оборотов, что кратно меньше.
Читайте так же - Как управлять скоростью вращения вентиляторов на серверах Dell PowerEdge
Как сделать Dell SC5020 потише и уменьшить RPM
Начав разбираться и изучать опыт других коллег, я понял что не единственный кто с этим столкнулся, у коллег вентиляторы, похоже, работают на полную мощность 24 часа в сутки, 7 дней в неделю.
https://www.dell.com/community/en/conversations/compellent/compellent-scv2020-running-fans-at-full-speed-247/647f7721f4ccf8a8de536d87
В их случае помогла перезагрузка BMC модулей, я думал в том же направлении, и заведя тикет к своим подрядчикам они подтвердили данную информацию.
Хочу отметить, что данные перезагрузки BMC модулей никак не затронут работу дисковых массивов. Вы можете это делать штатно.
- Включаем SSH на BMC модуле
- Производим перезагрузку первого модуля с помощью команды
platform bmc cold_reset
- Далее дожидаемся его загрузки. Дадим ему поработать минут 5. в фоне можете проверить вывод вот такой команды
platform bmc show
- Если все хорошо, то переходим к перезагрузке второго BMC модуля, команды те же. После чего обязательно проверьте его статус.
Если вы не хотите использовать консольные команды, то же самое можно сделать и в веб-интерфейсе. Переходим в раздел "Overview - Server - Power / Thermal" и в "Power Control" находим пункт "Power Cycle System (Cold Boot)".
Power Cycle System (Cold Boot) — используется в случаях, когда система зависла или не отвечает, а также при необходимости устранения аппаратных проблем. Этот процесс может помочь восстановить нормальную работу системы, особенно если она не реагирует на команды или находится в нестабильном состоянии. Процесс полного отключения питания от системы с последующим его включением. Это приводит к полной перезагрузке всех компонентов системы и инициализации оборудования.
После полной перезагрузки обоих BMC модулей, показатели PWM и RPM пришли в норму.
Дополнительные методы по устранению проблем с высокими PWM и RPM
- Если вам не помогла перезагрузка BMC модулей, то я предлагаю вам рассмотреть вариант обновления прошивки. В моем случае уже установлена самая последняя из доступных версий.
- Так же попытаться обновить прошивки на контроллерах и перезапустить их.
- Если вам повезло и у вас есть сервисный контракт, который позволяет обращаться в техническую поддержку, то идем к ним, чтобы они решили вашу проблему.
Дополнительные полезные команды
platform fans show - Эта команда отображает информацию о вентиляторах в системе. Она показывает состояние вентиляторов, их скорость вращения
platform temp show - выводит информацию о температуре различных компонентов системы, таких как контроллеры, дисковые отсеки и другие критически важные элементы
platform event show - Команда выводит список событий, произошедших в системе, включая предупреждения, ошибки и другие значимые события.
controller show - отображает информацию о контроллерах в системе хранения, включая их состояние, производительность и конфигурацию.
alert show orderby CreateTime - выводит список предупреждений и оповещений, отсортированных по времени создания. Это может включать как текущие, так и исторические уведомления.
abnormal - используется для отображения или анализа аномалий в работе системы. Она может включать информацию о ненормальных состояниях или ошибках.