Высокая температура CPU на серверах Dell

DellДобрый день! Уважаемые читатели, за что я люблю свою профессию, что она никогда не статична и постоянно позволяет заняться траблшутингом и потренировать серые клеточки головного мозга. Не так давно на серверах Dell EMC PowerEdge R840 система мониторинга очень часто стала присылать предупреждения в виде высокой температуры на двух CPU, свыше 95 градусов, что является не очень хорошо. Хоть такие скачки и были кратковременные, все же это неприятно. Ниже я поделюсь опытом, как мне удалось вернуть ее в привычное русло, и что нового придумала компания Dell.

Пиковые скачки температуры на процессорах Dell EMC PowerEdge R840

Серверы Dell EMC PowerEdge R840 отличает, например от моделей PowerEdge R740, то что в них 4 процессора.

Схема материнской платы Dell EMC PowerEdge R840

Именно по процессорам CPU1 и CPU2 я стал получать вот такие предупреждения от Zabbix. Обратите внимание, что данные два процессора находятся в задней части сервера.

idrac-mssql.root.pyatilistnik.org : CPU1 Temp: Temperature is above critical threshold: >95 This trigger uses temperature sensor values as well as temperature sensor status if available

Temperature is above critical threshold

Если обратиться к небольшому временному периоду работы сервера, то график температуры процессора CPU1 выглядит вот так. Средняя температура 85 градусов. что уже много, есть пики до 95 и выше градусов.

График Zabbix по температуре CPU

Почему стала высокая температура процессоров на сервере Dell

На сайте производителя оборудования есть статья, где разбирается подобная ситуация.

https://www.dell.com/support/kbdoc/en-us/000123186/tmp0203-cpu-temperature-is-greater-than-the-upper-critical-threshold

Данная ситуация связана с новыми версиями IDRAC9 версии, где CPU может превышать верхний критический порог, это следствие высокой нагрузки на процессор, либо пика. Например, сервер, работающий с загрузкой 50–60 % и достигающий пиков загрузки 100 % в течение 5–20 секунд, может на короткое время превысить верхний критический порог для температуры CPU.

В моем случае Dell EMC PowerEdge R840 действительно иметь IDRAC9  и если проанализировать ситуацию. то она стала появляться после последней квартального обновления прошивок и IDRAC.

iDRAC Firmware Version 7.00.00.171

Информация из IDRAC9

Как снизить температуру CPU на серверах Dell PowerEdge

Чтобы вернуть температуру процессоров в привычное русло, у вас есть возможность поиграться с профилем производительности и скоростью вентиляторов. В интерфейсе IDRAC перейдите в раздел.

Configuration - System Settings - Cooling Configuration

У вас тут будет два пути. Первый это поиграться с профилем "Thermal Profile Optimization". На выбор будет несколько вариантов.

  • Default Thermal Profile Settings - Это самый оптимальный режим, с моей точки зрения, забегая вперед у меня он оставлен. Тут все сбалансировано по производительности и энергопотреблении.
  • Maximum Persormance (Performance Optimized) - Тут приоритет идет на производительность, как побочный эффект будет больше шума, больше тепла и потребление электроэнергии.
  • Minimum Power - Режим экономии электроэнергии. Будет понижена производительность сервера. Из положительных эффектов меньше выделения тепла и шума.
  • Sound Cap - нацелен на снижение уровня шума, создаваемого сервером. В этом режиме вентиляторы работают с меньшей скоростью, что помогает уменьшить шум, но может привести к повышению температуры компонентов.

Thermal Profile Optimization

Мой путь, это баланс увеличения скорости вращения вентиляторов. Для этого есть настройки "Fan Speed Offset". У вас тут будет 4 варианта.

  • Low - При выборе данного режима вентиляторы будут работать на низкой скорости (25%)
  • Medium - предлагает сбалансированное решение между производительностью и уровнем шума. Вентиляторы работают на средней скорости (50%)
  • High - тут вентиляторы будут работать на 75%
  • Max - это режим максимальной производительности 100%

Еще может быть интересным - Методы определения ID и номера сеанса пользователя на терминальном сервере

Настройки скорости вентиляторов в IDRAC9

В результате я оставляю у "Fan Speed Offset" режим "Medium". Дополнительно обратите внимание есть настройка "Minimum Fan Speed in PWM (% of Max)", он определяет минимальную скорость вращения вентиляторов в процентах от их максимальной скорости при использовании широтно-импульсной модуляции (PWM). При необходимости можно поменять Minimum Fan Speed (Default, 14-100%)

Внимание! Average Fan Speed будет равен Minimum Fan Speed + Fan Speed Offset. Т.е. 50% + 14% будет равен 64%

В результате таких настроек мне удалось существенно снизить температуру на CPU1 и CPU2. Средняя стала 60 градусов, минимальная 51 градус, максимальная 80 градусов.

Как снизить температуру CPU на Dell PowerEdge

Управление профилем Thermal Profile Optimization и Fan Speed Offset через консоль

Если вы предпочитаете управление настройками сервера с помощью ssh, то вот вам команды. Для, того чтобы посмотреть текущий профиль Thermal Profile Optimization вы можете выполнить команду:

racadm get thermal

Для смены выполните:

racadm set System.ThermalSettings.ThermalProfile 1

  • 0 - Default Thermal Profile Settings
  • 1 - Maximum Performance
  • 2 - Minimum Power
  • 3 - Sound Cap

Для управления профилем Fan Speed Offset выполните:

racadm set System.ThermalSettings.FanSpeedOffset 2

  • 0 - Low
  • 1 - High
  • 2 - Medium
  • 3 - Max 255 - Off

Надеюсь вам поможет этот опыт продлить жизнь вашим серверам Dell EMC PowerEdge R840 и снизить нагрузку на систему мониторинга, и как следствие быть более спокойным и уверенным за оборудование. С вами был Иван Сёмин, автор и создатель портала Pyatilistnik.

Оцените статью
Настройка серверов windows и linux
Добавить комментарий