Высокая температура CPU на серверах Dell
Добрый день! Уважаемые читатели, за что я люблю свою профессию, что она никогда не статична и постоянно позволяет заняться траблшутингом и потренировать серые клеточки головного мозга. Не так давно на серверах Dell EMC PowerEdge R840 система мониторинга очень часто стала присылать предупреждения в виде высокой температуры на двух CPU, свыше 95 градусов, что является не очень хорошо. Хоть такие скачки и были кратковременные, все же это неприятно. Ниже я поделюсь опытом, как мне удалось вернуть ее в привычное русло, и что нового придумала компания Dell.
Пиковые скачки температуры на процессорах Dell EMC PowerEdge R840
Серверы Dell EMC PowerEdge R840 отличает, например от моделей PowerEdge R740, то что в них 4 процессора.
Именно по процессорам CPU1 и CPU2 я стал получать вот такие предупреждения от Zabbix. Обратите внимание, что данные два процессора находятся в задней части сервера.
idrac-mssql.root.pyatilistnik.org : CPU1 Temp: Temperature is above critical threshold: >95 This trigger uses temperature sensor values as well as temperature sensor status if available
Если обратиться к небольшому временному периоду работы сервера, то график температуры процессора CPU1 выглядит вот так. Средняя температура 85 градусов. что уже много, есть пики до 95 и выше градусов.
Почему стала высокая температура процессоров на сервере Dell
На сайте производителя оборудования есть статья, где разбирается подобная ситуация.
https://www.dell.com/support/kbdoc/en-us/000123186/tmp0203-cpu-temperature-is-greater-than-the-upper-critical-threshold
Данная ситуация связана с новыми версиями IDRAC9 версии, где CPU может превышать верхний критический порог, это следствие высокой нагрузки на процессор, либо пика. Например, сервер, работающий с загрузкой 50–60 % и достигающий пиков загрузки 100 % в течение 5–20 секунд, может на короткое время превысить верхний критический порог для температуры CPU.
В моем случае Dell EMC PowerEdge R840 действительно иметь IDRAC9 и если проанализировать ситуацию. то она стала появляться после последней квартального обновления прошивок и IDRAC.
iDRAC Firmware Version 7.00.00.171
Как снизить температуру CPU на серверах Dell PowerEdge
Чтобы вернуть температуру процессоров в привычное русло, у вас есть возможность поиграться с профилем производительности и скоростью вентиляторов. В интерфейсе IDRAC перейдите в раздел.
Configuration - System Settings - Cooling Configuration
У вас тут будет два пути. Первый это поиграться с профилем "Thermal Profile Optimization". На выбор будет несколько вариантов.
- Default Thermal Profile Settings - Это самый оптимальный режим, с моей точки зрения, забегая вперед у меня он оставлен. Тут все сбалансировано по производительности и энергопотреблении.
- Maximum Persormance (Performance Optimized) - Тут приоритет идет на производительность, как побочный эффект будет больше шума, больше тепла и потребление электроэнергии.
- Minimum Power - Режим экономии электроэнергии. Будет понижена производительность сервера. Из положительных эффектов меньше выделения тепла и шума.
- Sound Cap - нацелен на снижение уровня шума, создаваемого сервером. В этом режиме вентиляторы работают с меньшей скоростью, что помогает уменьшить шум, но может привести к повышению температуры компонентов.
Мой путь, это баланс увеличения скорости вращения вентиляторов. Для этого есть настройки "Fan Speed Offset". У вас тут будет 4 варианта.
- Low - При выборе данного режима вентиляторы будут работать на низкой скорости (25%)
- Medium - предлагает сбалансированное решение между производительностью и уровнем шума. Вентиляторы работают на средней скорости (50%)
- High - тут вентиляторы будут работать на 75%
- Max - это режим максимальной производительности 100%
Еще может быть интересным - Методы определения ID и номера сеанса пользователя на терминальном сервере
В результате я оставляю у "Fan Speed Offset" режим "Medium". Дополнительно обратите внимание есть настройка "Minimum Fan Speed in PWM (% of Max)", он определяет минимальную скорость вращения вентиляторов в процентах от их максимальной скорости при использовании широтно-импульсной модуляции (PWM). При необходимости можно поменять Minimum Fan Speed (Default, 14-100%)
Внимание! Average Fan Speed будет равен Minimum Fan Speed + Fan Speed Offset. Т.е. 50% + 14% будет равен 64%
В результате таких настроек мне удалось существенно снизить температуру на CPU1 и CPU2. Средняя стала 60 градусов, минимальная 51 градус, максимальная 80 градусов.
Управление профилем Thermal Profile Optimization и Fan Speed Offset через консоль
Если вы предпочитаете управление настройками сервера с помощью ssh, то вот вам команды. Для, того чтобы посмотреть текущий профиль Thermal Profile Optimization вы можете выполнить команду:
racadm get thermal
Для смены выполните:
racadm set System.ThermalSettings.ThermalProfile 1
- 0 - Default Thermal Profile Settings
- 1 - Maximum Performance
- 2 - Minimum Power
- 3 - Sound Cap
Для управления профилем Fan Speed Offset выполните:
racadm set System.ThermalSettings.FanSpeedOffset 2
- 0 - Low
- 1 - High
- 2 - Medium
- 3 - Max 255 - Off
Надеюсь вам поможет этот опыт продлить жизнь вашим серверам Dell EMC PowerEdge R840 и снизить нагрузку на систему мониторинга, и как следствие быть более спокойным и уверенным за оборудование. С вами был Иван Сёмин, автор и создатель портала Pyatilistnik.