Научная статья на тему 'Энергоэффективность высокопроизводительных вычислительных комплексов: применение двухфазных схем охлаждения'

Энергоэффективность высокопроизводительных вычислительных комплексов: применение двухфазных схем охлаждения Текст научной статьи по специальности «Электротехника, электронная техника, информационные технологии»

CC BY
191
35
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ВЫСОКОПРОИЗВОДИТЕЛЬНЫЕ ВЫЧИСЛИТЕЛЬНЫЕ КОМПЛЕКСЫ / ЭНЕРГОЭФФЕКТИВНОСТЬ / ДВУХФАЗНОЕ ОХЛАЖДЕНИЕ / HIGH PERFORMANCE COMPUTERS / ENERGY EFFICIENCY / COOLING SYSTEMS

Аннотация научной статьи по электротехнике, электронной технике, информационным технологиям, автор научной работы — Амелькин Сергей Анатольевич

Развитие технологий, как в производстве, так и в области обмена и обработки информации, приводит к взрывному росту показателей высокопроизводительных вычислительных комплексов. Рост вычислительной мощности, сопровождаемый увеличением количества процессоров, приводит к повышению потребления электроэнергии, что повышает актуальность задачи энергосбережения. В работе рассмотрены как аппаратные методы увеличения энергоэффективности, так и вопросы построения индекса энергоэффективности, учитывающего основные параметры, влияющие на эффективность системы охлаждения.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по электротехнике, электронной технике, информационным технологиям , автор научной работы — Амелькин Сергей Анатольевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

ENERGY EFFICIENCY OF HIGH-PERFORMANCE COMPUTERS: APPLICATION OF TWO-PHASE COOLING SYSTEMS

The development of technologies, both in production and in the field of information exchange and processing, leads to an explosive growth in the performance of HPC systems. Increase in computing intencity, in the number of processors, leads huge electricity consumption, so the problem of energy conservation becomes an actual problem. The paper considers both hardware methods for increasing energy efficiency and the issues of constructing an energy efficiency index that takes into account the main parameters that affect the efficiency of the cooling systems.

Текст научной работы на тему «Энергоэффективность высокопроизводительных вычислительных комплексов: применение двухфазных схем охлаждения»

ТЕХНИЧЕСКИЕ НАУКИ

ЭНЕРГОЭФФЕКТИВНОСТЬ ВЫСОКОПРОИЗВОДИТЕЛЬНЫХ ВЫЧИСЛИТЕЛЬНЫХ КОМПЛЕКСОВ: ПРИМЕНЕНИЕ ДВУХФАЗНЫХ СХЕМ ОХЛАЖДЕНИЯ Амелькин С.А. Email: Amelkin697@scientifictext.ru

Амелькин Сергей Анатольевич — кандидат технических наук, кафедра международной информационной безопасности, Московский государственный лингвистический университет, г. Москва

Аннотация: развитие технологий, как в производстве, так и в области обмена и обработки информации, приводит к взрывному росту показателей высокопроизводительных вычислительных комплексов. Рост вычислительной мощности, сопровождаемый увеличением количества процессоров, приводит к повышению потребления электроэнергии, что повышает актуальность задачи энергосбережения. В работе рассмотрены как аппаратные методы увеличения энергоэффективности, так и вопросы построения индекса энергоэффективности, учитывающего основные параметры, влияющие на эффективность системы охлаждения. Ключевые слова: высокопроизводительные вычислительные комплексы, энергоэффективность, двухфазное охлаждение.

ENERGY EFFICIENCY OF HIGH-PERFORMANCE COMPUTERS: APPLICATION OF TWO-PHASE COOLING SYSTEMS Amelkin S.A.

Amelkin Sergey Anatolievich — PhD in Technical Sciences, DEPARTMENT OF INTERNATIONAL INFORMATION SECURITY, MOSCOW STATE LINGUISTIC UNIVERSITY, MOSCOW

Abstract: the development of technologies, both in production and in the field of information exchange and processing, leads to an explosive growth in the performance of HPC systems. Increase in computing intencity, in the number of processors, leads huge electricity consumption, so the problem of energy conservation becomes an actual problem. The paper considers both hardware methods for increasing energy efficiency and the issues of constructing an energy efficiency index that takes into account the main parameters that affect the efficiency of the cooling systems. Keywords: high performance computers, energy efficiency, cooling systems.

УДК 004.3 '124 DOI: 10.24411/2312-8089-2020-11903

Эволюция вычислительной техники привела к настолько быстрому росту количества транзисторов в процессорах и их быстродействия, что уже в течение более 50 лет наблюдается экспоненциальный рост производительности процессоров. Эта закономерность была замечена в 1965 году Г. Муром. Для современных суперкомпьютеров уже можно говорить об экспоненциальном росте ядер процессоров, рассматривая их как элементарные объекты, составляющие сложную вычислительную систему. Процессы информационного обмена также характеризуются взрывным ростом объема и требуемой скорости переработки информации. В 2008 году К. Линчем была предложена концепция больших данных как новый уровень информационных технологий. Переход к системам, где количество элементарных объектов становится настолько большим, что теряется возможность индивидуального управления ими, становится одним из основных трендов информационно-технологической инфраструктуры, особенно в отраслях, где наблюдается индивидуальное перемещение ресурсов: экономика и финансовые технологии, здравоохранение, энергосберегающие технологии и пр.

Особенностью сложных систем с большим количеством элементарных объектов (макросистем) является необходимость усреднения информации об индивидуальных потоках ресурсов. Тогда управление сводится к созданию условий, в которых режим работы всей системы будет оптимальным по выбранным критериям эффективности.

Исследования в области оптимального управления макросистемами проводятся уже более 20 лет. В [1] доказано, что максимальная эффективность процессов в макросистемах

достигается, когда эти процессы обратимы, что соответствует бесконечно низкой скорости процессов. В случае, когда интенсивность процессов ограничена снизу, оптимальный режим работы соответствует минимальной необратимости процессов.

Эти результаты были практически применены для термодинамических и экономических макросистем [2]. Задачи энергосбережения и устойчивого развития в то время были и сейчас остаются основными задачами технологического развития. В условиях глобального поворота к цифровизации экономики технологическое развитие непосредственно связано с успехами в создании высокопроизводительных вычислительных комплексов (суперкомпьютеров). Многие задачи, например, масштабные исследовательские проекты в области медицины (в частности, моделирование молекулярных процессов в живой клетке), инженерные расчеты (среди них -сложнейшие проблемы вихревой аэродинамики и анализа процессов горения), а также астрофизики, материаловедения, энергетики и многих других областей, требуют настолько большой интенсивности вычислений, что справиться с ними возможно только при использовании суперкомпьютеров. Взрывное развитие технологий производства вычислительных устройств привело к тому, что современные высокопроизводительные вычислительные комплексы, в том числе суперкомпьютеры, стали потреблять энергии на поддержание приемлемой температуры процессоров столько же, сколько тратят сами процессоры [3]. Встала задача найти термодинамически оптимальный режим работы суперкомпьютера, чтобы снизить его энергопотребление. Решение этой задачи является необходимым условием перехода на экзафлопсный уровень развития суперкомпьютеров (то есть построение вычислительных комплексов, обеспечивающих 1018 операций с 64-разрядными числами стандарта IEEE в секунду в тестовой залаче решения системы линейных алгебраических уравнений H gh-perf rma e L pa k). В перечне основных проблем построения наиболее мощных суперкомпьютеров энергосбережение - это проблема № 1 [4]. Действительно, процессоры не производят механическую работу: вся получаемая ими энергия переходит в теплоту, и эту теплоту надо удалить за пределы машинного зала, то есть организовать своего рода холодильную машину, поддерживающую требуемую температуру процессоров. Чем больше процессоров, чем плотнее они установлены в вычислительном комплексе - тем больше энергии будет необходимо для работы такой холодильной машины, и ограничениями являются низкая теплоемкость воздуха и низкий коэффициент теплоотдачи при контакте нагретой поверхности с обтекающим ее воздухом.

Рост коэффициента теплоотдачи возможен при увеличении скорости протекания воздуха, увеличении площади поверхности за счет установки радиаторов и увеличения разности температур процессора и хладагента. Традиционное решение в системах охлаждения вычислительных систем - организация потока предварительно охлажденного воздуха через радиаторы с большим количеством ламелей. От скорости потока линейно зависит интенсивность теплоотдачи с единицы площади при фиксированной разности температур. Однако снижать температуру хладагента, постоянно увеличивать его скорость, мощность вентиляторов и размеры радиаторов невозможно. Физические пределы эффективности воздушной технологии охлаждения для мощных суперкомпьютеров практически достигнуты.

Эффективность энергопотребления учитывается показателем PUE (Power usage effectiveness - эффективность использования мощности), который равен отношению всей потребляемой суперкомпьютером электрической мощности к мощности, поступающей непосредственно на вычислительные платы. С увеличением вычислительной мощности PUE растет нелинейно: чем больше операций может совершить суперкомпьютер в секунду, тем значительнее растет PUE. У мощных, охлаждаемых воздухом вычислительных комплексов среднее значение PUE преодолело уровень 1,7. Отвести и рассеять 1 кВт тепла можно с помощью вентиляторов общей мощностью 100 Вт непосредственно в рабочем помещении (PUE = 1,1). Утилизация 1 МВт тепла требует затраты более 0,6 МВт электроэнергии (соотношение уже 1 к 0,6 и PUE растет до 1,6), а при потребляемой мощности более 10 МВт электроэнергии на систему охлаждения потребуется больше, чем на собственно вычислительный процесс [5].

Воздушные системы охлаждения - самые простые, при небольших вычислительных мощностях они удобны, так как неограничен запас хладагента. Но для суперкомпьютеров использование воздуха требует его специальной подготовки из-за постоянно возникающих проблем, основные из которых:

1. Сложная форма, абразивность, электрический заряд частиц пыли в воздухе формируют устойчивую пылевую оболочку на радиаторах, вентиляторах, процессорах с хорошими теплоизоляционными свойствами, которая не поддается полному удалению. Очистка воздуха энергозатратна.

2. Потоки холодного и нагретого воздуха хаотично перемешиваются при наличии большого количества процессоров, что увеличивает необратимость процесса охлаждения и, как результат, требует дополнительных затрат на охлаждение или на организацию потоков воздуха.

3. У ряда особенно чувствительных элементов (в том числе процессоров), а также разъемов с повышением температуры и запыленности существенно ухудшаются параметры работы.

4. Увеличение количества вентиляторов и времени их работы ведет к повышению шума, особенно высокочастотного. Приемлемый уровень шума в машинном зале сегодня принят равным 75 дБ [6]. Людям приходится кричать, чтобы общаться, и стандартами предусматриваются дополнительные работы и затраты по шумоизоляции. Крупный вычислительный центр сегодня - это дорогие капитальные помещения с очисткой, кондиционированием, циркуляцией и конвекцией воздуха для охлаждения процессоров и плат, построенные и эксплуатируемые по специальным нормам.

Для решения вышеназванных проблем разрабатываются энергосберегающие процессоры и графические процессоры, которые позволяют на каждый ватт потребляемой электрической мощности проводить все больше операций в секунду. Пять лет назад такой показатель эффективности (GFW - g gaf p per watt) составлял 0,2-1,0 Гфлопс/Вт, сейчас он превышает 10,0 Гфлопс/Вт. Известны разработки процессоров эффективностью до 20,0 Гфлопс/Вт [7]. Можно и здесь говорить об экспоненциальном тренде увеличения показателя GFW. Но если удвоение GFW для суперкомпьютеров с наиболее высокой вычислительной производительностью соответствует 4 - 5 годам, то количество процессоров и вычислительная мощность суперкомпьютеров из T p 10 мирового рейтинга удваиваются каждые 2 - 3 года. Улучшение качества процессоров и переход на иные принципы работы вычислителей не сопровождаются такими же по эффективности решениями по утилизации тепла с помощью вентиляции. Реализация возможностей вычислительной производительности новейших процессоров становится все затратнее.

В 2014 году правительство США опубликовало список десяти наиболее важных исследовательских задач по достижению экзафлопсной скорости вычислений. Среди этих задач есть проблемы создания сверхбыстрой связи между процессорами, разработка алгоритмов параллельных вычислений, создание новых методов математического моделирования, но первой, самой важной задачей выделена разработка энергоэффективной системы охлаждения суперкомпьютеров. Без решения этой задачи технологический прорыв невозможен: увеличение производительности суперкомпьютеров в 2 раза приводит к увеличению затрат на охлаждение в 5 - 10 раз.

Отказ от воздушного охлаждения, перевод вычислительных комплексов в жидкую среду -основной путь интенсификации охлаждения. Коэффициент теплоотдачи от твердого тела к жидкому хладагенту в сотни раз выше, чем у воздуха, а при кипении - еще на порядок выше, что существенно ускоряет отведение тепла.

В настоящее время развиваются следующие технологии охлаждения с использованием жидкостей:

1. Контактное охлаждение - нагревающийся элемент электроники непосредственно контактирует с раствором дистиллированной воды с пропиленгликолем, исключающим коррозию.

2. Погружной подход. Нагревающиеся компоненты полностью погружаются в жидкий теплоноситель, в качестве которого используются диэлектрические жидкости - минеральные или синтетические масла, безопасные для электроники и персонала.

3. Двухфазные системы охлаждения, в которых платы с нагревающимися компонентами вычислительного комплекса, установленные в герметичной капсуле, погружены в жидкость. Температура кипения охлаждающей жидкости в таких системах выбирается такой, чтобы в рабочем режиме на поверхности процессоров происходил фазовый переход (кипение жидкости). Образующийся пар конденсируется в конденсаторе, расположенном в верхней части капсулы, таким образом, замыкая цикл охлаждения.

Двухфазное охлаждение вычислительных плат - революционное решение проблемы утилизации тепла. Отбор тепла в жидкости значительно интенсивнее, а когда жидкость находится в состоянии кипения, теплоотдача становится настолько интенсивной (300 кВт/м2 при разности температур 30°С), что можно отказаться от радиаторов на процессорах - площади процессора 1,6-10-4 м2 достаточно, чтобы передать при такой разности температур до 480 Вт. Затраты электроэнергии для работы насосов становятся очень небольшими, поскольку в двухфазной системе охлаждающая жидкость не нуждается в перемешивании. Отпадает необходимость осушки и очистки воздуха, а значит, не нужно строить специальные здания.

Шум становится приемлемым для организации офиса прямо в машинном зале (40 дБ на расстоянии 1 м) или, наоборот, установки высокопроизводительной вычислительной установки прямо в офисе. Пыль не собирается на поверхностях платы, поэтому вычислительная установка работает надежнее.

Однако температура охлаждающей жидкости не является постоянной и равной температуре кипения во всех точках капсулы, так как вблизи процессоров она перегревается, а в конденсаторе - переохлаждается. Разность температур охлаждающей жидкости составляет 5 -7°С. Таким образом, возможно существование градиента температур в объеме жидкой фазы охлаждающей жидкости. Расчеты оптимальных режимов теплообмена [8] показывают, что минимальное производство энтропии, а значит, минимальная необратимость процесса теплопередачи соответствуют режиму идеального перемешивания, то есть такому режиму, когда температура охлаждающей жидкости постоянна во всем объеме капсулы (градиент температуры тождественно равен нулю).

В реальных условиях достичь идеального перемешивания невозможно. При заданной величине среднего значения градиента следует обеспечить возрастание температуры по оси г капсулы. Для этого применено конструкторское решение: охлажденная на конденсаторе жидкость стекает в специальный резервуар (Рис. 1). За счет выравнивания уровня жидкости в сообщающихся сосудах мы таким образом обеспечиваем постоянный приток охлажденной жидкости в нижнюю часть капсулы и формируем профиль температур в жидкой фазе хладагента, соответствующий минимальному приросту энтропии.

Рис. 1. Вид корпуса двухфазной системы охлаждения вычислительного комплекса: 1 — резервуар для размещения вычислительных плат, 2 — резервуар для охлажденной жидкости, 3 — конденсатор, 4 — капельник для отвода охлажденной жидкости

Оценка термодинамического совершенства систем охлаждения высокопроизводительных вычислительных комплексов на основе производства энтропии позволяет учесть не только распределение затрат энергии, но и условия, в которых работает суперкомпьютер. Действительно, показатель PUE позволяет определить долю энергозатрат на вычисления в общих затратах энергии, он аналогичен КПД холодильной машины: чем более совершенна система охлаждения, тем ближе PUE к единице, при снижении эффективности PUE растет. Однако этот показатель не учитывает климатические особенности расположения вычислительного комплекса. При увеличении температуры окружающей среды величина PUE возрастает, таким образом, один и тот же высокопроизводительный вычислительный комплекс с той же системой охлаждения, установленный в различных климатических зонах, покажет разные значения PUE. Кроме того, показатель PUE не зависит от вычислительной мощности суперкомпьютера, он характеризует только эффективность системы охлаждения. Именно поэтому в рейтинговых суперкомпьютерных базах [7] используют показатель GFW (отношение

z

У

х

вычислительной мощности вычислительного комплекса в Гфлопс к затратам энергии на вычисление в Вт), который, в противоположность PUE, определяет энергоэффективность вычислителей вне зависимости от инфраструктуры и климатических особенностей окружающей среды, в которую утилизируется тепло. Все параметры энергоэффективности высокопроизводительного вычислительного комплекса могут быть учтены при расчете удельного (на единицу вычислительной мощности) производства энтропии:

QTR = y TR,

где: q2 - энергия, подаваемая для организации работы инфраструктуры, прежде всего, системы охлаждения высокопроизводительного вычислительного комплекса (Вт), T - средняя максимальная температура окружающей среды (К), R - вычислительная мощность вычислительного комплекса (Гфлопс) Результаты расчета энергоэффективности ряда отечественных разработок представлены в таблице 1.

Таблица 1. Энергоэффективность высокопроизводительных комплексов в России

Место размещения Суммарная мощность вычислителя, кВт Суммарная заявленная мощность, кВт Производительность (Tflop/s), Linpack Средняя максимальная температура июня, 0С Индекс QTR, кВт/(К Тфлопс)

Санкт-Петербург, Суперкомпью терный центр СПбПУ 505,0 580,0 1230,0 20,0 0,208

Москва, МСЦ РАН 181,0 222,7 383,2 22,0 0,369

Екатеринбург, Вычислительн ый центр ИММ УрО РАН 117,0 132,0 109,9 23,0 0,461

Новосибирск, ИВМиМГ СО РАН 40,0 48,0 38,2 22,9 0,708

Челябинск, ЮУрГУ 215,0 294,0 288,2 24,0 0,922

Новосибирск, ИВМиМГ СО РАН 110,0 129,6 21,9 22,9 3,022

Владивосток, ИАПУ ДВО РАН 30,0 47,0 11,8 22,0 4,884

Москва, МСЦ РАН 17,3 100,0 53,5 22,0 5,240

Москва, МСЦ РАН 12,2 100,0 45,9 22,0 6,486

Томск, МСЦ ТГУ 113,7 300,0 78,3 22,3 8,059

Москва, МСЦ РАН 271,7 600,0 119,9 22,0 9,280

Черноголовка, ИПХФ РАН, ННЦРАН 205,0 280,0 14,5 21,0 17,593

Ожидаемая энергоэффективность погружных систем составляет 0,1 кВт/(К Тфлопс), а для высокопроизводительных вычислительных комплексов с двухфазными системами охлаждения - около 0,3 кВт/(К Тфлопс).

Развитие методов анализа макросистем позволяет не только найти оптимальный алгоритм обработки больших данных, определить условия устойчивого развития региона и построить модель технологического процесса, но и разработать оптимальную конструкцию погружного

суперкомпьютера, на котором, вполне вероятно, будут вестись расчеты максимальной эффективности макросистем.

Список литературы / References

1. Розоноэр Л.И. Обмен и распределение ресурсов (обобщенный термодинамический подход) // I, Автоматика и телемеханика, 1973. № 5. С. 115-132.

2. Цирлин А.М. Математические модели и оптимальные процессы в макросистемах. М.: Наука, 2005.

3. Боссерт Ш. ЦОД как на ладони [Электронный ресурс]. // Журнал сетевых решений/LAN,

2012. № 02. Режим доступа: https://www.osp.ru/lan/2012/02/13012848/ (дата обращения: 01.10.2020).

4. McMorrow D. Technical Challenges of Exascale Computing. JASON. The MITRE Corporation,

2013.

5. Тютляева Е.О., Одинцов И.О., Московский А.А., Мармузов Г.В. Тенденции развития вычислительных узлов современных суперкомпьютеров // Вестник ЮУрГУ. Серия: Вычислительная математика и информатика, 2019. Т. 8. № 3. С. 92-114.

6. СН 2.2.4/ 2.1.8.562-96 Шум на рабочих местах, в помещениях жилых, общественных зданий и на территории жилой застройки. Санитарные нормы.

7. The 55th edition of the T0P500. [Электронный ресурс]. Режим доступа: https://www.top500.org/lists/top500/2020/06/ (дата обращения: 01. 10.2020).

8. Миронова В.А., Амелькин С.А., Цирлин А.М. Математические методы термодинамики при конечном времени. М.: Химия, 2000.

i Надоели баннеры? Вы всегда можете отключить рекламу.