УДК 004.001.85
ПРАВДА, ИСКАЖАЮЩАЯ ИСТИНУ. КАК СЛЕДУЕТ АНАЛИЗИРОВАТЬ TOP500?1
С.М. Абрамов
После каждого выпуска рейтинга Top500 выполняются подсчеты и публикуются суждения, вида: «Подавляющее большинство суперкомпьютеров списка Top500 используется в промышленности». Появляются и другие подобные подсчеты и суждения о долях в списке Top500 разных типов процессоров, различных типов интерконнекта, производителей суперкомпьютеров, стран и т.п. Часто на базе подобных суждений принимаются серьезные решения, в том числе и на правительственном уровне.
В данной работе показано: все, что фиксируется в подобных суждениях — правда, однако эта правда серьезно искажает истину и не отражает истинное положение дел в суперкомпью-терной отрасли. Кроме того, дается анализ причины серьезного отличия «правды» от «истины», приводятся методика корректного анализа данных Top500 и результаты такого анализа.
Ключевые слова: рейтинг Top500, использование суперкомпьютеров, высокопроизводительные вычисления.
Введение
Начиная с июня 1993 года, два раза в год публикуется список пятисот самых мощных суперкомпьютеров мира — мировой рейтинг Top500. Всего за истекшие 20 лет появилось сорок выпусков Top500. Каждая публикация рейтинга является серьезным новостным событием, а также поводом для анализа состояния и тенденций суперкомпьютерной отрасли. (Здесь и далее используется широкое толкование суперкомпьютерной отрасли, что включает исследование, разработку, изготовление, эксплуатацию суперкомпьютерных технологий и охватывает аппаратные решения, программное обеспечение — системное, инструментальное, прикладное — и суперкомпьютерные сервисы).
После выхода новой редакции рейтинга (или одновременно с этим) многие выполняют различные подсчеты и публикуют суждения, основанные на результатах таких подсчетов. Довольно часто подсчеты посвящены вычислению различных долей в списке Top500 — например, вычисляют, какие доли приходятся на различные области применения суперкомпьютеров из Top500, или какие доли приходятся на суперкомпьютеры, использующие те или иные микропроцессоры. Анализируют и другие процентные распределения: доли различных архитектур, доли производителей суперкомпьютеров, доли стран и т.п.
Среди прочих, таким анализом занимаются и сами издатели рейтинга — на портале Top500 публикуют одновременно и сам список, и плакат, посвященный выходу в свет новой редакции рейтинга. Обратим внимание на плакат, выпущенный в ноябре 2012 года (http://s.Top500.org/static/lists/2012/11/TOP500_201211_Poster.pdf) и рассмотрим диаграмму Installation Type (рис. 1). В диаграмме 40 столбцов — каждый столбец соответствует одному выпуску рейтинга, на один год приходятся два столбца (июнь и ноябрь). Столбец состоит из частей разных цветов; размер частей определяется долями различных
1 Статья рекомендована к публикации Программным комитетом международной научной конференции «Параллельные вычислительные технологии (ПаВТ) 2013».
сегментов применения суперкомпьютеров из соответствующего рейтинга Top500. Различают шесть значений для сегментов применения: Vendor, Research, Industry, Government, Classified и Academic.
Действительно, легко взять полную Excel-таблицу (см. список Top500 за ноябрь 2012 года http://s.Top500.org/static/lists/2012/11/TOP500_201211.xls) и посчитать, сколько суперкомпьютеров в колонке Segment имеют то или иное значение области применения. Результат представлен ниже (табл. 1). Доли, посчитанные в третьей колонке, естественно, в точности соответствуют длинам цветных частей правого столбца диаграммы Installation Type (рис. 1). Тем самым, будет справедливым следующее суждение:
§1 В ноябре 2012 года самая большая часть (49,40 %) суперкомпьютеров использовалась в промышленности (Segment=Industry). При этом индустриальное применение превосходило научное применение (44,2 % = 24,6 % + 19,6 %, Segment=Research и Segment=Academic).
По результатам подобного подсчета для Top500 за ноябрь 2009 года (обратите внимание на столбец, соответствующий ноябрю 2009 года, на рис. 1) можно сказать еще сильнее:
§2 В ноябре 2009 года в промышленности использовалась подавляющая часть (62,4 %) суперкомпьютеров. При этом индустриальное применение значительно (почти вдвое) превосходило применение для научных задач (34 % = 18,2 % + 15,8 %).
Таблица 1
Распределение суперкомпьютеров по «сегментам» применения __________________________(Top500 за ноябрь 2012 г.)_________________________
Применение (колонка «Segment») Количество систем Доля
Vendor 12 2,4 %
Research СО 1 24,6 %
Industry 247 49,4 %
Government 16 3,2 %
Classified 4 0,8 %
Academic 98 19,6 %
ВСЕГО 500 100 %
Подобные вычисления и суждения (§1, §2) сделать легко — для этого не нужно быть большим специалистом, достаточно начальных навыков владения программой Excel. Более того, график Installation Type входит в официальный плакат рейтинга Top500 и очень наглядно иллюстрирует распределение суперкомпьютеров по так называемым сегментам применения и то, как с течением времени меняется это распределение.
И подобные суждения, и график Installation Type широко обсуждаются в различных публикациях, которые читают специалисты, обыватели и лица, принимающие решения. Как результат, суждения, подобные §1 и §2, мы находим в правительственной переписке самого высокого уровня, посвященной суперкомпьютерам. Естественно, в этом контексте на первый взгляд кажутся вполне разумными следующие управленческие решения:
§3 Государственная поддержка должна стимулировать создание суперкомпьютеров в большей степени (почти в два раза) не в научных российских центрах, а в промышленных.
§4 В деле развития российской суперкомпьютерной отрасли представляется правильным перераспределить ресурсы, роли и ответственность с переносом центра тяжести к министерствам и ведомствам, связанным с индустрией, а не с наукой.
§5 При создании суперкомпьютеров следует стремиться к таким долям государственного финансирования и привлекаемых из индустрии внебюджетных средств (ВБС): порядка 35 % от государства, порядка 65 % ВБС от индустрии (см. §2).
Ключевым обстоятельством, обосновываемым в данной статье, является следующее: график Installation Type (рис. 1) и суждения §1, §2 являются правдивыми, но эта правда существенным образом искажает истинное положение дел в суперкомпьютер-ной отрасли. И как результат — сплошь и рядом приводит к ошибочным управленческим решениям.
Рис. 1. Диаграмма «Installation Type» с плаката рейтинга Top500 за ноябрь 2012 г.
Если же посчитать истинные доли (как их вычислять — рассмотрим в последующих разделах), приходящиеся на различные сферы применения суперкомпьютеров (табл. 2), то увидим, что различие между «правдой» (колонка A) и «истиной» (колонка B) оказывается весьма значительным — в разы. Степень искажения истины — самая правая колонка — вычисляется как max(A,B)/min(A,B); она указывает, во сколько раз «правда» приуменьшает (знак «|» перед числом) или преувеличивает (знак «|») «истину».
Столь же разительно отличается от §1 истинное суждение:
§6 В ноябре 2012 года подавляющая доля производительности суперкомпьютеров (77,67 % = 59,23 % + 18,44 %) была использования в науке (Segment=Research и Segment= Academic), что многократно (в 4,4 раза) превосходит долю использования суперкомпьютеров в промышленности (17,56 %, Segment=Industry).
Серьезное (в разы) отличие «правды» от «истины» показывает недопустимость использования графика Installation Type (рис. 1) и суждений §1 и §2 для обоснования любых
управленческих решений. На их основе легко сделать ложные выводы и, как результат, — принять вредные управленческие решения (например, §3 и §4).
Распределение долей вычисляют не только в отношении применения суперкомпьютеров. В общем случае, если суперкомпьютеры некоторой редакции Тор500 каким-то образом разбиты на категории, то процентные доли этих категорий можно посчитать двумя способами:
• А — по общепринятой процедуре, когда вычисляются доли числа суперкомпьютеров (среди всех 500 систем), соответствующих каждой категории;
• В — вычислить истинные доли категорий (методика подсчета обсуждается в разделе 3).
Таблица 2
Истинное распределение долей различных «сегментов» применения суперкомпьютеров
(Top500 за ^ ноябрь 2012 г.)
Сегмент (A) «Правда»: доля систем (табл. 1) (B) «Истина»: истинная доля Степень искажения истины
Research 24,60 % 59,23 % 42,41
Academic 19,60 % 18,44 % 11,06
Vendor 2,40 % 2,22 % 11,08
Industry 49,40 % 17,56 % 12,81
Government 3,20 % 2,00 % 11,60
Classified 0,80 % 0,55 % 42,41
ВСЕГО 100 % 100 %
На основе данных Top500 за ноябрь 2012 года были построены таблицы долевого распределения для следующих категорий:
• табл. 3 — используемая технология интерконнекта: Infiniband, Ethernet, Myrinet или Custom (Custom — интерконнект, коммерчески недоступный на рынке, по крайней мере, как отдельный продукт. Если надо использовать такой, то аналог придется разработать самостоятельно);
• табл. 4 — компания-производитель (IBM, Hewlett-Packard, Cray Inc. и все остальные) .
Во всех рассмотренных случаях очень часто «правда» сильно (в разы) отличается от «истины» (см. правую колонку таблиц). Вот несколько примеров:
• табл. 2 — в колонке «А» доля сегмента Industry преувеличена в 2,8 раза, а доля сегмента Research преуменьшена в 2,4 раза;
• табл. 3 — в колонке «А» доля технологии Infiniband преувеличена в 1,38 раза, доля технологии Ethernet преувеличена в 3 раза, доля коммерчески недоступных решений (Custom) — преуменьшена в 3,25 раз;
Таблица 3
Распределение долей между разными технологиями интерконнектов, используемых в су_______________перкомпьютерах (по сведениям Тор500 за ноябрь 2012 г.)______________
Интерконнект Число систем (A) «Правда»: доля систем в Top500 (B) «Истина»: истинная доля Степень искажения истины
Infiniband 224 44,80 % 32,51 % 11,38
Ethernet 189 37,80 % 12,60 % 13,00
Myrinet 3 0,60 % 0,21 % 12,79
Custom 84 16,80 % 54,68 % 43,25
Всего 500 100 % 100 %
0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
• табл. 4 — в колонке «А» доля компании Hewlett-Packard преувеличена в 2,61 раза, а доля Cray Inc. преуменьшена в 2,8 раза.
Таблица 4
Распределение долей между производителями суперкомпьютеров (Top500 за ноябрь 2012 г.)
Компания- Число (A) «Правда»: (B) «Истина»: Степень
производитель систем доля систем истинная искажения
в Top500 доля истины
IBM 193 38,60 % 40,84 % 41,06
Hewlett-Packard 146 29,20 % 11,18 % 12,61
Cray Inc. 31 6,20 % 17,39 % 42,80
прочие 130 26,00 % 30,59 % 41,18
Всего 500 100 % 100 %
Какой должна быть корректная методика вычисления истинных долей? По какой причине «правда» так сильно отличается от «истины»? Всё это будет рассмотрено ниже:
• в разделе 2 обсуждаются основные определения и понятия;
• в разделе 3 определяется методика вычисления истинных долей;
• в разделе 4 обсуждается причина сильного отличия «правды» от «истины»;
• в разделах 5-8 исследуются истинные доли для таких понятий, как «сегменты применения суперкомпьютеров», «технологии процессоров, используемых в суперкомпьютерах», «компании-производители», «технологии интерконнекта»;
• в разделе 9 исследуются позиции России в мировой суперкомпьютерной отрасли.
2. Высокопроизводительные вычисления, суперкомпьютеры
Для того чтобы исключить неверное толкование, приведем используемые нами определения некоторых терминов.
2.1. Производительность
Среди важнейших технических характеристик компьютеров традиционно выделяют производительность — количество операций с плавающей точкой, выполняемых вычислителем за секунду. В качестве единиц измерения служат: гигафлопс (1 GFLOPS = 109 операций в секунду); терафлопс (1 TFLOPS = 1012 операций в секунду); петафлопс (1 PFLOPS = 1015 операций в секунду); экзафлопс (1 EFLOPS = 1018 операций в секунду) и т.д.
Различают:
• пиковую производительность — максимальное число операций в секунду, которое может выполнить установка в идеальном случае — в принципе;
• реальную производительность на некоторой задаче — реальное количество операций, выполненных при решении задачи, деленное на реальное время решения задачи.
Пиковую производительность оценивают теоретически, исходя из состава оборудования компьютера. Реальную производительность измеряют опытным путем, решая на системе некоторую задачу. На разных задачах реальная производительность одного и того же компьютера может быть разной.
Для сравнения производительности различных суперкомпьютеров чаще всего берут реальную производительность на задаче LINPACK (решение системы линейных уравнений с большим числом неизвестных; используется в мировом рейтинге суперкомпьютеров Top500). В последнее время набирают популярность и другие тесты реальной производительности суперкомпьютеров — например, основанные на задачах с интенсивной обработкой данных (так, задача поиска в большом графе в ширину применяется как тест в другом мировом рейтинге суперкомпьютеров — Graph500 [2]).
2.2. Суперкомпьютеры
Отметим интересный факт: если в известной сетевой энциклопедии Wikipedia [3] попытаться посмотреть термин High-performance computing (высокопроизводительные вычисления) , то последует автоматическое перенаправление на страницу Supercomputer. Это верно и для англоязычной, и для русскоязычной версии Википедии. Тем самым, подчеркивается синонимичность понятий «высокопроизводительный компьютер» и «суперкомпьютер».
Дадим формальное определение: к вычислительным системам высокой производительности — суперкомпьютерам — отнесем вычислительные машины, значительно превосходящие по своей реальной производительности большинство существующих компьютеров.
То есть, в каждый момент времени, если среди всех существующих компьютеров отобрать самые мощные — например, 500 самых производительных — то они и определят термин «суперкомпьютер» на данный момент времени. Значит, начиная с июня 1993 года, можно установить тесную связь между понятием «суперкомпьютер» и рейтингом Top500. В принципе можно сказать, что вычислительная система является суперкомпьютером, если она была включена (либо технические показатели позволяли её включить в рейтинг, но это не было сделано по некоторым причинам) в некоторый выпуск рейтинга Top500 — и только в этом случае.
Тем самым, каждую редакцию Top500 можно рассматривать как исчерпывающее описание текущего состояния суперкомпьютерных технологий. А всю совокупность выпусков рейтинга можно рассматривать как исчерпывающую хронологию суперкомпьютерной отрасли за последние 20 лет.
2.3. Top500 — источник знаний о суперкомпьютерной отрасли
Редакции рейтинга Top500 публикуются дважды в год (в июне и ноябре), начиная с июня 1993 года. Рейтинг основан на реальной производительности суперкомпьютеров на задаче LINPACK. Сегодня в открытом доступе [1] имеются данные 40 выпусков рейтинга (с июня 1993 года по ноябрь 2012 года), которые можно выгрузить в виде Excel-таблицы. В этом случае предоставляется самая полная информация.
Если свести все 40 таблиц вместе, то получим таблицу с 40x500 = 20 000 строками и 40 колонками (полями). Имена полей: Accelerator, Accelerator Cores, Application Area, Architecture, Computer, Continent, Cores, Cores per Socket, Country, Efficiency(%), First Appearance, First Rank, Interconnect, Interconnect Family, Manufacturer, Measured Size, Mflops/Watt, Name, Nhalf, Nmax, Operating System, OS Family, Power, Previous Rank, Proc. Frequency, Processor, Processor Cores, Processor Family, Processor Generation, Processor Technology, Rank, Region, RMax, Rpeak, Segment, Site, System Family, System Model, Year.
Профессиональный анализ списков Top500 позволяет строить весьма достоверные суждения о состоянии и перспективах суперкомпьютерных технологий в мире и в России.
Обратим внимание, что при проведении анализа иногда приходится совместно обрабатывать несколько полей одной записи. Так, совместная обработка полей Segment и Application Area позволяет установить область применения суперкомпьютера более точно, чем это указано в поле Segment. Чтобы точнее понять устройство интерконнекта, имеет смысл обрабатывать два поля: Interconnect и Interconnect Family. Для точного определения используемого процессора надо рассмотреть шесть полей: Processor, Processor Family, Processor Generation, Processor Technology, Proc. Frequency, Cores per Socket.
Понятно, что вручную выполнить тонкий анализ такого количества данных (20 000 записей с 40 полями) невозможно. Поэтому автор в 2009 году, в инициативном порядке, создал и до сих пор развивает программу Top500 Analyzer [4] для анализа рейтинга Top500. Все иллюстрации (за исключением рис. 1 и рис. 7) и все данные для расчетов в данной работе подготовлены при помощи этой программы.
2.4. О частичной неполноте и частичной недостоверности Top500
Время от времени появляются публикации [5], указывающие на частичную недостоверность данных в Top500: установки могут попадать в рейтинг еще до того, как они реально созданы, или оставаться в рейтинге, прекратив свое существование. Бывает.
Кроме того, всегда и во всех странах существуют суперкомпьютеры, которые не включают в рейтинг Top500 из соображений государственной безопасности или по каким-то другим причинам. Значит можно говорить о частичной неполноте данных в рейтинге Top500.
Однако можно предполагать, что эти обстоятельства:
• не существенны;
• более-менее равномерно влияют на различные категории суперкомпьютеров.
Тем самым, выводимые из данных Top500 относительные оценки оказываются весьма достоверными — подобно тому, что можно вполне достоверно сравнивать между собою айсберги, основываясь на неполной информации, которую дают их надводные (видимые) части.
3. Методика вычисления истинных долей
Зададимся вопросом: почему правильное суждение (абсолютная правда) «В ноябре 2О12 года большая часть (247 из 5ОО) суперкомпьютеров использовалась в промышленности (Segment= Industry)» не может служить основой для вычисления истинной доли индустриального применения суперкомпьютеров «в лоб» — по формуле 247/5ОО = 49,4О %?
Совсем небольшое размышление приводит к правильному ответу: суперкомпьютеры нельзя мерить штуками.
Пять одних суперкомпьютеров могут сильно отличаться от пяти других в любом смысле: в стоимостном (при оценке долей рынка), по технической сложности (при оценке доли в общем количестве процессоров/ядер или доли в общем числе портов интеркон-некта) и т.п.
Вычисляя «истинные доли», следует оперировать не количеством суперкомпьютеров в штуках, а такими количественными характеристиками, которые наиболее верно отражают наиважнейшую характеристику суперкомпьютеров как изделий. Точно так же, например, когда сравнивают торговые флоты разных стран, их измеряют не в штуках, а в суммарном тоннаже.
Самая важная количественная характеристика суперкомпьютеров очевидна (даже просто в силу самого определения понятия «суперкомпьютер», см. раздел 2.2) — это реальная производительность. Конечно, лучше было бы при этом оперировать реальной производительностью на некоторых целевых (интересующих того или иного заказчика) задачах. Но если таких данных нет, то будем довольствоваться LINPACK-производительностью, сведения о которой имеются в записях Top500 — поле RMax.
3.1. LINPACK-производительность, как истинная мера при измерении долей
Реальная производительность — в частности, LINPACK-производительность — главная, определяющая характеристика суперкомпьютеров. По ней разграничиваются суперкомпьютеры от «просто компьютеров». Кроме того, по сравнению со «штуками», LINPACK-производительность гораздо точнее (как увидим далее, разницу можно оценить в два порядка — до 25О раз) коррелирует с такими характеристиками, как
• научно-технический уровень системы;
• стоимость системы (что важно для правильной оценки распределения долей рынка);
• объемы различных подсистем и смежные технические параметры — например, размер подсистемы интерконнекта (количество портов), количество процессоров или ядер и т.п.
Таким образом, мы приходим к методике расчета истинных долей через вычисление доли суммарной L^NPAC'K-производительности.
3.2. Формальное описание метода вычисления истинных долей
Пусть п е [1...40] — номер редакции Тор500, i е [1...500] — позиция, занятая некоторым суперкомпьютером в рейтинге, RMax(n, ^ — £1ЖРАСК-производительность данной системы в п-ой редакции Тор500.
Рассмотрим некоторую категорию суперкомпьютеров — например, все суперкомпьютеры индустриального использования (Segment=Industry). Пусть С = {... i ...} с [1...500] — множество всех позиций, которые суперкомпьютеры из данной категории занимают в пой редакции Тор500.
Истинную долю суперкомпьютеров заданной категории в п-ой редакции Тор500 определим как долю суммарной £1ЖРАСК-производительности суперкомпьютеров данной категории в суммарной £!ЖРАСК-производительности всего списка:
Рассмотрим некоторый подсписок в п-ой редакции Тор500, заданный множеством позиций
1 = {... i ...} с [1...500], — например, первую сотню, то есть Тор1-100: 1 = [1...100].
В п-ой редакции Тор500 истинную долю суперкомпьютеров заданной категории в указанном подсписке определим как долю суммарной £!ЖРАСК-производительности суперкомпьютеров данной категории из подсписка в суммарной £!ЖРАСК-производительности всего подсписка:
1ге(епз) ^Мах{п, р ЯМах{п, С)
4. Причина сильного отличия «правды» от «истины»
Используя обозначения раздела 3.2, посчитаем «правду» — долю категории С по традиционной методике, в штуках:
Таким образом, при такой методике в общую копилку доли категории С каждый суперкомпьютер вносит один и тот же вклад — 0,2 %, вне зависимости от того, крупный это суперкомпьютер или небольшой, дорогой или бюджетный и т.п.
Введем обозначение для доли £!ЖРАСК-производительности одного суперкомпьютера RMax(n, ^ в суммарной £!ЖРАСК-производительности всего списка:
Хієе Ії-Мах(п, і)
І£Є[1..500] КМах{п, і)
Тогда истинную долю категории С можно записать таким образом:
Т.1ее ЯМах(п, О V л -л
Р2 = ^щКМах^, I) = 1РЯМах(п»
Сравним между собою «правду» рг = 0.2 % и «истину» р2 = Т.1еС рЯМах(п, 1).
Ясно, что если бы все суперкомпьютеры не очень сильно отличались бы между собою по ЬЖРАСК-производительности, то все рЯМах(п, 1) были бы близки к 0,2 %, а «правда» рг не сильно бы отличалась от «истины» р2.
Однако суперкомпьютеры в одном и том же рейтинге Тор500 имеют огромный разброс в LINPACK-производительности RMax(n, ^ и, как следствие, огромный разброс рКМах(п, I) — от 10,849 % до 0,047 % для 40-й редакции рейтинга Тор500; то есть, разница в 230 раз!
Такое гигантское расслоение суперкомпьютеров по параметру ЬШРАСК-производи-тельности определяет огромное отличие «правды» от «истины». Это расслоение делает осмысленным введение отдельных уровней (слоев, классов) суперкомпьютеров.
4.1. Различные уровни суперкомпьютерных систем
В работе [6] были введены 4 уровня суперкомпьютеров: Тор1-20, Тор21-100, Тор101-250, Тор251-500. Это позволяет выделить:
1. суперЭВМ в крупнейших национальных центрах — единичные установки в стране, соответствующие местам 1-20 в мировом рейтинге Тор500;
2. суперЭВМ в крупнейших региональных и отраслевых центрах — два-четыре десятка установок в стране, соответствующих местам 21-100 в мировом рейтинге Тор500;
3. суперЭВМ в крупных региональных и корпоративных центрах — от четырех десятков до сотни установок в стране, соответствующих местам 101-250 в мировом рейтинге Тор500;
4. суперЭВМ предприятий и научных учреждений — одна-три сотни установок в стране, соответствующих местам 251-500 в мировом рейтинге Тор500.
В работе [7] предлагается и обосновывается выделение из первого уровня отдельной группы сверхвысокопроизводительных систем: Тор1-10.
Везде далее обсуждаются эти пять уровней суперкомпьютеров: Тор1-10, Тор11-20, Тор21-100, Тор101-250 и Тор251-500.
4.2. Резкое расслоение в суперкомпьютерной отрасли по LINPACK-производительности
Для оценки глубины расслоения суперкомпьютерной отрасли рассмотрим разницу в £!ЖРАСК-производительности у суперкомпьютеров разных уровней (по данным редакции Тор500 за ноябрь 2012 года, табл. 5).
Разница по £!ЖРАСК-производительности самой мощной и самой слабой системы в классе Тор1-20 (20 систем) составляет 16,7 раза (Тор1-10 — 11,6 раза, Тор11-20 — 1,3 раза); в классе Тор21-100 (80 систем) — 4,3 раза, в классе Тор101-250 (150 систем) — всего 2,0 раза, в классе Тор251-500 (250 систем) — 1,4 раза.
Таким образом, системы уровня Тор1-20 (и особенно — системы Тор1-10) радикально отличаются от других, а системы в классах Тор21-100, Тор101-250 и Тор251-500 отличаются друг от друга по производительности не принципиально.
Таблица 3
Разница в £1ЖРАСК-производительности между суперкомпьютерами разных уровней
(Тор500 за ноябрь 2012 г.)
Места в Тор500 LINPACK- производительность, max-min (TFLOPS) Разница LINPACK-производительности, max/min (разы) Разница с LINPACK-производительностью Тор1 (разы)
Тор1-10 17 590 1 515 11,6 1 12
Тор11-20 1 359 1 050 1,3 13 17
Тор21-100 1 043 244 4,3 17 72
Тор101-250 240 111 2,2 73 159
Тор251-500 111 76 1,4 159 230
Наглядно оценить резкое расслоение суперкомпьютерной отрасли сегодня позволяют график функции /{V) = , где £ е [1..500] (рис. 2), а так же график функции
г ч Е£6[1..п] RMax(40’i)
д{п) =--------------—где п е [1. .500] (рис. 3), иллюстрирующий, какую долю суммар-
Л£€[1„500] КМаХ(40Д)
ной ЫЫРАСК-производительности всего списка Тор500 обеспечивают первые п систем из списка. Видно, что глубокое расслоение суперкомпьютерной отрасли является почти точным отражением принципа Вильфредо Парето (этот принцип часто формулируют так: 20 % усилий дают 80 % результата).
Рис. 2. Относительная ЫЫРАСК-производительность г-й системы в Тор500; за 100 % принята ЫЫРАСК-производительность Тор1 (по данным Тор500 за ноябрь 2012 г.)
Подчеркнем, что анализируя приведенные данные (табл. 5, рис. 2, 3), уместно помнить, что отличия (сильные или слабые) суперкомпьютеров по ЫЫРАСК-производитель-ности влекут подобные же (сильные или слабые) отличия по цене, технической сложности, объему оборудования в различных подсистемах суперкомпьютеров.
Рис. 3. Какую долю суммарной LINPACK-производительности всего списка Top500 обеспечивают первые n систем из списка (по данным Top500 за ноябрь 2012 г.)
Например, суммарная стоимость первых 20-ти суперкомпьютеров в Top500 (рис. 3), скорее всего, примерно равна суммарной стоимости остальных 480-ти суперкомпьютеров.
5. Восстановление истины: применение суперкомпьютеров
Выведя и обосновав (раздел 3) методику вычисления истинных долей различных категорий, обсудив (раздел 4) причины серьезного различия истинных долей от долей, рассчитанных в штуках, далее мы, в этом и последующих разделах, проведем исследование долей по различным категориям. Исследования будут выполняться при помощи программы Top500 Analyzer.
5.1. Анализ «сегментов применения суперкомпьютеров»
Начнем с анализа так называемых сегментов применения суперкомпьютеров. Все суперкомпьютеры разбиваются по категориям, в зависимости от указанных значений в поле Segment (в этом поле составители всегда указывают одно из шести значений — Research, Academic, Vendor, Industry, Government, Classified). Соответственно получаем шесть категорий суперкомпьютеров. Диаграмма (рис. 1) долей этих категорий при расчете в штуках входит в официальный плакат рейтинга Top500, опубликованного в ноябре 2012 года. Ниже (рис. 4) показаны для сравнения диаграммы, построенные программой Top500 Analyzer. Левая часть рисунка (доли в штуках) в точности совпадает с диаграммой с официального плаката; правая диаграмма показывает истинные доли сегментов.
Сравнивая левую и правую части рисунка, мы видим, что в левой части доля категории Research существенно занижалась в каждом выпуске рейтинга, а доля категории Industry — существенно преувеличивалась.
«Правда»
«Истина»
Рис. 4. Изменение долей сегментов применения суперкомпьютеров в период с июня 1993 до ноября 2012 г. по данным всех 40 списков Top500.
Слева — доли «в штуках» (от общего числа суперкомпьютеров), справа — истинные
доли (в LINPACK-производительности)
5.2. Анализ областей использования суперкомпьютеров
Понятие «сегмент применения суперкомпьютеров» определяется напрямую значением поля Segment в рейтинге Top500. Кроме этого, в программе Top500 Analyzer поддерживается понятие «область применения суперкомпьютера», которое определяется путем анализа двух полей: Segment и Application Area. В результате программа относит все суперкомпьютеры к одной из четырех категорий:
1. RnD (от английского Research and Development) — использование для фундаментальных исследований и НИОКР;
2. Industry — использование в промышленности и в других областях реальной экономики (например, в индустрии развлечений и т.п.);
3. Gov.Mil — использование для государственных и военных нужд;
4. Unknown — недостаточно информации для отнесения к одной из предыдущих категорий.
Рис. 5. Изменение долей четырех областей использования суперкомпьютеров в период с июня 1993 до ноября 2012 г. по данным всех 40 списков Top500.
Слева — доли «в штуках» (от общего числа суперкомпьютеров), справа — истинные доли (в L/ЖPACK-производительности)
Для данных категорий при помощи программы Top500 Analyzer построены диаграммы (рис. 5). Левая часть рисунка — доли областей использования суперкомпьютеров «в штуках», правая — истинные доли. Сравнивая обе части, легко заметить, что в левой части доля категории RnD существенно занижалась в каждый момент времени, а доля категории Industry — существенно преувеличивалась. Более того, правая часть рисунка явно выявляет тенденцию последних лет на сокращение истинной доли индустриального использования суперкомпьютеров.
При помощи Top500 Analyzer построим для редакции Top500 за ноябрь 2012 года распределение областей использования суперкомпьютеров по пяти уровням суперкомпьютеров: Topl-10, Top11-20, Top21-100, Top101-250 и Top251-500. Поясним структуру этой диаграммы (рис. 6). Левые пять столбцов иллюстрируют истинные доли (доли суммарной LINPACK-производительности — RMax) областей использования отдельно для пяти уровней суперкомпьютеров: от Top1-10 до Top251-500. Площади этих пяти столбцов (а значит и их ширины) пропорциональны суммарной LINPACK-производительности соответствующих уровней суперкомпьютеров: Topl-10, Top11-20, Top21-100, Top101-250 и Top251-500. Таким образом, в данных пяти столбцах площадь любой области — например, области некоторого цвета,— пропорциональна суммарной LINPACK-производительности соответствующего множества суперкомпьютеров.
Предпоследний столбец на рис. 6 имеет некоторую фиксированную ширину и длинами цветовых сегментов отражает истинные доли областей использования для всего списка Top500 — что, по сути, совпадает с правым столбцом в правой части рис. 5. Последний столбец на рис. 6 (он имеет ту же самую фиксированную ширину, что и предпоследний) иллюстрируют доли «в штуках» для всего списка Top500 за ноябрь 2012 года — что, по сути, совпадает с правым столбцом в левой части рис. 5.
Рис. 6. Распределение областей использования суперкомпьютеров по уровням Тор1-10, Тор11-20, Тор21-100, Тор101-250, Тор251-500 (на основании списка Тор500 за ноябрь 2012 г.)
Распределение по уровням (см. левые пять столбцов на рис. 6) позволяет понять резкое отличие «истины» и «правды» (см. два правых столбца на рис. 6) за счет явного изображения «ареалов обитания» каждой категории на различных уровнях суперкомпьютеров. Так, видно, что в промышленности совсем не применяются суперкомпьютеры
первого и второго уровней, а использование систем третьего и четвертого уровней незначительно. То есть, для задач категории Industry в основном задействованы только самые слабые и самые многочисленные системы (пятый уровень, 250 систем с производительностью в 150-230 раз меньше, чем у Topi).
CHIP TECHNOLOGY
1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012
Рис. 7. Диаграмма «Chip Technology» с плаката Top500 за ноябрь 2012 г.
6. Восстановление истины: типы микропроцессоров, используемых в суперкомпьютерах
На плакатах рейтинга Top500 кроме диаграммы Installation Type традиционно размещают диаграмму Chip Technology, отображающую доли используемых в суперкомпьютерах процессоров, изготавливаемых по разным технологиям. На плакате за ноябрь 2012 года (рис. 7) диаграмма состоит из 40 столбцов — каждый столбец соответствует одному выпуску рейтинга, на один год приходятся два столбца (июнь и ноябрь). Каждый столбец состоит из частей разных цветов; размер частей определяется долями различных технологий процессоров из соответствующего рейтинга Top500. Различают восемь значений (категорий) для обозначения технологий процессоров: Alpha, IBM, HP, Intel, MIPS, SPARC, AMD, Proprietary.
Рассматривая эту диаграмму, легко сделать весьма ошибочные суждения, например: §7 По данным на ноябрь 2012 года подавляющая часть (76 %) суперкомпьютеров Top500 построена на процессорах Intel. Отрыв от ближайших преследователей весьма значительный: почти в 7 раз от IBM (11 %) и почти в 6 раз от AMD (13 %).
Для выявления истинного положения построим, с помощью программы Top500 Analyzer, диаграммы долей различных технологий процессоров, используемых в суперкомпьютерах (рис. 8). Чтобы узнать технологию процессора, для каждой записи в Top500 анализируются четыре поля: Processor, Processor Family, Processor Generation, Processor
Technology. Левая часть рисунка — доли «в штуках» — в точности совпадает с диаграммой Installation Type на официальном плакате. Правая диаграмма показывает истинные доли различных технологий процессоров, используемых в суперкомпьютерах.
Рис. 8. Изменение долей различных технологий процессоров, используемых в суперкомпьютерах, в период с июня 1993 до ноября 2012 г. по данным всех 40 списков Top500. Слева — доли «в штуках» (от общего числа суперкомпьютеров), справа — истинные доли (в LINPA CK-производительности)
Налицо явная и весомая разница между «правдой» и «истиной». Разберемся с этой разницей на примере редакции Top500 за ноябрь 2012 года. При помощи программы Top500 Analyzer построим распределение (рис. 9) технологий процессоров по пяти уровням суперкомпьютеров: Top1-10, Top11-20, Top21-100, Top101-250 и Top251-500.
Рис. 9. Распределение технологий процессоров по уровням Top1-10, Top11-20, Top21-100, Top101-250, Top251-500 (на основании списка Top500 за ноябрь 2012 г.)
Видно, что для категории Intel ареал распространения в левых пяти колонках напоминает треугольник, с вершиной слева и с основанием — справа. То есть, процессоры Intel тем лучше представлены в суперкомпьютерах, чем к более слабому уровню они относятся (где суперкомпьютеров по количеству много, но производительность сравнительно слабая). Для категорий IBM, AMD и SPARC ареалы распространения в левых пяти колонках смещены к старшим уровням суперкомпьютеров — где суперкомпьютеров
по количеству мало, а по производительности они мощные. В результате на официальном плакате истинные доли категорий IBM, AMD и SPARC оказались сильно преуменьшены, а доля категории Intel — серьезно преувеличена. Истинное суждение (исправляющее заблуждение §7 будет таким:
§8 К ноябрю 2012 года в суперкомпьютерах Top500 на процессоры Intel приходится значительная доля (44 %). Однако, отрыв от ближайших преследователей не такой уж и большой: IBM (доля — 29 %) отстает в 1,б раза, AMD (20 %) — в 2,2 разa. Заметная доля (7 %) приходится на процессоры SPARC.
Т. Восстановление истины: компании-производители суперкомпьютеров
Теперь проанализируем показатель «компания-производитель»; соответствующее поле в записях Top500 называется Manufacturer. Безусловные лидерские позиции здесь принадлежат трем компаниям, поэтому в программе Top500 Analyzer введем 4 категории (заинтересованный читатель-программист легко может изменить эти установки): Cray — суперкомпьютер изготовлен компанией Cray Inc.; IBM — компанией IBM; HP — Hewlett-Packard; Other — любой другой компанией.
С помощью программы Top500 Analyzer построим диаграммы долей компаний-произ-водителей (рис. 10). Как обычно, левая часть рисунка — доли «в штуках», правая диаграмма показывает истинные доли компаний-производителей. Опять налицо явная и серьезная разница между «правдой» и «истиной». Среди прочего видно, что в последнее пятилетие истинная доля категории HP существенно (в разы) преувеличивается, а доля категории Cray существенно преуменьшается. Основываясь на вычислении долей «в штуках» за ноябрь 2008 года, можно сделать следующее утверждение, которое, несомненно, является правдой:
§9 По данным Top500 за ноябрь 2008 года, компания Hewlett-Packard построила больше суперкомпьютеров, входящих в Top500, чем любая другая — 42 % от общего количества. Ближайшие конкуренты: IBM (37 %, отставание в 1,13 раза) и Cray (б %, отставание в 8,4 раза); все остальные производители, даже вместе взятые, серьезно уступают лидеру (16 %, отставание в 2,6 раза).
Истинное положение дел в ноябре 2008 года серьезно отличается от утверждения §9:
§10 По данным Top500 за ноябрь 2008 года, суперкомпьютеры компании IBM обеспечили 38 % всей суммарной LINPACK-производительности списка Top500. Это серьезно превышает доли ближайших конкурентов. Так, доля суперкомпьютеров компании Hewlett-Packard — 2б % (отставание в 1,б раза), компании Cray — 1б %, всех остальных производителей вместе взятых — 22 %.
Сравнивая эти два утверждения, отметим, что в утверждении §9 истинная доля категории HP была серьезно (в 1.76 раз) преувеличена, истинная доля Cray — серьезно (в 3 раза) преуменьшена; истинная доля категории Others — преуменьшена в 1,4 раза. Кроме того, совершенно неверно указан лидер отрасли.
Уместно напомнить, что отличия суперкомпьютеров по LINPACK-производительности влекут подобные же отличия по цене, технической сложности, объему оборудования в различных подсистемах суперкомпьютеров. Тем самым, утверждение §10 дает лучшее представление о распределении между компаниями долей (в денежном исчислении)
рынка суперкомпьютеров. Именно такая информация важна для потенциальных инвесторов.
Рис. 10. Изменение долей производителей суперкомпьютеров в период с июня 1993 г. до ноября 2012 г. по данным всех 40 списков Тор500.
Слева — доли «в штуках» (от общего числа суперкомпьютеров), справа — истинные доли (в ХЖРАСК-производительности)
Подобные (§9) мнимые признаки абсолютного лидерства в принципе дают компании аргументы для настойчивого продвижения своих решений — даже в тех сегментах, где её позиции на самом деле весьма слабы. Например, это позволяет всерьез обращаться к лицам, принимающим решения, с предложением построить для России суперкомпьютер высшей производительности (Тор1-5), аргументируя данное предложение своим лидерством в суперкомпьютерной отрасли. Для правильной оценки подобных предложений важно знать истинные позиции той или иной компании, причем на различных уровнях суперкомпьютерной отрасли.
Рис. 11. Распределение долей производителей суперкомпьютеров по уровням Тор1-10, Тор11-20, Тор21-100, Тор101-250, Тор251-500 (на основании списка Тор500 за ноябрь 2012 г.)
На примере редакции Тор500 за ноябрь 2012 года разберем распределение систем компаний-производителей по пяти уровням суперкомпьютеров: Тор1-10, Тор11-20,
Top21-100, Top101-250 и Top251-500. На диаграмме (рис. 11) видно, что для категории HP ареал распространения в левых пяти колонках напоминает треугольник, с вершиной в третьем уровне и с основанием в пятом. Суперкомпьютеры Hewlett-Packard вообще отсутствуют в высших двух уровнях (Top1-10, Top11-20), слабо представлены на 3-м уровне (Top21-100), но заметно присутствуют на 4-м и 5-м уровнях (Top101-500) — там, где суперкомпьютеров по количеству много, а по производительности они слабые.
Для категорий Others и особенно Cray ареалы распространения смещены к старшим уровням, где суперкомпьютеров по количеству мало, но производительность их велика. Суперкомпьютеры категории «IBM» занимают сравнимые доли на всех пяти уровнях.
8. Восстановление истины: технологии интерконнекта
Пришел черед проанализировать показатель «используемая технология интерконнекта». Для этого следует принимать во внимание два поля: Interconnect и Interconnect Family.
В программе Top500 Analyzer введем шесть категорий для обозначения технологии интерконнекта. Пять из них явно указывают используемую сетевую технологию: Infiniband, Ethernet, Myrinet, SCI и Quadrics. Все эти технологии являются коммерчески доступными: любой разработчик суперкомпьютеров может отдельно приобрести соответствующие сетевые изделия в период их производства (сетевые адаптеры, коммутаторы, кабели или даже микросхемы для адаптеров и коммутаторов) и на этой базе разрабатывать свои собственные суперкомпьютеры.
Шестая категория — Custom — объединяет технологии, которые нельзя приобрести как отдельные сетевые решения (поясним: можно купить целиком суперкомпьютер IBM Blue Gene, но невозможно купить отдельно интерконнект, который используется в IBM Blue Gene, и на базе такого интерконнекта разработать свой собственный суперкомпьютер). По факту, в категорию Custom попадают различные решения, которые, по сравнению с остальными, имеют более высокие технические показатели и расширенные функциональные возможности; при этом, данные технологии невозможно купить отдельно. Значит, если будет стоять задача создания российского суперкомпьютера с подобным ин-терконнектом, то этот интерконнект (аналог) придется разрабатывать самостоятельно. Естественно, принимая решение о такой разработке, следует ответить на вопросы:
§11 Надо ли тратить ресурсы на разработку российской технологии интерконнекта, подобной представленным в категории Custom? Может быть, коммерчески доступных технологий интерконнекта вполне достаточно для создания всех необходимых отечественных суперкомпьютеров?
Давайте разберемся. С помощью программы Top500 Analyzer построим диаграммы долей технологий интерконнекта (рис. 12). Как обычно, левая часть рисунка — доли «в штуках», а правая диаграмма показывает истинные доли.
И снова мы наблюдаем серьезную разницу между «правдой» и «истиной». Среди прочего видно, что в последние годы истинная доля категории Ethernet существенно (в разы) преувеличивается, а доля категории Custom — существенно преуменьшается. Основываясь на вычислении долей «в штуках», можно сделать следующие утверждения, которые, несомненно, являются правдой:
§12 По данным за ноябрь 2012 года, технологии Infiniband и Ethernet использовались в большинстве суперкомпьютеров, вошедших в эту редакцию рейтинга Top500 (45 %+38 %=83 %). Доли категорий Custom (16,7 %) и Myrinet (0,3 %) незначительны. §13 Немногим ранее ситуация выглядела еще радикальнее. По данным за июнь 2010 года, технологии Infiniband и Ethernet применялись в подавляющем большинстве суперкомпьютеров, вошедших в эту редакцию рейтинга Top500 (41 %+49 %=90 %). Доли категорий Custom (9 %), Myrinet (0,5 %) и «Quadrics Myrinet» (0,5 %) — незначительны.
Рис. 12. Изменение долей различных технологий интерконнекта в суперкомпьютерах в
период с июня 1993 до ноября 2012 г. по данным всех 40 списков Top500.
Слева — доли «в штуках» (от общего числа суперкомпьютеров), справа — истинные доли (в LINPA CK-производительности)
На базе утверждений §12 и §13 легко принять глубоко ошибочное решение по вопросу
§11:
§14 Нецелесообразно тратить ресурсы на разработку российской технологии интерконнекта, подобной технологиям, представленным в категории Custom. При разработке отечественных суперкомпьютеров вполне можно обойтись коммерчески доступными решениями Ethernet и Infiniband.
Истинное положение дел и в ноябре 2012 года, и в июне 2010 года серьезно (многократно!) отличалось от утверждений §12 и §13; на это уже указывалось выше (табл. 3). При этом не только многократно искажены доли технологий интерконнекта, но и неверно указана лидирующая категория: истинным и абсолютным лидером по данным Top500 за ноябрь 2012 года является категория Custom (55 %). Еще раз напомним: доля суперкомпьютера по LINPACK-производительности коррелирует с технической сложностью, объемом оборудования в различных подсистемах суперкомпьютера (например, с числом портов интерконнекта).
Для правильной оценки роли той или иной технологии интерконнекта важно знать и распределение долей по уровням суперкомпьютерной отрасли. На примере редакции Top500 за ноябрь 2012 года разберемся с этим распределением (рис. 13). Видно, что для категории Ethernet ареал распространения напоминает треугольник, с вершиной на третьем уровне и основанием на пятом. Суперкомпьютеры с интерконнектом на базе Ethernet вообще отсутствуют на высших двух уровнях (Top1-10, Top11-20), слабо представлены на 3-м уровне (Top21-100), но заметно присутствуют на 4-м и 5-м уровнях (Top101-500) — где суперкомпьютеров по количеству много, а по производительности они слабые.
Ареал категории Infiniband можно описать так: очень малое присутствие (менее 10 %) на первом уровне, значительное присутствие (70 %-50 %-50 %-40 %) на втором-пятом уровнях. У категории Custom ареал смещен к старшим уровням, где суперкомпьютеров по количеству мало, но они мощные. Именно на таких технологиях интерконнекта строятся рекордные установки, обладание которыми стратегически важно для России.
Рис. 13. Распределение долей технологий интерконнекта в суперкомпьютерах по уровням Top1-10, Top11-20, Top21-100, Top101-250, Top251-500 (на основании списка Top500 за ноябрь 2012 г.)
Тем самым, обоснованное решение по вопросу §11 будет таким:
§15 Технологии категории Custom обеспечивают подавляющую долю LINPACK-производительности (55 % — по данным редакции Top500 от ноября 2012 года). А если говорить про самые мощные суперкомпьютеры (уровни Top1-10 и Top10-20), которые вряд ли будут проданы России и которые предстоит построить самостоятельно, то эти системы практически всегда строятся на сетевых технологиях категории Custom. При этом, технологии категории Custom не продаются как отдельные продукты. Таким образом, в России, безусловно, необходимо проводить разработку собственных технологий интерконнекта из категории Custom.
9. Восстановление истины: положение России в мировой суперкомпьютерной отрасли
Оценивая положение России в мировой суперкомпьютерной отрасли, как правило, совершают ту же методологическую ошибку: рассматривают число суперкомпьютеров из Top500, установленных в стране. Как пример, процитируем фрагмент из сообщения [9]: «Позиции России в рейтинге несколько улучшились с точки зрения количества представленных систем: в него вошли восемь суперкомпьютеров против пяти в прошлой редакции». К чести автора сразу отметим, что он понимает слабость такой оценки и делает правильное замечание: «с точки зрения количества представленных систем». Однако, к сожалению, многие читатели не заметят этой мелкой детали. И если их спросить, сильно ли Россия улучшила за полгода (июнь-ноябрь 2012 года) свое положение в мировой суперкомпьютерной отрасли, то не стоит удивляться ответу: «Было пять, стало восемь,
налицо рост на целых 60 % за полгода — замечательный результат!» И если суперкомпьютеры считать в штуках, то такой вывод будет правдой. И опять эта правда серьезно (в 3,5 раза) искажает истину: если и можно говорить о росте, то он составляет 17,2 %.
Основываясь на анализе £1ЖРА СК-производительности российских суперкомпьютеров, а не их числа, в данной работе рассмотрим три методики оценки истинного положения России в мировой суперкомпьютерной отрасли:
1) анализ отставания от ведущих стран;
2) анализ отставания от суперкомпьютерных технологий «переднего края»;
3) анализ доли России в мировой суммарной LINPACK-производительности.
Первые два подхода дают ответ на классический вопрос «на сколько лет мы отстаем».
9.1. Анализ отставания России от ведущих стран суперкомпьютерной отрасли
Для ответа на вопрос «на сколько лет Россия отстает от ведущих стран в суперкомпьютерной отрасли?» в каждый момент времени сравним суммарную ЬШРАСК-произво-дительность суперкомпьютеров, установленных в России, и в других регионах, которые являются лидерами в суперкомпьютерной отрасли: США, объединенная Европа, Китай и Япония. Соответствующий график представлен на рис. 14.
Рис. 14. Изменение суммарной ЬТЖРЛСК-производительности суперкомпьютеров Тор500, установленных в США (ив), объединенной Европе (Еи), Японии (1Р), Китае (СН) и России (RU). В качестве примера показано отставание России от США по этому показателю по состоянию на ноябрь 2007 года-------------шесть лет
Далее можно в каждый момент времени рассмотреть суммарную ЬШРЛСК-произво-дительность суперкомпьютеров, установленных в России, и определить, сколько лет назад суммарная £1ЖРЛСК-производительность суперкомпьютеров, установленных в США, была такой же или меньшей. Эта величина и будет показывать отставание России от США в рассмотренный момент времени по показателю «суммарная ЬШРЛСК-произво-дительность суперкомпьютеров».
В качестве примера на рис. 14 это построение выполнено для ситуации на ноябрь 2007 года.
Рис. 15. Графики изменения отставания (в годах) России по показателю «суммарная ЫЫРЛСК-производительность суперкомпьютеров» от США (ив), Евросоюза (Еи),
Японии (ЗР) и Китая (СН)
На рис. 15 показан график отставания России по показателю «суммарная ЬШРЛСК-производительность суперкомпьютеров» от США, Евросоюза, Японии и Китая, начиная с июня 2002 года. Хорошо видны периоды, когда Россия сокращала свое отставание от стран-лидеров, и периоды, когда отрыв только увеличивался. К сожалению, последние два с половиной года можно охарактеризовать как период упрочнения отставания России от стран-лидеров суперкомпьютерной отрасли.
9.2. Анализ отставания от суперкомпьютерных технологий переднего края
Для ответа на вопрос «На сколько лет суперкомпьютерные технологии России отстают от технологий переднего края?» достаточно в каждый момент времени t сравнить ЫЫРЛСК-производительность ги1(^ самого мощного суперкомпьютера, установленного в России, и ЫЫРЛСК-производительность систем, находящихся на переднем крае развития суперкомпьютерных технологий в мире. Мы рассмотрим суперкомпьютеры, занимающие первое, пятое и десятое место в Тор500 — ^р1^), ^р5^) и ^р10^). Далее, точно
таким же способом, как это описано в предыдущем разделе, в каждый момент времени t
вычисляется отставание от мирового уровня технологий переднего края: уровня Тор1 (й1(Ь)), уровня Тор5 (^5(Ь)) и уровня Тор10 (й10(1)):
^(с) = тт{ Ас | сор1(с — Ас) < ги1(с)} d5(с) = тт{ Ас | сор5(с — Ас) < ги1(с)}
^0(с) = тт{ АС | Сор10(С — Ас) < ги1(с)}
На соответствующих графиках (рис. 16) хорошо видны периоды, когда Россия приближалась к суперкомпьютерным технологиям переднего края, и периоды, когда отставание только увеличивалось. К сожалению, последние два с половиной года можно охарактеризовать как период увеличения отставания от развития суперкомпьютерных технологий переднего края.
Рис. 16. Графики изменения отставания (в годах) суперкомпьютерных технологий в Российских от уровня переднего края — Тор1, Тор5 и Тор10
9.3. Анализ доли России в мировой суммарной LINPA СК-производительности
Наконец, адекватной заменой для ошибочного показателя «количество суперкомпьютеров, установленных в России и входящих в рейтинг Тор500» является доля России в суммарной ЬШРЛСК-производительности по всему рейтингу Тор500. Для каждой редакции рейтинга эта доля рассчитывается как отношение суммы ЬШРЛСК-производитель-ности систем, установленных в России, к сумме ЬТЫРЛСК-производительности по всему рейтингу Тор500.
Рис. 17. График изменения доли России в суммарной ЬТЫРЛСК-производительности рейтинга Тор500 в различные моменты времени. Стрелками зеленого цвета обозначены периоды исполнения суперкомпьютерных программ «СКИФ» (2000-2004 гг.) и «СКИФ-ГРИД» (2007-2010 гг.) Союзного государства
Соответствующий график представлен на рис. 17. Хорошо видны периоды укрепления и ослабления позиций России в мировой суперкомпьютерной отрасли. Так, позиции России серьезно укреплялись в периоды действия суперкомпьютерных программ «СКИФ» (2000-2004 гг.) и «СКИФ-ГРИД» (2007-2010 гг.) Союзного государства. К сожалению, последние годы следует охарактеризовать как период ослабления позиций России в мировой суперкомпьютерной отрасли.
Заключение
Целью написания данной статьи было продемонстрировать читателю:
• насколько традиционный и широко распространенный способ анализа Top500 — подсчет долей от общего количества суперкомпьютеров — искажает истинное положение дел в суперкомпьютерной отрасли (разделы 1, 5-9);
• как важно разработать и грамотно применять правильные методики анализа данных Top500 (раздел 3);
• как легко на базе неверного поверхностного анализа принимаются ошибочные управленческие решения с серьезными последствиями;
• насколько значительно сегодня расслоение (по реальной производительности) в суперкомпьютерном мире (раздел 4) — кажется, даже профессионалы (чисто психологически) пока еще не всегда в полной мере осознают всю его глубину;
• насколько важно для профессионального анализа Top500 обладать правильно построенным инструментарием.
Хочется надеться, что эти цели были достигнуты, хотя бы частично. Конечно, формат статьи не позволяет продемонстрировать все возможности программы Top500 Analyzer. Так, распределение долей категорий (например, рис. 13) по уровням (Top1-10, Top11-20, Top21-100, Top101-250, Top251-500) можно просмотреть для каждой редакции Top500, причем в режиме анимации: один год (две редакции Top500) — за секунду. При таком просмотре можно разглядеть эпохи появления, расцвета и угасания той или иной категории, можно увидеть, как разные категории конкурируют за доли на том или ином уровне, как происходит их миграция с уровня на уровень.
Что касается дальнейшего развития работ, то есть планы сделать ряд улучшений в программе Top500 Analyzer; будет хорошо, если найдутся коллеги, которые помогут в этом — советом или делом.
Конечно, было бы интересно применить методику анализа и программу Top500 Analyzer к рейтингу Graph500 и к национальному рейтингу 50-ти самых мощных систем в СНГ [8]. Однако в последнем случае серьезными препятствиями являются:
• невозможность выгрузки редакций этого рейтинга в виде Excel-таблицы или в виде иного файла, с возможностью (приемлемого по сложности) разбора по записям и по полям;
• предположительно малое число формализованных полей в записях рейтинга.
Завершая, хочу поблагодарить сотрудников ИПС имени А.К. Айламазяна РАН — Е.П. Лилитко и М.Г. Химшиашвили, — которые помогали автору при создании данной статьи.
Литература
1. Top500 Supercomputer Sites — мировой рейтинг пятисот самых производительных (на тесте LINPACK) вычислительных машин мира. URL: http://www.Top500.org
2. Graph500 — мировой рейтинг самых производительных (на задаче поиска в большом графе в ширину) вычислительных машин мира.
URL: http://www.graph500.org
3. Википедия — свободная энциклопедия, которую может редактировать каждый. URL: http://wikipedia.org.
4. Абрамов, С.М. Top500 Analyzer — программа для анализа данных рейтинга Top500 / С.М. Абрамов. URL: http://skif.pereslavl.ru/psi-info/rcms-skif/top500analyzer/.
5. Воейков, Д. Рейтинг Top500. Соревнование с гандикапом / Д. Воейков // PC
Week/RE. - 2008. - № 27-28. URL: http://www.pcweek.ru/themes/de-
tail.php?ID=112308.
6. Абрамов, С.М. Суперкомпьютерные технологии России: объективные потребности и реальные возможности / С.М. Абрамов / / CAD/CAM/CAE Observer. - 2010. - № 2. - С. 74-84.
7. Абрамов, С.М. Состояние и перспективы развития вычислительных систем сверхвысокой производительности / С.М. Абрамов, Е.П. Лилитко // VI Международная конференция «Параллельные вычисления и задачи управления» (24-26 октября 2012 г, Москва). - M.: ИПУ РАН, 2012. - Т. 1. - С. 10-32.
8. Top50 суперкомпьютеров — рейтинг 50 вычислительных систем, установленных на территории СНГ и показавших наибольшую производительность на тесте LINPACK. URL: http:// top50.supercomputers.ru.
9. Лаврентьева, Н. Российский суперкомпьютер-«призрак» вошел в мировой рейтинг Топ-500 / Лаврентьева Н. // Cnews, 12 ноября 2012 г., URL: http://www.cnews.ru/news/top/index.shtml?2012/11/12/509454.
Абрамов Сергей Михайлович, д.ф.-м.н., член-корреспондент РАН, директор Института программных систем имени А.К. Айламазяна Российской академии наук (Пере-славль-Залесский, Российская Федерация), abramov@botik.ru.
TRUE JUDGMENTS THAT DISTORT THE REAL TRUTH. HOW TO ANALYZE THE TOP500?
S.M. Abramov, Ailamazyan Program Systems Institute of the RAS (Pereslavl-
Zalessky, Russian Federation)
Each new edition of the Top500 list brings various calculations and judgments, such as «Supercomputers listed in the Top500 are the most used in industry (247 of 500, 49,4 %)»■ It is easy to find similar calculations and judgments about Top500 in percentages: (i) percentage of different types of processors used in supercomputers; (ii) percentage of different types of interconnect; (iii) percentage of manufactures; (iv) percentage of countries, etc. Important decisions — even government decisions — are often made with reference to such calculations and judgments. This work shows that these calculations and judgments are true but seriously distort the real truth — and mispresent the real situation in the HPC industry. In the paper, the author analyses the reasons
of deep differences between «true judgments» and «the real truth». Furthermore, the paper offers an approach to a correct analysis of the Top500 and the results of this analysis.
Keywords: Top500, the Use of Supercomputers, High Performance Computing.
References
1. Top500 — mirovoj rejting pyatisot samykh proizwoditelnykh (na teste LINPACK ) wychis-litelnykh mashin mira [The Top500 list of the world’s most powerful computers (according to the Linpack benchmark)]. URL: http://www.Top500.org.
2. Graph500 — mirowoj reiting samykh proizwoditelnykh (na zadache poiska w bolshom grafe w shirinu) wychislitelnykh mashin mira [The Graph500 rating of supercomputer rystems focused on data intensive loads (based on a breadth-first Search in a large undirected Graph)]. URL: http://www.graph500.org.
3. Wikipediya — svobodnaya entsyiklopediya, kotoruyu mozhet redaktirowat' kazhdyj [Wikipedia, the free Encyclopedia that Anyone can edit]. URL: http://wikipedia.org.
4. Abramov S.M. Top500 Analyzer — programma dlya analiza dannykh reitinga Top500. [The Top500 Analyzer — The Software for the Top500 Analysis]. URL: http: / / skif.pereslavl.ru / psi-info / rcms-skif/top500analyzer /.
5. Wojejkow D. Rejting Top500. Sorewnowanie s gandikapom [The Top500 List. Handicap Competition] // PC Week/RE. 2008. No. 27-28. URL: http://www.pcweek.ru/themes/de-tail.php?ID=112308.
6. Abramov S.M. Superkompjuternyje tekhnologii Rossii: ob'ektiwnye potrebnosti i real'nyje wozmozhnosti [Supercomputing Technologies in Russia: Objective Needs and Real Opportunities] // CAD/CAM/CAE Observer. 2010. No. 2. P. 74-84.
7. Abramov S.M., Lilitko E.P. Sostojanie i perspektivy razwitija wychislitel'nykh system swerkhwysokoj proizwoditelnosti [The State and Perspectives of Development of Ultra High Performance Computing] // VI Mezhdunarodnaja konferentsija “Parallel' nye wychislenija i zadachi uprawlenija” (24-26 oktjabrja 2012 g., Moskwa) [Parallel Computations and Control Problems: Proceedings of the VI International Conference (24-26 October, 2012, Moscow)]. Moscow: Institute of Control Sciences of the RAS, 2012. Vol 1. P. 10-32.
8. Top50 supercomp'uterow — reiting 50 wychislitel'nykh system, ustanowlennykh na terri-torii SNG i pokazawshikh naibol'shuju proizwoditel'nost' na teste LINPACK . [The Top50 Ranking of the 50 most powerful supercomputers in CIS countries (according to the Linpack benchmark)]. URL: http://top50.supercomputers.ru.
9. Lawrentjewa N. Rossijskij superkompjuter-prizrak woshel w mirowoj reiting Top500 [Russian phantom supercomputer entered the world’s Top500 ranking] // Cnews. 2012. November, 12. URL: http://www.cnews.ru/news/top/index.shtmr72012/11/12/509454.
Поступила в редакцию 23 марта 2013 г.