Ким А.К.,
ОАО «ИНЭУМ им. И.С. Брука», ген. директор, kim@mcst.ru
Бычков И.Н.,
ОАО «ИНЭУМ им. И.С. Брука», нач. отдела, ignat@mcst.ru
Волконский В.Ю., ОАО «ИНЭУМ им. И.С. Брука», нач. отделения, vol@mcst.ru
Воробушков В.В., ОАО «ИНЭУМ им. И.С. Брука», нач. сектора, vvv@mcst.ru
Груздов Ф.А.,
ОАО «ИНЭУМ им. И.С. Брука», нач. отдела, fg@mcst.ru
Михайлов М.С.,
ОАО «ИНЭУМ им. И.С. Брука», нач. отдела, maksim@mcst.ru
Парахин Ю.Н.,
ОАО «ИНЭУМ им. И.С. Брука», нач. отделения, py@mcst.ru
Сахин Ю.Х.,
ОАО «ИНЭУМ им. И.С. Брука», нач. отделения, yuli@mcst.ru
Семенихин С.В.,
ОАО «ИНЭУМ им. И.С. Брука», нач. отделения, svs@mcst.ru
Слесарев М.В.,
ОАО «ИНЭУМ им. И.С. Брука», нач. сектора, mish@mcst.ru
Фельдман В.М.
ОАО «ИНЭУМ им. И.С. Брука», зам ген. директора, feld@mcst.ru
Архитектурная линия «Эльбрус» сегодня: микропроцессоры, вычислительные комплексы, программное обеспечение
Высокопроизводительные микропроцессоры
Развитие микропроцессоров на всем своем протяжении их существования происходит по закону, определенному Гордоном Муром: удвоение числа транзисторов на кристалле каждые 1,5-2 года. Действие закона объясняется тем, что технологические нормы, определяющие размер транзистора, уменьшались и продолжают уменьшаться примерно в
1,5 раза каждые 2-2,5 года (что соответствует двукратному увеличению числа транзисторов на той же площади). При этом довольно долгое время такими же темпами повышалась тактовая частота процессоров, хотя в последнее время рост этого показателя сдерживается увеличившейся рассеиваемой мощностью микропроцессора. Несмотря на это, за последние 20 лет число транзисторов на кристалле увеличилось с 1 млн. до 5 млрд., технологические нормы сократились с 1 мкм (1000 нм) до 22 нм, а тактовая частота процессора выросла с 25 МГц до 5 ГГц.
Темпы развития кремниевой технологии практически остановили развитие архитектуры микропроцессоров, т.к. цикл создания новой архитектуры составляет 8-10 лет, а с учетом оснащения ее развитым программным обеспечением - значительно дольше.
Чтобы сохранить экспоненциальный рост производительности высокопроизводительных вычислительных систем и обеспечить возможность их эффективного использования, в ближайшие 10 лет придется решать новые сложные задачи. Американское агентство передовых оборонных научно-исследовательских разработок (DARPA) в программе «Повсеместные высокопроизводительные вычисления» (иНРС) определило следующие важнейшие задачи на период 2009-2018 годы: создание параллельной энергетически эффективной микропроцессорной архитектуры, обеспечение программируемости, т.е. снижение трудоемкости создания программ, существенный рост надежности и безопасности вычислительных систем. Создаваемые системы должны работать в широком диапазоне производительности - от терафлопсных встраиваемых систем до экзафлопсных суперкомпьютеров.
Архитектурная линия российских микропроцессоров «Эльбрус», разработанная совместно с общим программным обеспечением «Эльбрус» успешно решает все поставленные в программе UHPC задачи.
Особенности архитектуры Эльбрус
В последние 20 лет развитие микропроцессорных архитектур практически остановилось, а реальное архитектурное ускорение ядра универсальных микропроцессоров, используемых в мировой практике, составило 2,5 раза. Это означает, что логическая скорость этих микропроцессоров, т.е. число операций, выполняемых, в среднем, за один машинный такт, выросло в 2,5 раза за 20 лет. И это притом, что широкий класс задач крайне трудно распараллеливается. Поэтому данный показатель - логическая скорость ядра - является крайне важным, особенно в последнее время, когда рост тактовых частот процессоров практически остановился и, как следствие остановился рост производительности однопоточных программ.
После того, как рост тактовых частот приостановился, рост производительности микропроцессора продолжился за счет увеличения числа процессорных ядер, хотя использовать этот потенциал производительности значительно сложнее. Для многих задач, в среднем,
менее двух процессорных ядер участвуют в вычислительном процессе, а средняя загруженность процессоров в суперкомпьютерах составляет 3-5%.
Использование графических ускорителей (GPGPU) в качестве средства повышения производительности суперкомпьютеров ограничено, т.к. для таких систем крайне сложно разрабатывать программное обеспечение. Фактически в эти процессоры передаются только отдельные, наиболее вычислительно емкие участки программы, а для управления требуется использование универсального процессора. Новые технологии программирования (CUDA, OpenCL), используемые в таких системах, требуют полной переработки существующих программ.
В архитектуре микропроцессоров линии «Эльбрус» [1-6] были поставлены и успешно решены следующие задачи:
• создание параллельной энергетически эффективной архитектуры ядра для повышения однопоточной производительности;
• облегчение программирования за счет автоматического распараллеливания задач с помощью компилятора;
• существенное повышение надежности и безопасности создаваемого программного обеспечения;
• обеспечение эффективной и надежной совместимости с распространенными микропроцессорными архитектурами.
В архитектуре микропроцессоров линии «Эльбрус» используется явный параллелизм операций, распараллеливание программы выполняется оптимизирующим компилятором. За счет этого ядро микропроцессора «Эльбрус» может выполнять в несколько раз больше операций за один машинный такт по сравнению с другими современными архитектурами, не тратя энергию на распараллеливание при исполнении. В результате микропроцессоры линии «Эльбрус» обладают большей логической скоростью (число операций, выполняемых за такт) и более высокой производительностью на единицу потребляемой энергии.
Универсальные микропроцессоры линии «Эльбрус» позволяют использовать потенциал производительности с помощью оптимизирующих компиляторов, облегчая работу программистов за счет возможности использования языков высокого уровня. Программные средства динамической адаптации конкретной программы к аппаратным ресурсам обеспечивают более высокий коэффициент загрузки оборудования, и, как следствие, почти в три раза большей логической скоростью на реальных программах по сравнению с последними микропроцессорами фирмы Интел.
В архитектуре микропроцессоров «Эльбрус» реализована аппаратно-программная защита программ и данных при исполнении, которая является фундаментом для построения безопасных систем широкого диапазона применений. Аппаратно-программная поддержка безопасности представляет собой многоуровневую систему. На аппаратном уровне реализованы средства, обеспечивающие безопасное исполнение программ
в едином виртуальном пространстве. Эти средства не только исключают возможность внедрения опасных кодов (вирусов) в программные системы, но за счет мощного аппаратного контроля позволяют создавать гораздо более надежные программы, т.к. они позволяют выявлять наиболее сложные и неуловимые на других архитектурах ошибки программистов.
В программе иНРС отмечается сложность перехода на новые архитектуры из-за проблем совместимости. В архитектуре микропроцессоров линии «Эльбрус» заложены средства обеспечения эффективной и надежной аппаратно-программной совместимости с наиболее распространенной архитектурой Интел х86 (х86-64). Оптимизация и накопление оптимизированных кодов, реализованные с помощью технологии скрытой динамической двоичной трансляции, обеспечивают более высокую производительность программ, представленных в кодах Интел х86 (х86-64), при меньших затратах энергии.
Сегодня архитектура «Эльбрус» совместно с ОПО Эльбрус прошла успешную проверку на трех поколениях микропроцессоров -микропроцессор «Эльбрус», система на кристалле (СнК) «Эльбрус-1С» и СнК «Эльбрус-2С+ (рис. 1) - в составе вычислительных комплексов.
Elbrus
1891БМ4Я 0727ЛОЭ1
Эльбрус-S
1891ВМ5Я 1 024А008
titnm
Эль брус -2С+
1891ВМ7Я 045 ОАО 65
1 ядро
75,8 млн. транзисторов 130 нм 300 МГц 4,8 Гфлопс 6 Вт
2007 г. выпуска
1 ядро, СнК
218 млн. транзисторов
90 нм
500 МГц
8 Гфлопс
13 Вт
2010 г. выпуска
2 ядра «Эльбрус» 4 DSP ядра Мультикор 368 млн. транзисторов 90 нм 500 МГц 28 Гфлопс 25 Вт
2011 г. выпуска
Рис.. 1. Микропроцессоры линии Эльбрус Микропроцессор «Эльбрус» [1-3] с производительностью 4,8 Гфлопс, позволял создавать двухпроцессорные вычислительные комплексы на общей памяти и строить многомашинные системы на их основе, начиняя с 2007 г. Созданная в 2010 г. СнК «Эльбрус-1С» [5] производительностью 8 Гфлопс позволила производить 4-процессорные одноплатные модули на общей памяти и вычислительные системы на их основе. Наконец, в 2011 г. прошел успешные государственные испытания 6-ядерный гетерогенный микропроцессор (СнК) «Эльбрус-2С+» (2 универсальных ядра «Эльбрус» и 4 ядра DSP с архитектурой Мультикор) производительностью 28 Гфлопс [6].
Для взаимодействия с разнообразным набором современных внешних устройств в 2010 г. был разработан контроллер периферийных интерфейсов (КПИ) [7] - рис 2. Он подключается к процессору через один или два дуплексных канала ввода-вывода с пропускной способностью 2+2
Гбайт/сек. КПИ поддерживает работу со следующими интерфейсами внешних устройств и шин: SATA, PCI, PCI Express x8, Ethernet 10/100/1000 Mbps, IDE, IEEE1284/RS-232/RS-485, USB 2.0, AC-97/gPIO, IOAPIC/PIC/I2C/SPI/Timer. Включение КПИ в вычислительные комплексы на базе микропроцессоров «Эльбрус» позволило отказаться от использования ПЛИСов, удешевить вычислительные комплексы и снизить потребляемую мощность.
10+ интерфейсов 130 нм 250 МГц 6 Вт
2010 г. выпуска
Рис. 2. Контроллер периферийных интерфейсов (КПИ) Вычислительные комплексы на базе микропроцессора «Эльбрус-
2С+»
На базе универсального микропроцессора «Эльбрус-2С+» вместе с контроллером периферийных интерфейсов выпускаются разнообразные вычислительные модули, используемые в широком диапазоне применений.
Одноплатные четырехпроцессорные модули (рис. 3) с производительностью свыше 100 Гфлопс на общей памяти (32 Гбайт) используются для создания серверов с производительностью в несколько терафлопс.
Рис. 3. Одноплатный четырехпроцессорный модуль Одноплатные двухпроцессорные модули (рис. 4) с
производительностью 56 Гфлопс, выполненные в конструктивном
исполнении 6^ используются во встраиваемых системах для создания небольших серверов с резервированием, а также для создания автоматизированных рабочих мест.
Рис. 4. Одноплатные двухпроцессорные модули Одноплатные однопроцессорные вычислительные модули (рис. 5) используются для создания автоматизированных рабочих мест, таких как ноутбук и моноблок.
Рис. 5. Одноплатный однопроцессорный модуль Общее программное обеспечение Эльбрус
Вычислительные комплексы на базе микропроцессоров с архитектурой «Эльбрус» оснащаются сертифицированным общим программным обеспечением (ОПО) «Эльбрус», включающим операционную систему (ОС) «Эльбрус», совместимую с ОС Linux, со средствами поддержки систем реального времени и средствами защиты от несанкционированного доступа. Средства разработки программ, написанных на языках высокого уровня Си, Си++, Фортран, Джава и др., обеспечивают эффективное распараллеливание на всех уровнях: параллелизм на уровне операций, векторный параллелизм, параллелизм потоков управления, параллелизм систем с распределенной памятью. ОПО «Эльбрус» включает средства поддержки пользовательского интерфейса, комплекс сервисных и пользовательских программ (СУБД, средства работы с гипертекстом,
офисные пакеты, электронную почту и проч.), графические библиотеки и пакеты, высокопроизводительные математические и мультимедийные библиотеки. Эти средства поддерживают все возможности архитектуры «Эльбрус» и отвечают современным требованиям, которые предъявляются к программным системам индивидуального и коллективного пользования.
В работах [8-9] рассмотрены методы распараллеливания программ на уровне операций, включая программную конвейеризацию, а также методы автоматической векторизации и распараллеливания программ в оптимизирующем компиляторе. Эти методы демонстрируют высокую эффективность и позволяют существенно повышать производительность широкого класса программ за счет параллелизма на уровне операций и получать дополнительный прирост производительности для программ, в которых используются форматы данных, позволяющие использовать операции над короткими векторами, и циклы, допускающие распараллеливание на потоки управления.
За счет распараллеливания на уровне операций логическая скорость выполнения целочисленных программ на одном процессоре с архитектурой «Эльбрус» возрастает в 3,01 раза по сравнению с эталонной суперскалярной машиной (до 4-х операций за такт без изменения порядка операций) Ultra 10 на пакете SPECcpu2000int. При этом среднее число операций, спланированных компилятором в выполненных широких командах, составляет 2,96 за такт и 2,2 за такт с учетом различных блокировок при реальном исполнении. Для 10 задач пакета SPECcpu2000fp логическая скорость возрастает в 7,66 раз по сравнению с эталонной машиной Ultra 10 за счет параллельных возможностей архитектуры и конвейеризации циклов с аппаратной поддержкой. При этом среднее число операций, спланированных компилятором в выполненных широких командах, составляет 5,52 операций за такт (максимальное значение 11,59 операций за такт). Но оно более заметно по сравнению с целочисленными задачами снижается за счет блокировок (в основном из-за доступа в память) до среднего значения 3,53 операций за такт (максимальное значение - 6,59 операций за такт).
Максимальный прирост производительности за счет автоматической векторизации составил 83%, 61%, 117% и 11% на задачах из пакетов SPEC CINT92, SPEC CFP95, SPEC CINT95 и SPEC CINT2000, соответственно. Средний прирост производительности на 373 функциях библиотеки, реализующие наиболее распространённые операции над векторами и матрицами, за счёт их автоматической векторизации составил 52% и 37% в случае выровненных и невыровненных входных данных, соответственно. Скорость работы отдельных функций удалось повысить почти в 10 раз.
Абсолютный прирост производительности за счет автоматического распараллеливания для общей памяти на пяти задачах из пакетов SPEC95, SPEC2000 составляет для двухпроцессорного ВК «Эльбрус-ЗМ», в среднем, 1,42, или 77% от одновременного исполнения двух задач. Реализована
система автоматического распараллеливания для распределенной памяти на вычислительных комплексах на базе микропроцессоров Эльбрус-2С+ и МЦСТ^1000, которая позволяет распараллеливать задачи для 32- и 64-ядерных систем.
Развитие линии «Эльбрус
В 2012 г. завершается разработка 4-ядерного универсального микропроцессора (СнК) «Эльбрус-4С» по технологическим нормам 65 нм с производительностью 64 Гфлопс. На базе этого микропроцессора могут создаваться 16-процессорные системы на общей памяти и мощные кластерные системы терафлопсного и петафлопсного диапазонов. Ведутся работы по изготовлению микропроцессора «Эльбрус-2С+» на российской фабрике (завод «Микрон») по технологическим нормам 90 нм, первые микропроцессоры должны быть изготовлены весной 2013 г. Ведутся работы по созданию к 2015 г. микропроцессора «Эльбрус-4С+» с производительностью 150 Гфлопс. Параллельно разрабатывается гетерогенный микропроцессор (СнК) «Эльбрус-1С+», в котором кроме универсального ядра «Эльбрус» будет реализовано графическое ядро. Оба проекта реализуются по технологическим нормам 40 нм.
Параллельно развивается программное обеспечение, которое предполагает дальнейшее развитие ядра операционной системы, поддержку виртуализации, существенное расширение набора прикладных программ, дальнейшее совершенствование оптимизирующего компилятора и системы двоичной трансляции для повышения эффективности работы в режиме совместимости, более активное внедрение системы защищенного исполнения программ.
В более долгосрочных планах - создание микропроцессоров «Эльбрус-8С» в 2017 г. и «Эльбрус-16С» в 2019 г. с производительностью 500 Гфлопс и 2 Тфлопс, соответственно. Это позволит до 2020 г. создать российские вычислительные системы петафлопсного и экзафлопсного диапазона производительности на базе российских микропроцессоров.
Литература
1. Ким А.К., Волконский В.Ю., Груздов Ф.А., Михайлов М.С., Парахин Ю.Н., Сахин Ю.Х., Семенихин С.В., Слесарев М.В., Фельдман В.М. Микропроцессорные вычислительные комплексы с архитектурой «Эльбрус» и их развитие // Современные информационные технологии и ИТ-образование: сборник докладов 3-й международной научно-практической конференции, Москва, 6-9 декабря 2008. С.12-31.
2. Владимир Волконский, Федор Груздов, Александр Ким, Юлий Сахин, «Эльбрус» сегодня // Открытые системы. 2009. № 2.
3. Ким А.К., Волконский В.Ю., Груздов Ф.А., Михайлов М.С., Парахин Ю.Н., Сахин Ю.Х., Семенихин С.В., Слесарев М.В., Фельдман В.М. Архитектура, программное обеспечение и применения компьютеров серии "Эльбрус" // Современные информационные технологии и ИТ-образование: сборник докладов 4-й международной научно-практической конференции, Москва, 14-16 декабря 2009. С.53-72.
4. Ким А.К., Волконский В.Ю., Груздов Ф.А., Сахин Ю.Х., Семенихин С.В. Защищенное исполнение программ на базе аппаратной и системной поддержки архитектуры
«Эльбрус» // Современные информационные технологии и ИТ-образование: сборник докладов 5-й международной научно-практической конференции, Москва, 8-10 ноября 2010. С.22-39.
5. Михаил Кузьминский, Куда идет «Эльбрус» //Открытые системы. 2011. N. 7.
6. Исаев М.В., Кожин А.С., Костенко В.О., Поляков Н.Ю., Сахин Ю.Х. Двухядерная гетерогенная система на кристалле «Эльбрус-2С+» // Вопросы радиоэлектроники, сер. ЭВТ, 2012, вып. 3. С.42-52.
7. Ким А.К., Михайлов М.С., Фельдман В.М. Подсистема ввода-вывода для систем на кристалле «МЦСТ-4R» и «Эльбрус^» на основе микросхемы контроллера периферийных интерфейсов. // Вопросы радиоэлектроники, сер. ЭВТ, 2012, вып. 3. С.52-62.
8. Волконский В.Ю, Брегер А.В., Грабежной А.В., Ермолицкий А.В., Муханов Л.Е., Нейман-заде М.И. Методы распараллеливания программ в оптимизирующем компиляторе для ВК семейства Эльбрус. // Современные информационные технологии и ИТ-образование: сборник докладов 6-й международной научно-практической конференции, Москва, 12-14 декабря 2011. С.46-59.
9. Волконский В.Ю., Грабежной А.В., Муханов Л.Е., Нейман-заде М.И. Исследование влияния подсистемы памяти на производительность распараллеленных программ //Вопросы радиоэлектроники, сер. ЭВТ, 2012, вып. 3. С.63-88.