МГУ им. М.В. Ломоносова – крупнейший ВУЗ Российской Федерации, один из ведущих центров отечественной науки и образования. Университет проводит множество исследований для стратегически важных отраслей российской экономики, таких как энергетика и энергосбережение, транспорт, медицина, авиация и космонавтика, нанотехнологии и др. Справиться с таким объемом задач без мощных вычислительных ресурсов попросту невозможно: без них исследования могут затягиваться на годы.
В МГУ установлены несколько суперкомпьютеров. Самым мощным из них вплоть до сегодняшнего момента являлся суперкомпьютерСКИФ МГУ «Чебышев» с пиковой производительностью 60Тфлопс, разработанный и построенный компанией «Т-Платформы». С момента ввода в эксплуатацию в марте 2008 года мощности СКИФ МГУ «Чебышев» были полностью загружены, и уже тогда отмечалась их нехватка. По мере увеличения объема актуальных научных проблем и задач появилась объективная необходимость в наращивании вычислительных мощностей.
Задача
Руководством МГУ им. М.В. Ломоносова было принято решение о необходимости приобретения нового, более мощного суперкомпьютерного комплекса, который обеспечил бы высокопроизводительными ресурсами большее число научных коллективов и позволил проводить больше исследований. Таким образом, новый суперкомпьютер должен способствовать развитию российской науки, экономики и повышению конкурентоспособности страны на международной арене.
Одним из основных требований МГУ к поставщику суперкомпьютерного комплекса стала поставка решения с наилучшим соотношением «цена/производительность». Поставленная система должна была обеспечить вычислительную мощность не менее 400Тфлопс в рамках заданного бюджета и возможность дальнейшего расширения системы до 500Тфлопс, а также обладать высочайшей отказоустойчивостью и удовлетворять повышенным требованиям к надежности инфраструктуры. Кроме того, требовалось, чтобы в суперкомпьютере были задействованы несколько видов процессоров, с целью обеспечить высокую производительность максимально широкого спектра приложений. Открытый конкурс на поставку суперкомпьютерного комплекса для МГУ выиграла компания «Т-Платформы».
Решение
Суперкомпьютерный комплекс, поставленный компанией «Т-Платформы» для МГУ им. М.В. Ломоносова, обладает пиковой производительностью 420Тфлопс. Реальная производительность системы на тесте Linpack - 350Тфлопс. Таким образом, эффективность суперкомпьютера, то есть соотношение реальной и пиковой производительности, составляет 83%. Этот показатель на сегодня является одним из самых высоких в мире: аналогичный показатель суперкомпьютера Jaguar, текущего лидера списка ТОП500, составляет лишь 75.46%.
Вычислительное ядро
Суперкомпьютер «Ломоносов» - первый гибридный суперкомпьютер такого масштаба в России и Восточной Европе. В нем используется 3 вида вычислительных узлов и процессоры с различной архитектурой. Перед установкой в МГУ им. М.В. Ломоносова система прошла тщательное тестирование на производстве компании «Т-Платформы». В качестве основных узлов, обеспечивающих свыше 90% производительности системы, используется инновационная blade-платформа, получившая название T-Blade2. По вычислительной плотности на квадратный метр занимаемой площади – 30Тфлопс/м2 – эта система превосходит все мировые аналоги. T-Blade2 на базе процессоров Intel® Xeon X5570 обеспечивает производительность 18TFlops в стандартной стойке высотой 42U. В суперкомпьютере также задействованы blade-системы T-Blade 1.1 с увеличенным объемом оперативной памяти и локальной дисковой памятью для выполнения специфических задач, особенно требовательных к этим параметрам системы. Третий тип узлов – платформы на базе многоядерного процессора PowerXCell 8i, использующиеся в качестве мощных ускорителей для ряда задач. Все три типа вычислительных узлов были разработаны компанией «Т-Платформы».
Платформа T-Blade2 была сконструирована инженерами «Т-Платформы» «с нуля» - все платы и механические компоненты являются собственными разработками компании. T-Blade2 выходит за рамки традиционных возможностей blade-систем. Новая платформа позволяет создавать суперкомпьютеры высшего диапазона производительности, не уступающие специализированным нестандартным вычислителям с массивно-параллельной архитектурой (MPP).
Суперкомпьютеры на базе T-Blade2 обеспечивают высокую эффективность реальных приложений за счет принципиально новых технологий, таких как выделенные сети барьерной синхронизации и глобальных прерываний. Они позволяют за минимальное время синхронизировать вычислительные процессы на отдельных узлах и ускорить обмен данными между процессорами.
В качестве системной сети, связывающей узлы суперкомпьютера «Ломоносов», используется интерконнект QDR Infiniband с пропускной способностью до 40Гб/сек. Для максимально бесконфликтной передачи данных в интегрированных коммутаторах InflniBand предусмотрено избыточное количество внешних портов: их суммарная пропускная способность составляет 1,6Тбит/сек.
Система хранения данных
Суперкомпьютер использует трехуровневую систему хранения данных суммарным объемом до 1 350ТБ с параллельной файловой системой Lustre. Система хранения данных обеспечивает одновременный доступ к данным для всех вычислительных узлов суперкомпьютера с агрегированной скоростью чтения данных - 20Гб/сек и агрегированной скоростью записи - 16Гб/сек.
Специализированное программное обеспечение
Суперкомпьютер работает под управлением пакета Clustrx - разработки компании T-Massive Computing, входящей в состав холдинга «Т-Платформы». Clustrx ОС устраняет критические ограничения масштабируемости, присущие современным операционным системам, обеспечивая более эффективное использование ресурсов крупных инсталляций размером до 25000 узлов. Пакет Clustrx содержит все необходимые компоненты для управления суперкомпьютером и организации удобного доступа пользователей к системе. Clustrx обеспечивает ежесекундный мониторинг до 300 метрик на каждом вычислительном узле, использует технологии агрессивного энергосбережения и автоматического реагирования на критические ситуации.
Отказоустойчивость
Добиться требуемого уровня отказоустойчивости позволило резервирование всех критических подсистем и компонентов суперкомпьютерного комплекса – от вентиляторов и блоков питания в вычислительных узлах до систем электропитания и охлаждения. Высокую надежность blade-систем обеспечивает отсутствие кабельных соединений и жестких дисков внутри шасси, а также целый ряд конструктивных решений, таких как специально разработанные разъемы для модулей памяти.
Применение
Система будет использоваться для решения ресурсоемких вычислительных задач в рамках фундаментальных научных исследований, а также для проведения научной работы в области разработки алгоритмов и программного обеспечения для мощных вычислительных систем.
Технические характеристики суперкомпьютера "Ломоносов"
Пиковая производительность
420Тфлопс
Реальная производительность
350Тфлопс
Эффективность (соотношение пиковой и реальной производительности)
83%
Число вычислительных узлов
4 446
Число процессоров
8 892
Число процессорных ядер
35 776
Число типов вычислительных узлов
3 (T-Blade2, T-Blade 1.1, платформа на базе процессора PowerXCell 8i)