Алгоритм проектирования суперкомпьютера
Суперкомпьютер, как и любой другой сложный инструмент, требует детального планирования во время своей разработки. Приведем алгоритмов разработки кластера.
- Определение ожидаемых характеристик продуктивности.
- Выбор типа интерконекта (сети передачи данных).
- Выбор компьютерной платформы узла.
- Определение характеристик енергопотребления.
- Проектирование подсистем питания вычислительного кластера.
- Подготовка схем физического размещения оборудования.
- Проектирование системы охлаждения..
- Построение программной архитектуры кластера.
- Определение количества и предназначения служебных серверов.
Начальным этапом проектирования является определение характеристик продуктивности. К ним относятся следующие величины.
Пиковая продуктивность — теоретическая величина, которая показывает сколько операций выполнил бы процесс за единицу времени, если бы он на каждом такте своей работы выполнял все возможные операции.
Рассчитывается данная величина следующим образом: (Количество узлов)х(Количество ядер в узле)х(Частота процессора)х(Количество операций за такт).
Коэффициент эффективности архитектуры архитектуры — показывает соотношение между реальной продуктивностью и пиковой. Обычно соотносится продуктивность в тесте Linpack с пиковой продуктивностью.
Суперкомпьютеры с подобным оборудованием и схожей архитектурой должны быть близки по коэффициентам эффективности, поэтому уже на этапе проектирования данный коэффициент позволяет оценить продуктивность будущего кластера.
Продуктивность в тесте Linpack (реальная продуктивность). Тест Linpack является стандартным тестом для оценки продуктивности суперкомпьютеров. По результатам теста определяется место в рейтингах суперкомпьютеров, Тор50 и Тор500. На этапе проектирования, когда оборудования еще нет, реальная продуктивность оценивается по указанным выше характеристикам.
На следующем шагом будет определена топология и тип сети обмена данными (интерконнекта). На данный момент наиболее мощным интерконнектом признана сеть Infiniband, хотя естественно разрабатываются и используются также и другие высокопродуктивные сети.
Топология сети значительной мерой задает будущую продуктивность кластера. Структура сети определяет сколько промежуточных звеньев будет при передаче пакета от узла до узла и насколько будет загружена каждое из звеньев цепи при передаче пакета от узла до узла, а также какова будет нагрузка на звено при массовом обмене данными. Наиболее популярными топологиями являются: ''звезда'', ''тор'' и ''дерево''.
Топология ''звезда'' — это такой вид структуры сети, когда все звенья подсоединены к одному коммутатору. Такая структура предусматривает лишь один промежуточный элемент при обмене между какими-либо узлами.
Такая топология достижима в небольших системах, до 40-50 узлов, поскольку выдвигает значительные требования к продуктивности кластера.
Топология ''тор'' — распространенная структура сети, в которой вместо центрального коммутатора элементы сети соединены между собой таким образом, что соединения образуют трехмерный тор. У подобной сети элементы помимо получения собственных данных должны обеспечивать маршрутизацию других пакетов, передавая их к адресату по заданному маршруту.
Наиболее длинным будет маршрут при обмене между диаметрально удаленным узлами. В варианте с максимально возможной нагрузкой — все обмены самые длинные — каждое из звеньев цепи будет испытывать значительную нагрузку.
С другой стороны, это самая продуктивная технология при оптимистическом сценарии нагрузки — все обмены локальные. В таком случае вполне вероятно существование обменов вообще без промежуточного звена (узлы обмениваются с ближайшими соседями).
Топология ''дерево'' — расширенная топология звезда, когда элементами сети являются коммутаторы. Именно эта структура самая популярная на сегодняшний день. Для ''дерева'' легко определяется длина наибольшего маршрута, как и в топологии звезда.
Такая структура меньше зависит от локальности обменов и показывает, в отличии от ''тора'', хорошую продуктивность и при наихудшем сценарии обменов.
Выбор платформы узла состоит в определении таких параметров, как:
- форм-фактор — габариты корпуса узла, распространены 1U, 2U, Twin, Dual Twin, Blade, для монтажа в стандартную 19-ти дюймовую стойку;
- архитектура процессора, тип материнской плати.
Эти параметры ключевые для определения характеристик узла: быстродействия, надежности, поддержки разных информационных технологий.
Выбранная платформа задает характеристики энергопотребления узла и кластера вцелом. Выходя из полученных данных проектируется питание шкафов, с расчетом на 75 процентную загрузку источников бесперебойного питания (UPS). Для UPS с несколькими выходными каналами важным моментом является балансировка нагрузки между каналами. Следующим пунктом идет проектирование охлаждения помещения кластерной зоны.
В суперкомпьютерах используются разные типы систем отвода лишнего тепла от вычислительного узла и серверов. Их можно разделить на одноконтурные и двухконтурные.
К одноконтурным относятся:
- фреоновые системы с испаряющим блоком в узле и конденсатором за помещением;
- одноконтурные системы водяного охлаждения на горячей воде с градирнею.
К двухконтурным относятся:
- системы воздушного охлаждения с кондиционерами;
- двухконтурные системы водяного охлаждения на холодной воде с фреоновыми охладителями.
По сей день наипопулярнейшими остаются стандартные системы воздушного охлаждения с кондиционерами. Хотя в последнее время, из-за увеличения энергетической плотности узлов, активно усовершенствуются и приобретают всю большую популярность одноконтурные системы на горячей воде. В последнюю очередь, возрастающий интерес к ним обусловлен самой большой изо всех охлаждающих систем эффективностью.
После выбора типа системы проводиться расчет тепловыделяющих и теплопоглощающих элементов. Схема воздухообмена составляется таким образом, чтобы избежать зон застоя воздуха.
Следующий этап это проектирование программной архитектуры кластера в соответствии с теми классами задач, которые будут на нем рассчитываться.


