Алгоритм проектирования суперкомпьютера

Суперкомпьютер, как и любой другой сложный инструмент, требует детального планирования во время своей разработки. Приведем алгоритмов разработки кластера.

  1. Определение ожидаемых характеристик продуктивности.
  2. Выбор типа интерконекта (сети передачи данных).
  3. Выбор компьютерной платформы узла.
  4. Определение характеристик енергопотребления.
  5. Проектирование подсистем питания вычислительного кластера.
  6. Подготовка схем физического размещения оборудования.
  7. Проектирование системы охлаждения..
  8. Построение программной архитектуры кластера.
  9. Определение количества и предназначения служебных серверов.

Начальным этапом проектирования является определение характеристик продуктивности. К ним относятся следующие величины.

Пиковая продуктивность — теоретическая величина, которая показывает сколько операций выполнил бы процесс за единицу времени, если бы он на каждом такте своей работы выполнял все возможные операции.

Рассчитывается данная величина следующим образом: (Количество узлов)х(Количество ядер в узле)х(Частота процессора)х(Количество операций за такт).

Коэффициент эффективности архитектуры архитектуры — показывает соотношение между реальной продуктивностью и пиковой. Обычно соотносится продуктивность в тесте  Linpack с пиковой продуктивностью.

Суперкомпьютеры с подобным оборудованием и схожей архитектурой должны быть близки по коэффициентам эффективности, поэтому уже на этапе проектирования данный коэффициент позволяет оценить продуктивность будущего кластера.

Продуктивность в тесте Linpack (реальная продуктивность). Тест Linpack является стандартным тестом для оценки продуктивности суперкомпьютеров. По результатам теста определяется место в рейтингах суперкомпьютеров, Тор50 и Тор500. На этапе проектирования, когда оборудования еще нет, реальная продуктивность оценивается по указанным выше характеристикам.

На следующем шагом будет определена топология и тип сети обмена данными (интерконнекта). На данный момент наиболее мощным интерконнектом признана сеть  Infiniband, хотя естественно разрабатываются и используются также и другие высокопродуктивные сети.

Топология сети значительной мерой задает будущую продуктивность кластера. Структура сети определяет сколько промежуточных звеньев будет при передаче пакета от узла до узла и насколько будет загружена каждое из звеньев цепи при передаче пакета от узла до узла, а также какова будет нагрузка на звено при массовом обмене данными. Наиболее популярными топологиями являются: ''звезда'', ''тор'' и ''дерево''.

Топология ''звезда'' — это такой вид структуры сети, когда все звенья подсоединены к одному коммутатору. Такая структура предусматривает лишь один промежуточный элемент при обмене между какими-либо узлами.

Такая топология достижима в небольших системах, до 40-50 узлов, поскольку выдвигает значительные требования к продуктивности кластера.

Топология ''тор'' — распространенная структура сети, в которой вместо центрального коммутатора элементы сети соединены между собой таким образом, что соединения образуют трехмерный тор. У подобной сети элементы помимо получения собственных данных должны обеспечивать маршрутизацию других пакетов, передавая их к адресату по заданному маршруту.

Наиболее длинным будет маршрут при обмене между диаметрально удаленным узлами. В варианте с максимально возможной нагрузкой — все обмены самые длинные — каждое из звеньев цепи будет испытывать значительную нагрузку.

С другой стороны, это самая продуктивная технология при оптимистическом сценарии нагрузки — все обмены локальные. В таком случае вполне вероятно существование обменов вообще без промежуточного звена (узлы обмениваются с ближайшими соседями).

Топология ''дерево'' — расширенная топология звезда, когда элементами сети являются коммутаторы. Именно эта структура самая популярная на сегодняшний день. Для ''дерева'' легко определяется длина наибольшего маршрута, как и в топологии звезда.

Такая структура меньше зависит от локальности обменов и показывает, в отличии от ''тора'', хорошую продуктивность и при наихудшем  сценарии обменов.

Выбор платформы узла состоит в определении таких параметров, как:

  • форм-фактор — габариты корпуса узла, распространены  1U, 2U, Twin, Dual Twin, Blade, для монтажа в стандартную 19-ти дюймовую стойку;
  • архитектура процессора, тип материнской плати.

Эти параметры ключевые для определения характеристик узла: быстродействия, надежности, поддержки разных информационных технологий.

Выбранная платформа задает характеристики энергопотребления узла и кластера вцелом. Выходя из полученных данных проектируется питание шкафов, с расчетом на 75 процентную загрузку источников бесперебойного питания (UPS). Для UPS с несколькими выходными каналами важным моментом является балансировка нагрузки между каналами. Следующим пунктом идет проектирование охлаждения помещения кластерной зоны.

В суперкомпьютерах используются разные типы систем отвода лишнего тепла от вычислительного узла и серверов. Их можно разделить на одноконтурные и двухконтурные.

К одноконтурным относятся:

  • фреоновые системы с испаряющим блоком в узле и конденсатором за помещением;
  • одноконтурные системы водяного охлаждения на горячей воде с градирнею.

К двухконтурным относятся:

  • системы воздушного охлаждения с кондиционерами;
  • двухконтурные системы водяного охлаждения на холодной воде с фреоновыми охладителями.

По сей день наипопулярнейшими остаются стандартные системы воздушного охлаждения с кондиционерами. Хотя в последнее время, из-за увеличения энергетической плотности узлов, активно усовершенствуются и приобретают всю большую популярность одноконтурные системы на горячей воде. В последнюю очередь, возрастающий интерес к ним обусловлен самой большой изо всех охлаждающих систем эффективностью.

После выбора типа системы проводиться расчет тепловыделяющих и теплопоглощающих элементов. Схема воздухообмена составляется таким образом, чтобы избежать зон застоя воздуха.

Следующий этап это проектирование программной архитектуры кластера в соответствии с теми классами задач, которые будут на нем рассчитываться.