Система контроля температуры оборудования Therm Guard
Очень часто выход из строя одного кондиционера провоцирует эффект "домино": работающие в перегрузке кондиционеры один за одним выходят из строя, все больше усугубляя ситуацию и в результате наступает коллапс системы охлаждения.
Система охлаждения кластера может выйти из строя полностью или частично по таким причинам:
- перегрузка кондиционера, особенно в летний период;
- срабатывание автоматов защиты електропитания;
- засорение радиаторов внешних блоков пылью.
При такого рода аварии уже через час температура в кластерном зале достигает 60-70 С. После пересечения рубежа в 70 еффект "домино" распространяется на суперкомпьютеры - из-за перегрева начинают выходить из строя узлы.
Система Therm Guard нашей компании повышает живучесть кластера в подобных ситуациях. Система охлаждения в кластерном зале расчитывается таким образом, чтобы создать холодные зоны в местах расположения кластерных шкафов.
Сразу после выключения части охладителей происходит разбалансирование термодинамической системы, и на месте холодных зон появляются зоны перегрева, в это время часть узлов кластера за границами горячих зон может работать нормально.
Через некоторое время общая температура в помещении повысится, и под ударом окажется уже все оборудование в зале.
Система Therm Guard определяет такие зоны и выключает узлы, находящиеся в опасности. Тепловыделение понижается и зоны перегрева уменьшаются. Последовательное отключение узлов кластера продолжается до наступления нового термодинамического равновесия.
Часть задач, выполнявшихся на пораженных узлах, может быть сброшена, поэтому после возвращения кластера в рабочий температурный коридор стоит проверить список и поставить сброшенные задачи в очередь.
Так же обрабатывается случай точечного перегрева узла. Причиной этого может служить выход из строя блока вентиляторов или появление препятствия на пути воздуха, проходящего через узел. Система определяет неисправный узел и выключает его.


