Тюнинг графических ускорителей на шине PCI-Express
Современные графические ускоритель используют шину PCI-Express для обменом между ядрами GPU, памятью и процессором вычислительного узла.
Структура типовой материнской плати графического узла приведена на рис. 1.
Шина PCI-Express является набором некоторого количества последовательных линий передачи данных. Так, платы графических ускорителей используют разъем 16хPCI-Express, который имеет 16 последовательных линий передачи данных, каждая из которых имеет частоту 100 МГц.
Традиционно характеристикой продуктивности шины принято считать её пропускную способность, которая характеризирует максимально возможное количество переданной через шину информации.
Для PCI-Express 16х пропускная способность составляет
16 ∙ 200 = 3200 МВ/с
(один последовательный канал имеет продуктивность200 МВ/с).
Другой важной характеристикой шины является темп передачи данных, который указывает какое количество машинных слов можно передать шиной за единицу времени.
Для шины PCI-Express темп передачи данных будет эквивалентен продуктивности одного канала передачи данных (1х) и будет составлять 200 МВ/с (2 байта ∙ 100 МГц).
Реальная продуктивность узла с графическим ускорителем может варьировать от 200 до 3200
МВ/с, в зависимости от типов обменов. При обмене большими блоками продуктивность достаточно высока, в то время как при обмене малыми блоками данных продуктивность шины будет ограничена невысоким темпом передачи данных.
Важность этого фактора подтверждает исследование зависимости продуктивности GPU – ускорителя от частоты шины PCI-Express.
В ходе экспериментов частота шины изменялась от стандартной 100 МГц до 130 МГц. В качестве ускорителя использовались две платы NVidia GForce 8800 GTX.
Для оценки продуктивности использовался тест из пакета Cula, который сравнивает выполнение математических функций на GPU с аналогами библиотеке MKL.
Как видно из графика, возрастание частоты шины дает линейный прирост продуктивности ускорителя (уменьшение времени выполнения теста).
Линейная зависимость свидетельствует о том, что шина — это узкое места для данной архитектуры и насыщение по этой характеристике не происходит.


