4068aecb9c2f398cd8477c8bfd918213?s=128

Intel_Xeon

intel_xeon

Для параллельного теста я использовал прямой расчет N-тела на основе решения 4 лаборатории N-тела и преобразован в двойную точность. Несмотря на то, что исходный код создает векторный исполняемый файл, я удалил директивы векторизации и скомпилировал его с компилятором Intel C ++ 18.0 с использованием -no-vec для отключения автоматической векторизации. Полученный код использует регистры XMM и арифметические инструкции, заканчивающиеся суффиксом -sd , например vmovsd , vmulsd , vfmadd231sd , которые работают с одним числом двойной точности за раз. Эти инструкции являются репрезентативными для более сложных вычислений, в которых векторизация не возникает, поскольку структура контейнера кода или данных не позволяет этого.
В таблице 4 показан результат: средняя измеренная тактовая частота всех ядер под нагрузкой M PS и нормализованная производительность P PS . Константа нормализации для выбирается так, чтобы производительность одного и того же приложения на 6128 с 1 потоком была равна 1.

Тест производительности с многопоточным скалярным вычислением N-тела. N = 2 C - количество ядер в двухсторонней системе, M PS - измеренная тактовая частота в ГГц. E PS - ожидаемая нормализованная производительность, а P PS - измеренная нормализованная производительность.

Вы можете сравнить эти значения с максимальной производительностью Turbo Boost T PS и ожидаемой производительностью E PS на рисунке 3. Измеренные тактовые частоты равны или немного (до 8%) ниже максимальной частоты Turbo. Нормализованная производительность близка к прогнозируемым значениям, за исключением 6138, где она на 16% ниже.
Я также выполнил оценку параллельной компиляции ядра, вызвав инструмент make с аргументом -j 100 . Этот тест отличается от параллельного вычисления N-тела тем, что в процессе компиляции очень мало математики с плавающей запятой, и поэтому он служит независимой точкой проверки.
Результаты
Тест производительности с многопроцессорной обработкой в компиляции ядра.

.

Тактовые частоты в этом тесте ближе к максимальной частоте Turbo Boost, чем для теста N-body. Вероятно, это связано с тем, что доля распараллеленной работы, которую мы ранее обозначили как p , меньше 1. В то же время разрыв между нормализованной производительностью и ожидаемой производительностью больше с высокоуровневыми счетными SKU. Например, 2-гнездовая система с процессором Intel Xeon Gold 6128 имеет в общей сложности 12 ядер, а измеренная производительность составляет 90% от ожидаемого. Напротив, одна и та же 2-гнездовая система с процессором Intel Xeon Platinum 8160 имеет 48 ядер и составляет чуть более 60% от ожидаемого.

Bronze 3104 Bronze 3106 Gold 5115 Gold 5118 Gold 5120 Gold 5122 Gold 6126 Gold 6128 Gold 6130 Gold 6132 Gold 6134 Gold 6134M Gold 6136 Gold 6138 Gold 6140 Gold 6140M Gold 6142 Gold 6142M Gold 6144 Gold 6146 Gold 6148 Gold 6150 Gold 6152 Gold 6154 Platinum 8153 Platinum 8160 Platinum 8160M Platinum 8164 Platinum 8168 Platinum 8170 Platinum 8170M Platinum 8176 Platinum 8176M Platinum 8180 Platinum 8180M Silver 4108 Silver 4109T Silver 4110 Silver 4112 Silver 4114 Silver 4116

Intel_Xeon hasn't published any talks.