Slide 36
Slide 36 text
FP32ベクトルのアラインメント制約緩和
• VE20ではFP32ベクトルをロード・ストアする際は8バイトアラインされている
必要があり,⼀部のアクセスパターン (ステンシル等) では性能低下が発⽣
• VE30はこの制約を4バイトアラインに緩和
第191回HPC研究会@東北⼤学 36
0
10
20
30
40
50
60
70
VE20
w/o packed
VE30
w/o packed
VE30
w/ packed
GFLOP/s
do k = 1, nz
do j = 1, ny
do i = 1, nx
a(i,j,k) = a(i,j,k) + &
(b(i-1,j-1,k-1) + b(i ,j-1,k-1) + b(i+1,j-1,k-1) + &
b(i-1,j ,k-1) + b(i ,j ,k-1) + b(i+1,j ,k-1) + &
b(i-1,j+1,k-1) + b(i ,j+1,k-1) + b(i+1,j+1,k-1) + &
b(i-1,j-1,k ) + b(i ,j-1,k ) + b(i+1,j-1,k ) + &
b(i-1,j ,k ) + b(i ,j ,k ) + b(i+1,j ,k ) + &
b(i-1,j+1,k ) + b(i ,j+1,k ) + b(i+1,j+1,k ) + &
b(i-1,j-1,k+1) + b(i ,j-1,k+1) + b(i+1,j-1,k+1) + &
b(i-1,j ,k+1) + b(i ,j ,k+1) + b(i+1,j ,k+1) + &
b(i-1,j+1,k+1) + b(i ,j+1,k+1) + b(i+1,j+1,k+1))/27.0
end do
end do
end do
27点ステンシルベンチマーク