例:𝑣𝑖 = 𝑥𝑖 − 𝑦𝑖 𝑖 = 0 … 7 を計算するケース(模式図) INT Load FP32 INT Store INT Load FP32 INT Store INT Load FP32 INT Store INT Load FP32 INT Store INT Load FP32 INT Store INT Load FP32 INT Store INT Load FP32 INT Store core0 INT Load FP32 INT Store INT Load FP32 INT Store core1 INT Load FP32 INT Store INT Load FP32 INT Store core2 INT Load FP32 INT Store INT Load FP32 INT Store core3 INT Load FP32 INT Store INT Load FP32 INT Store 8要素の処理を4コア/4スレッドで実行 8要素の処理を4コア/8スレッドで実行 Warp Schedulerが、 開いたリソースに 実行待ちのスレッドを 投入する。 ➔ 余剰リソースが減り、 実行時間を短くできる。 ソフトウェアサイエンス特別講義A~OSS基盤の上に実装するGPUデータベース~ 44