Batch Processing Algorithm for Elliptic Curve Operations and Its AVX-512 Implementation

楕円曲線演算のバッチ処理アルゴリズムと AVX-512を用いた実装評価サイボウズ・ラボ光成滋生 2025/1/31 4B2-1 SCIS2025 1 / 19

背景広く使われている楕円曲線暗号 TLSで使われる楕円DH鍵共有・ECDSAなど数個の楕円曲線の点の演算が多い楕円曲線を用いた高機能な暗号技術 zk-SNARK, BBS+署名, 集約署名, 複数のBLS署名をまとめて検証, 属性ベース暗号など
ZKPや高機能署名はブロックチェーン・Verifiable Credentialsなどで多用されている楕円Lifted ElGamal暗号を用いた二者間秘密計算 SCIS2021 （with 九州大学縫田氏）, SCIS2022, SCIS2024 （with NTT上野氏）これらは多数（～数万）の楕円曲線の点の演算が必要 → 多数の楕円曲線の演算のバッチ処理の高速化が重要 EdMSM, arkmsmなどの既存手法を紹介しつつ改善 2 / 19

今回ターゲットとする演算スカラー倍算のバッチ処理楕円曲線の点と整数に対してを計算するマルチスカラー倍算 (MSM : Multi-Scalar
Multiplication) 楕円曲線の点と整数に対してを計算するこの二つは似ているがが大きいと高速化手法が異なる 3 / 19

楕円曲線のスカラー倍算 ( ) の基本ビットウィンドウ法与えられたに対してつまりを計算するビット整数
を進数で表現する : ( , ) 出力変数をを初期値として倍しながらを加算する SIMD (Single Instruction, Multiple Data) の要件要素ごとに分岐するのは不得手なためNAFやループ数が可変する手法は使わないテーブルルックアップはgather命令を利用演算コスト , where : 2倍算, : 加算 4 / 19

GLV法 2倍算のコストを半分にする手法ビット位数の群に対してビット整数と計算容易なを用意整数に対してとなる
ビット整数 , を選ぶのスカラー倍算をのMSMに変換した BLS12-381曲線の場合定義方程式はでの位数の部分群をとするは381ビットで , は255ビット素数を1の原始3乗根( )としとするはの自己同型写像で、ある128ビット奇数が存在し 5 / 19

GLV法の疑似コード input : と , output : a + b
L = n となる a, b に分解する tbla, tblb 2^w 個の配列を用意する tbla[0] = tblb[0] = 0 for i from 1 to 2^w-1: tbla[i] = tbla[i-1] + P # tbla[i] = i P tblb[i] = L tbla[i] # tblb[i] = i L P Q = 0 for i from 0 to ⌈L/2/w⌉: Q = 2^w Q Q = Q + tblb[bのiwビットからwビットを取り出す] Q = Q + tbla[aのiwビットからwビットを取り出す] return Q 6 / 19

の分解となるの選択 BLS12-381曲線においては , でOK Barrettリダクション : を事前計算してによる除算を回避
提案方式とするとは128ビットの上位ビット , とすると , . なら , とする 128ビット同士の整数乗算x2, ビットシフトx1, 129ビット引き算x2 既存方式よりも条件分岐と減算回数を削減 7 / 19

Weierstrass曲線の加算加算と2倍算の公式が異なる加算の中での場合2倍算に移行しなければならない分岐が発生 SIMDでは扱いづらい・遅い → でを避けたい
8 / 19

GLV法のループ内の挙動疑似コードの後半を再掲 Q = 0 for i from 0 to
⌈L/2/w⌉: # Q = d P と表記すると d はループを通して単調増加 Q = 2^w Q Q = Q + d_b L P # -- (A1) 0 <= d_b < 2^w Q = Q + d_a P # -- (A2) 0 <= d_a < 2^w return Q 補題 : BLS12-381曲線で (A1), (A2) の加算値が同じ値になることはない (A1) においては奇数なのではと異なる (A2) において . → においてを仮定できる（は許容する） 9 / 19

座標選択 2倍算の回数が加算回数より多い → ヤコビ座標を利用するバッチ処理におけるアフィン化のコストが低い最初にをアフィン化するウィンドウ法のためのテーブル作成はの繰り返し「ヤコビ座標+アフィン座標」による混合座標を用いた加算を利用
テーブル作成後も再度アフィン化することで後半のループ内の加算も混合座標を利用可能 10 / 19

逆元のバッチ処理非SIMDの場合楕円曲線の点についてが必要入力に対してを求めてからを求める（詳細は予稿集参照）個の元の逆元のコストは
（ : 逆元, : 乗算） SIMDの場合逆元はループと分岐が多いためSIMDで実装するのは煩雑で難しい SIMDによる全体のバッチ処理＋「個の逆元をスカラーの逆元のバッチ処理」それぞれを SIMD処理 x 0 x 1 x 7 x 8 x 9 x 15 x 8n x 8n+1 x 8n+7 各⾏ごとの積に対してスカラーに対する逆元のバッチ処理 11 / 19

今回ターゲットとする環境 AVX-512 IFMA Intel CPUの52ビット乗算対応のSIMD命令 52ビット整数 , と64ビット整数に対してをSIMDで計算できる
加減算・論理演算・シフト演算などは64ビット単位で個並列のSIMDで処理するデータの形 BLS12-381曲線では381ビット整数を52ビット単位に分割して64ビット整数8個で表現する個の384ビット整数を8個のSIMDレジスタに格納する SIMDレジスタ1個 X 00 X 01 X 02 zmm0 zmm1 zmm2 ... X 10 X 11 X 12 X 20 X 21 X 22 整数X 0 整数X 1 X 07 X 17 X 27 zmm7 12 / 19

Montgomery乗算記号 : 素数, : 整数, , , に対してとする
に対してをビットMontgomery表現と呼ぶ , 変換の高速化通常のスカラー64ビットMontgomery表現からSIMD 52ビットMontoegomery表現への変換 : スカラー版乗算8回+SIMD版乗算1回 : 改良後 SIMD版乗算1回 x i x i R 64 x i R 52 スカラーfromMont x8 SIMD toMont x1 SIMD mont(x i , 2 32 ) x1 13 / 19

ベンチマーク環境 Intel Xeron w9-3495X (Sapphire Rapids), Ubuntu 24.04.1 LTS,
gcc 13.2.0 (SIMD乗算はs_xbyak) https://github.com/herumi/mcl : BLS12-381曲線ので評価バッチ処理+SIMDによる高速化率基本演算演算非 SIMD SIMD SIMD 加算 273 118.36 (2.3x) 102.44 (2.66x) 2倍算 187 70.66 (2.6x) 64.38 (2.9x) SIMD演算を2個ずつ並べて（1024ビットSIMD相当）とすると1割ほど高速化スカラー倍算のバッチ処理は3.23倍の高速化を達成 14 / 19

MSM ( ) が小さいときは素直に個のウィンドウ法（大きいと逆に遅くなる）バケット法としてに対してが十分大きい時に効率的にを計算する手法
例 : のときなのでをそれぞれのグループに分けるこの処理をpartialSum( , )と書くことにするバケット法の疑似アルゴリズム b = getBucketSize(n) # x_i を何ビットずつ分割するかバケットサイズを決める Q = 0 for w from 0 to ⌈l/b⌉: Q = 2^b Q + partialSum(P_i, x_iのw*bビットからbビット切り出したもの) return z 15 / 19

最適なバケットサイズ演算コストの見積もりビット取り出してを求めるコストそれぞれを求める全体のコストは . のコストは全体のコストは : :
のビット長これを最小化するを求める - つまりとして近似解 where : のビット長で厳密解との差は以内このとき全体のコストは GLV法を組み合わせると , なのでのコストが倍が大きくなると効果が小さくなる 16 / 19

スカラー倍算のバッチ処理との違い射影座標への変換 partialSum内のはを仮定できないヤコビ座標を使えない射影座標の完全加法公式を利用する（今回の対象がMontgomery曲線ではない）アフィン化によりによる混合座標の加法公式も利用できるが効果は小さい SIMDの並列数バケット法で大きなテーブルルックアップ
テーブルのサイズはよりもが速い（gatherがボトルネック?） 17 / 19

バケットサイズの理論値と実際の最良値とのずれ横軸に対するバケットサイズの理論値と実測値の比較青丸(theoretic) : コスト最小の理論値, オレンジ四角(heuristic) : 速度最大となる実測値緑三角はそのときの速度向上率
heuristicはd=16~19, 23~27で一定値はL2キャッシュ (2MiB), はL3キャッシュ (105MiB) に収まるサイズ 18 / 19

まとめスカラー倍算のバッチ処理, MSMのSIMD化により3.23x, 1.4~1.66x MSMは1個ずつスカラー倍算して加算した場合の8.3x (n=8192のとき) スカラー倍算のバッチ処理とMSMでの最適な選択項目スカラー倍算 MSM
add( ) を仮定できるできない座標ヤコビ座標射影座標 GLV法重要が大きいと重要度は低い SIMD処理単位 V=16 V=8（アンロールはメモリ圧迫） L2, L3キャッシュサイズ考慮不要バケットサイズに影響 AVX-512 IFMAによる高速化率 3.23x 1.4~1.66x (vs. arkmsm) 19 / 19

Batch Processing Algorithm for Elliptic Curve O...

Batch Processing Algorithm for Elliptic Curve Operations and Its AVX-512 Implementation

herumi

More Decks by herumi

Other Decks in Research

Featured

Transcript

楕円曲線演算のバッチ処理アルゴリズムと AVX-512を用いた実装評価サイボウズ・ラボ光成滋生 2025/1/31 4B2-1 SCIS2025 1 / 19

背景広く使われている楕円曲線暗号 TLSで使われる楕円DH鍵共有・ECDSAなど数個の楕円曲線の点の演算が多い楕円曲線を用いた高機能な暗号技術 zk-SNARK, BBS+署名, 集約署名, 複数のBLS署名をまとめて検証, 属性ベース暗号など

今回ターゲットとする演算スカラー倍算のバッチ処理楕円曲線の点と整数に対してを計算するマルチスカラー倍算 (MSM : Multi-Scalar

楕円曲線のスカラー倍算 ( ) の基本ビットウィンドウ法与えられたに対してつまりを計算するビット整数

GLV法 2倍算のコストを半分にする手法ビット位数の群に対してビット整数と計算容易なを用意整数に対してとなる

GLV法の疑似コード input : と , output : a + b

の分解となるの選択 BLS12-381曲線においては , でOK Barrettリダクション : を事前計算してによる除算を回避

Weierstrass曲線の加算加算と2倍算の公式が異なる加算の中での場合2倍算に移行しなければならない分岐が発生 SIMDでは扱いづらい・遅い → でを避けたい

GLV法のループ内の挙動疑似コードの後半を再掲 Q = 0 for i from 0 to

逆元のバッチ処理非SIMDの場合楕円曲線の点についてが必要入力に対してを求めてからを求める（詳細は予稿集参照）個の元の逆元のコストは

今回ターゲットとする環境 AVX-512 IFMA Intel CPUの52ビット乗算対応のSIMD命令 52ビット整数 , と64ビット整数に対してをSIMDで計算できる

Montgomery乗算記号 : 素数, : 整数, , , に対してとする

ベンチマーク環境 Intel Xeron w9-3495X (Sapphire Rapids), Ubuntu 24.04.1 LTS,

MSM ( ) が小さいときは素直に個のウィンドウ法（大きいと逆に遅くなる）バケット法としてに対してが十分大きい時に効率的にを計算する手法

最適なバケットサイズ演算コストの見積もりビット取り出してを求めるコストそれぞれを求める全体のコストは . のコストは全体のコストは : :

バケットサイズの理論値と実際の最良値とのずれ横軸に対するバケットサイズの理論値と実測値の比較青丸(theoretic) : コスト最小の理論値, オレンジ四角(heuristic) : 速度最大となる実測値緑三角はそのときの速度向上率

まとめスカラー倍算のバッチ処理, MSMのSIMD化により3.23x, 1.4~1.66x MSMは1個ずつスカラー倍算して加算した場合の8.3x (n=8192のとき) スカラー倍算のバッチ処理とMSMでの最適な選択項目スカラー倍算 MSM