VSP専用プロセッサ設計と実行エンジンIyokanについて

VSP専用プロセッサ設計と実行エンジンについて松本直樹(@PiBVT) 2020/02/08 カーネル/VM探検隊@関西 10回目

Agenda • 自己紹介 • VSP専用プロセッサ設計について • 並列実行エンジン Iyokan について

自己紹介松本直樹 (@PiBVT) 京都大学工学部情報学科3回生未踏プロジェクトでの担当 • VSP専用プロセッサ設計 • 実行エンジンの基本設計,試作実装

VSP専用プロセッサ設計について VSPはプロセッサ設計が必要暗号処理はゲートレベルで行われる -> プロセッサ設計は平文と同様のものが利用できる FHEゲートの演算のコスト -> 出来る限りゲート数が少ない設計が必要

VSP専用プロセッサ設計について出来る限り少ないゲート数,省ROM,RAM -> 専用のISAとそのプロセッサ設計を開発することに ※ROM,RAMはそれぞれ512byteでも20,000ゲート以上あるため、全体のゲート規模にかなり影響がある

時系列でみるVSP専用プロセッサ設計 2019年6月　プロジェクト開始　　　 7月　rv32k-garnet 開発中止　　　 8月　rv16k-amethyst(RV16Kv2準拠マルチサイクル)完成　　　 9月　rv16k-aquamarine(RV16Kv2準拠
5段パイプライン)完成 10月　cahp-diamond(CAHPv3準拠 5段パイプライン)完成 2020年1月 cahp-emerald(CAHPv3準拠スーパースカラ)完成

cahp-emeraldについて • VSP専用プロセッサ第5世代設計 • CAHPv3(16bit/24bit混合命令長) 準拠 • 5段パイプライン • 最大2命令同時発行インオーダースーパースカラ
• 約8,000ゲート(cahp-diamond が約4,000 ゲート) • IPC 1.1(cahp-diamondが0.78) • このままだと不採用の危機(ゲート規模的に)

cahp-emeraldのアーキテクチャ 5段パイプライン・インオーダースーパースカラ

混合命令長のつらさ • 16bit/24bitで偶数倍長の関係にないため、アライメントをまたぐ命令アクセスが起こる • ジャンプでの命令フェッチで余計なストールが発生する • ゲート規模が膨らむ

• 32bitブロックでのROMアクセスを行ったとしてもブロック間をまたぐ命令が存在する -> ブロック間をまたぐ命令アクセスを実現する機構が必要混合命令長のつらさその１

一度読み込んだブロックをキャッシュに保持し、ブロックをまたいだアクセスを実現 -> ジャンプが起きると....?

並列実行エンジン Iyokan について • 回路情報を元にFHEゲートを評価する並列実行エンジン • TFHEpp(CPU)/cuFHE(GPU)を暗号処理のバックエンドとして利用可能 • verilogファイルからの回路合成は外部ツール(yosys)を利用

ゲートの評価順には依存関係がある • ネットリスト上のゲートは上流から下流へと順に評価する

ネットリストをDAG(有向非循環グラフ)で表現 1. 上流ノードを持たないノードを評価待ちとする 2. 評価待ちのノードを評価 3. 辺経由で下流のノードに評価済みであることを通知 4. 入力の上位ノードすべてが評価済みならノードを評価待ちとする 5.
評価待ちノードが存在する場合、2へ戻る

CPU/GPU対応 • CPU対応はライブラリのTFHEppで簡単に実現 -> しかし、AVX2等を使っても遅い -> V100などを用いたGPGPUで高速化した例がある • GPU対応で、ホスト,デバイス間のメモリ一貫性は？ ->
毎回転送？ -> すべてGPUオンメモリ？

CPU/GPU対応 • ゲートの出力値を保持する変数は高々数100KB • 一度転送すれば暗号処理自体は10ms程度処理にかかる • H2D,D2Hのメモリ転送の影響は限りなく小さい • かなりのCPUバウンドな処理のため、MPIでもスケールする...? •
CPUとGPUの両者を用いたスケジューラを開発中毎回転送することにした

VSP専用プロセッサ設計と実行エンジンIyokanについて

VSP専用プロセッサ設計と実行エンジンIyokanについて

VTb

More Decks by VTb

Other Decks in Technology

Featured

Transcript

VSP専用プロセッサ設計と実行エンジンについて松本直樹(@PiBVT) 2020/02/08 カーネル/VM探検隊@関西 10回目

Agenda • 自己紹介 • VSP専用プロセッサ設計について • 並列実行エンジン Iyokan について

自己紹介松本直樹 (@PiBVT) 京都大学工学部情報学科3回生未踏プロジェクトでの担当 • VSP専用プロセッサ設計 • 実行エンジンの基本設計,試作実装

VSP専用プロセッサ設計について VSPはプロセッサ設計が必要暗号処理はゲートレベルで行われる -> プロセッサ設計は平文と同様のものが利用できる FHEゲートの演算のコスト -> 出来る限りゲート数が少ない設計が必要

VSP専用プロセッサ設計について出来る限り少ないゲート数,省ROM,RAM -> 専用のISAとそのプロセッサ設計を開発することに ※ROM,RAMはそれぞれ512byteでも20,000ゲート以上あるため、全体のゲート規模にかなり影響がある

時系列でみるVSP専用プロセッサ設計 2019年6月　プロジェクト開始　　　 7月　rv32k-garnet 開発中止　　　 8月　rv16k-amethyst(RV16Kv2準拠マルチサイクル)完成　　　 9月　rv16k-aquamarine(RV16Kv2準拠

cahp-emeraldについて • VSP専用プロセッサ第5世代設計 • CAHPv3(16bit/24bit混合命令長) 準拠 • 5段パイプライン • 最大2命令同時発行インオーダースーパースカラ

cahp-emeraldのアーキテクチャ 5段パイプライン・インオーダースーパースカラ

混合命令長のつらさ • 16bit/24bitで偶数倍長の関係にないため、アライメントをまたぐ命令アクセスが起こる • ジャンプでの命令フェッチで余計なストールが発生する • ゲート規模が膨らむ

• 32bitブロックでのROMアクセスを行ったとしてもブロック間をまたぐ命令が存在する -> ブロック間をまたぐ命令アクセスを実現する機構が必要混合命令長のつらさその１

一度読み込んだブロックをキャッシュに保持し、ブロックをまたいだアクセスを実現 -> ジャンプが起きると....?

並列実行エンジン Iyokan について • 回路情報を元にFHEゲートを評価する並列実行エンジン • TFHEpp(CPU)/cuFHE(GPU)を暗号処理のバックエンドとして利用可能 • verilogファイルからの回路合成は外部ツール(yosys)を利用

ゲートの評価順には依存関係がある • ネットリスト上のゲートは上流から下流へと順に評価する

CPU/GPU対応 • CPU対応はライブラリのTFHEppで簡単に実現 -> しかし、AVX2等を使っても遅い -> V100などを用いたGPGPUで高速化した例がある • GPU対応で、ホスト,デバイス間のメモリ一貫性は？ ->