Slide 1

Slide 1 text

プリンシパルソリューションエンジニア 中野 匡彦 SambaNova Cloud: 超高速な推論 APIで AIエージェント開発を加速 2025-02-19 @Weights & Biases 様 AIエージェントLT会

Slide 2

Slide 2 text

Copyright © 2025 SambaNova Systems Inc. 2 2 Take-Home Message SambaNovaで 超⾼速推論 AIエージェントを開発するなら…

Slide 3

Slide 3 text

Copyright © 2025 SambaNova Systems Inc. 3 3 SambaNova Systems (サンバノバシステムズ ) 会社概要 創業者はAI業界の先駆者 ▪ 2017年、業界の第⼀⼈者らによりスタンフォー ド⼤学発のスタートアップとして設⽴ ▪ 第4世代ハードウェアから事前学習済みの基盤モ デルまで、完全に統合された⽣成AIプラット フォーム ▪ シリーズDまでに11億ドル以上の資⾦調達 Rodrigo Liang Co-founder & CEO Kunle Olukotun Co-founder & Chief Technologist & Stanford Professor Christopher Ré Co-founder & Stanford Professor プロフェッショナルな⻑期投資家からの⽀援 Lip-Bu Tan Executive Chairman

Slide 4

Slide 4 text

1.6 TB/s 25.6 TB/s “SN40L” RDU • TSMC 5nm テクノロジー + 1026億 トランジスタ + 1,040 RDUコア + 638 TFLOPS (bf16) • 3層 データフローメモリ + 520 MB オンチップメモリ (SRAM) + 64 GB 広帯域メモリ (HBM3) + 1.5 TB 大容量メモリ (DDR5) RDU — 生成AIの学習・推論に最適なアーキテクチャ Single system: SN40L-16 x 16 データフローを 大容量オンチップ メモリで実現 超低レイテンシの モデル切り替え 最大12兆個の パラメータ! RDU 大容量 DDR メモリ [24 TB] RDU 広帯域 HBM メモリ [1 TB] On-Chip SRAM [8.3 GB, PBs per sec] RDU: Reconfigurable Dataflow Unit (再構成可能データフローユニット) 4

Slide 5

Slide 5 text

少ないハードウェアで多数のモデルを稼働 従来のGPUシステム すべてのモデルをメモリに保持 超低遅延のモデル切り替えを実現 個別のモデルエンドポイント モデルを追加するたび、より多くのGPUの購入が必要 単一ノード: 16 x RDU(24TB メモリ) 単一ノード: 8 x GPU (640GB メモリ) 5

Slide 6

Slide 6 text

SambaNova NVIDIA Llama 3.2 1B 16-bit 2477 304 Llama 3.1 8B 16-bit 1066 93 Llama 3.1 70B 16-bit 460 32 Llama 3.1 405B 16-bit 200 14 SambaNova による超高速な推論パフォーマンス Artificial Analysis社による推論ベンチマーク結果 (単位: token/sec/user) GPUに対して10倍以上⾼速なトークン処理速度を実現 6

Slide 7

Slide 7 text

Copyright © 2025 SambaNova Systems Inc. DeepSeek-R1-671B 世界最速・最高効率の 推論を実現

Slide 8

Slide 8 text

Copyright © 2025 SambaNova Systems Inc.

Slide 9

Slide 9 text

量⼦化なし‧蒸留なしで世界最速! 出力スピードの比較 : DeepSeek-R1 - 出力トークン数/秒 (高いほど良い): 100入力トークン - SambaNova (プライベートエンドポイント): 2kコンテキストウィンドウ, リクエスト数 N=25, 2025/02/13 テスト実施 x7.6 9

Slide 10

Slide 10 text

Copyright © 2025 SambaNova Systems Inc. 処理速度 (token/sec) も重要ですが、 これからは電力あたりの処理効率 (token/W) が成功の鍵を握ります 40台のラックが 1台に集約

Slide 11

Slide 11 text

Copyright © 2025 SambaNova Systems Inc. 11 推論速度の重要性 速度とレイテンシは⽣成AI開発者に とって重要な評価基準である エージェントの構築には、多数の モデルの⾼速なリアルタイム推論が 必要 *Artificial Analysis社調べ Why?

Slide 12

Slide 12 text

Copyright © 2025 SambaNova Systems Inc. 12 推論時間のイメージ — GPU vs RDU 10 秒/リクエスト ⨉ 5 LLMリクエスト = 50 秒のwall time 1 秒/リクエスト ⨉ 5 LLMリクエスト = 5 秒のwall time

Slide 13

Slide 13 text

Copyright © 2025 SambaNova Systems Inc.

Slide 14

Slide 14 text

Copyright © 2025 SambaNova Systems Inc. 14 14 Take-Home Message SambaNovaで 超⾼速推論 AIエージェントを開発するなら…

Slide 15

Slide 15 text

Copyright © 2025 SambaNova Systems Inc. ぜひお試しください! cloud.sambanova.ai