Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
SambaNova Systems「SambaNova Cloud: 超高速な推論APIでAI...
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Ryo Kanazawa
February 27, 2025
550
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
SambaNova Systems「SambaNova Cloud: 超高速な推論APIでAIエージェント開発を加速」
Ryo Kanazawa
February 27, 2025
More Decks by Ryo Kanazawa
See All by Ryo Kanazawa
株式会社Elith「AI エージェントは何に使うべきか」
ryo1443
1
770
久保田 崇文氏「Cloud Run, Firestore, LangGraph を使ったAgentic Chatbot」
ryo1443
0
540
株式会社ABEJA「GENIAC2期におけるABEJAの取り組み」
ryo1443
0
610
株式会社BLUEISH 「情報収集をAI Agentに任せるため、 プロンプトもLLMが更新するようにした話
ryo1443
1
510
Featured
See All Featured
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
31
2.8k
Joys of Absence: A Defence of Solitary Play
codingconduct
1
390
Intergalactic Javascript Robots from Outer Space
tanoku
273
27k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
141
35k
Ruling the World: When Life Gets Gamed
codingconduct
0
250
Organizational Design Perspectives: An Ontology of Organizational Design Elements
kimpetersen
PRO
1
720
Color Theory Basics | Prateek | Gurzu
gurzu
0
360
Are puppies a ranking factor?
jonoalderson
1
3.5k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
38
2.9k
Building Flexible Design Systems
yeseniaperezcruz
330
40k
Context Engineering - Making Every Token Count
addyosmani
9
960
How to make the Groovebox
asonas
2
2.2k
Transcript
プリンシパルソリューションエンジニア 中野 匡彦 SambaNova Cloud: 超高速な推論 APIで AIエージェント開発を加速 2025-02-19 @Weights
& Biases 様 AIエージェントLT会
Copyright © 2025 SambaNova Systems Inc. 2 2 Take-Home Message
SambaNovaで 超⾼速推論 AIエージェントを開発するなら…
Copyright © 2025 SambaNova Systems Inc. 3 3 SambaNova Systems
(サンバノバシステムズ ) 会社概要 創業者はAI業界の先駆者 ▪ 2017年、業界の第⼀⼈者らによりスタンフォー ド⼤学発のスタートアップとして設⽴ ▪ 第4世代ハードウェアから事前学習済みの基盤モ デルまで、完全に統合された⽣成AIプラット フォーム ▪ シリーズDまでに11億ドル以上の資⾦調達 Rodrigo Liang Co-founder & CEO Kunle Olukotun Co-founder & Chief Technologist & Stanford Professor Christopher Ré Co-founder & Stanford Professor プロフェッショナルな⻑期投資家からの⽀援 Lip-Bu Tan Executive Chairman
1.6 TB/s 25.6 TB/s “SN40L” RDU • TSMC 5nm テクノロジー
+ 1026億 トランジスタ + 1,040 RDUコア + 638 TFLOPS (bf16) • 3層 データフローメモリ + 520 MB オンチップメモリ (SRAM) + 64 GB 広帯域メモリ (HBM3) + 1.5 TB 大容量メモリ (DDR5) RDU — 生成AIの学習・推論に最適なアーキテクチャ Single system: SN40L-16 x 16 データフローを 大容量オンチップ メモリで実現 超低レイテンシの モデル切り替え 最大12兆個の パラメータ! RDU 大容量 DDR メモリ [24 TB] RDU 広帯域 HBM メモリ [1 TB] On-Chip SRAM [8.3 GB, PBs per sec] RDU: Reconfigurable Dataflow Unit (再構成可能データフローユニット) 4
少ないハードウェアで多数のモデルを稼働 従来のGPUシステム すべてのモデルをメモリに保持 超低遅延のモデル切り替えを実現 個別のモデルエンドポイント モデルを追加するたび、より多くのGPUの購入が必要 単一ノード: 16 x RDU(24TB
メモリ) 単一ノード: 8 x GPU (640GB メモリ) 5
SambaNova NVIDIA Llama 3.2 1B 16-bit 2477 304 Llama 3.1
8B 16-bit 1066 93 Llama 3.1 70B 16-bit 460 32 Llama 3.1 405B 16-bit 200 14 SambaNova による超高速な推論パフォーマンス Artificial Analysis社による推論ベンチマーク結果 (単位: token/sec/user) GPUに対して10倍以上⾼速なトークン処理速度を実現 6
Copyright © 2025 SambaNova Systems Inc. DeepSeek-R1-671B 世界最速・最高効率の 推論を実現
Copyright © 2025 SambaNova Systems Inc.
量⼦化なし‧蒸留なしで世界最速! 出力スピードの比較 : DeepSeek-R1 - 出力トークン数/秒 (高いほど良い): 100入力トークン - SambaNova
(プライベートエンドポイント): 2kコンテキストウィンドウ, リクエスト数 N=25, 2025/02/13 テスト実施 x7.6 9
Copyright © 2025 SambaNova Systems Inc. 処理速度 (token/sec) も重要ですが、 これからは電力あたりの処理効率
(token/W) が成功の鍵を握ります 40台のラックが 1台に集約
Copyright © 2025 SambaNova Systems Inc. 11 推論速度の重要性 速度とレイテンシは⽣成AI開発者に とって重要な評価基準である
エージェントの構築には、多数の モデルの⾼速なリアルタイム推論が 必要 *Artificial Analysis社調べ Why?
Copyright © 2025 SambaNova Systems Inc. 12 推論時間のイメージ — GPU
vs RDU 10 秒/リクエスト ⨉ 5 LLMリクエスト = 50 秒のwall time 1 秒/リクエスト ⨉ 5 LLMリクエスト = 5 秒のwall time
Copyright © 2025 SambaNova Systems Inc.
Copyright © 2025 SambaNova Systems Inc. 14 14 Take-Home Message
SambaNovaで 超⾼速推論 AIエージェントを開発するなら…
Copyright © 2025 SambaNova Systems Inc. ぜひお試しください! cloud.sambanova.ai