Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AIアプリケーション開発のためのW&Bプロダクトアップデート

 AIアプリケーション開発のためのW&Bプロダクトアップデート

Avatar for W&B Si

W&B Si

July 30, 2025
Tweet

More Decks by W&B Si

Other Decks in Technology

Transcript

  1. 3

  2. AI開発には幅広いアプローチがある 6 取り組んでいる企業の数 Low Model Customization OpenAI、Anthropic、Google、Amazon などの企業から 提供される既製モデルを使用します。モデルプロバイ ダーのAPIを用い、プロンプト・エージェントレベルの開

    発 Moderate Customization Llama などのオープンウェイトモデルを使用し、ファイ ンチューニング In-house Model Development 自社で基盤モデルをトレーニング モデルカスタマイズのレベル 高 低
  3. W&Bまとめ: ファインチューニングから AIエージェントまで、 AI開発を包括的に支援 8 各分野ユースケースにおける生成 AI開発の高い要求レベルに対応 ファイン チューニング 社内データで

    モデルをカスタマイズ Experiments Models Training, Fine-tuning, Deployment 最適化 ハイパーパラメータ チューニング Sweeps Automations Table 分析 データとメトリクスの 可視化と探索 事前学習 大規模 トレーニング AIモデル開発 AIアプリケーション開発 ガバナンス コンプライアンス、コラ ボレーション、セキュ リティを支援 Registry | Lineage | Reports 改善 精度・遅延・コスト・安全 性を評価・最適化 プロトタイピング AIアプリの初期バージョ ンを試作する デプロイ デプロイ・ ガードレール オブザーブ 監視・フィードバック収 集 Playground | Traces Guardrails Evaluations | Leaderboards User feedback Weave GenAI Application Development
  4. Better together: develop, deploy, and iterate AI faster 10 •

    AI開発のワークフローを簡素化し、AIイノベーションをより早 く市場に投入するための機能を提供します。 • 顧客のワークフローに対する独自の洞察を提供し、継続的 なプラットフォームの改善を促進することができます。 Application Software Services SUNK Inference Optimization & Services Bare Metal VPC CKS LOTA Nimbus Bluefield DPUs InfiniBand NVlink GB200 Liquid Cooling Mission Control FLCC NLCC AI-Modular Designs Models (W&B Models) • 実験の追跡と可視化 • MLワークフローのジョブを パッケージ化・実行するた めのツール • ハイパーパラメータの最適 化 • CI/CDパイプラインの構築 Applications (W&B Weave) • LLMおよびプロンプトの監 視とデバッグ • エージェント型AIアプリケー ションを厳密に評価するた めのツール • エージェントおよびプロンプ トの監視とデバッグ W&B Models W&B Weave Managed Software Services Infrastructure Services Data Center Observability & Lifecycle Management
  5. CoreWeaveとW&Bの新しいインテグレーション 11 CW observability in W&B Models コアウィーブのミッション・ コントロールがW&Bワーク スペースに登場

    BYOB with CW AI Object Storage CWのオブジェクトストレー ジを利用し、安全で高速 なデータロードとモデルの チェックポイントをW&Bで 管理 W&B Inference powered by CW CW上でLLMをホスティン グ Online evaluations AIアプリケーションのモニ タリング(推論機能つき)
  6. トレーニング時のインフラ関連の問題に対する可視性 13 貴重な開発時間と高額なGPUリソースの無駄遣いになる Components fail GPUとネットワークコン ポーネントがクラッシュす ることがある System fragile

    多くの部品が組み合わさ ることで、故障の可能性 が大幅に高まる Training halts たった一度の故障が、ト レーニングを中断する Flying blind 可視性の欠如により、問 題の発見と解決が困難に なる
  7. Chapter 4 NEW: CoreWeave infrastructure observability in Weights & Biases

    14 PRIVATE PREVIEW Contact your account manager W&Bモデルのトレーニングワークフローに CoreWeaveのMission Controlシステム(インフラの監視と修理)を統合 • インフラストラクチャのイベントと修復アクションをトレーニ ング実行のコンテキストに表示 • ログファイルに目を通すことなく、トレーニングの問題とそ の発生時期を特定 • ハードウェアとネットワークの問題を リアルタイムで可視化し、メトリックのプロットに重ねえ表 示 • 最後のクリーンチェックポイントからの巻き戻しおよび再 開可能 • 注意: CWのGPUを利用している場合にのみ利用可能
  8. W&B Public Cloud W&B管理のパブリッククラウド(GCP) W&Bパブリッククラウド SSO via OIDC お客様のネットワーク オンプレもしくはプライベートクラウド

    メタデータ MySQL W&Bサーバー https https 学習用/推論用 インフラ ダッシュボード 上でのコラボ MLエンジニア Redisでパフォー マンス向上 キュー Wandb クライアント フロントエンド Peering / SSL / TLS 1.2+ Load Balancing import wandb W&Bクライアントを利用 W&B環境(GCP、USリージョン) *オブジェクトストレージはセキュアストレージコ ネクターを使い、自社の別の場所にあるデータ ストレージをチーム単位で接続すること (BYOB)も可能です オブジェクトスト レージ* 安全な ネットワーク接続
  9. W&B Public Cloud(BYOB) W&B管理のパブリッククラウド(GCP) W&Bパブリッククラウド SSO via OIDC お客様のネットワーク オンプレもしくはプライベートクラウド

    メタデータ MySQL W&Bサーバー https https 学習用/推論用 インフラ ダッシュボード 上でのコラボ MLエンジニア Redisでパフォー マンス向上 キュー Wandb クライアント フロントエンド Peering / SSL / TLS 1.2+ Load Balancing import wandb W&Bクライアントを利用 オブジェクトスト レージ(S3互換) 安全な ネットワーク接続 W&B環境(GCP、USリージョン) セキュアストレージ コネクタ BYOB対応ストレージ(S3互換) GCS(Google Cloud Storage) Amazon S3
  10. W&B Public Cloud(BYOB) W&B管理のパブリッククラウド(GCP) W&Bパブリッククラウド SSO via OIDC お客様のネットワーク オンプレもしくはプライベートクラウド

    メタデータ MySQL W&Bサーバー https https 学習用/推論用 インフラ ダッシュボード 上でのコラボ MLエンジニア Redisでパフォー マンス向上 キュー Wandb クライアント フロントエンド Peering / SSL / TLS 1.2+ Load Balancing import wandb W&Bクライアントを利用 オブジェクトスト レージ(S3互換) 安全な ネットワーク接続 W&B環境(GCP、USリージョン) セキュアストレージ コネクタ BYOB対応ストレージ(S3互換) GCS(Google Cloud Storage) Amazon S3
  11. 高パフォーマンス より大きな容量 高い信頼性 コンプライアンスとサポート 緊密な統合 エンタープライズグレードのセキュリティと分離 CoreWeave AIオブジェクトストレージ AIワークフローにおける高 I/Oおよび

    大規模データセット向けに最適化された業界初の マネージドオブジェクトストレージ 数十万台のGPUで最大2GB/s/GPU 数兆個のオブジェクトとエクサバイト級のデータまでスケー ル可能 99.9%の稼働率とイレブンナイン(99.999999999%)の耐久 性 標準のAmazon S3インターフェース、オープンソースSDK に対応 CoreWeave Kubernetes Service(CKS)およびSSO/SAMLに対 応 ロールベースのアクセス、保存時および転送時の暗号化
  12. 複数のモデル・プロバイダーとの取 引や独自ホスティングのオーバー ヘッドなしに、主要なオープンソース LLMにアクセス Chapter 4 NEW: W&B Inference powered

    by CoreWeave 24 PUBLIC PREVIEW Get started for free DeepSeek R1-0528 LLaMa 3.3 70B ∂ LLaMA 4 Scout 17Bx16E Phi 4 Mini 3.8B LLaMA 3.1 8B DeepSeek V3-0324 Kimi K2 Instruct ∂ Qwen3 Coder ∂ Qwen3 Thinking ∂ Qwen3 Instruct
  13. 25 Demo! Kimi K2 Instruct • 中国のMoonshot AIが開発したマルチモーダル 言語モデル •

    高精度な視覚推論:MathVisionやScreenSpotで 上位成績 • 128Kトークンの長文処理が可能 • 軽量MoE構造:アクティブパラメータは約3B
  14. 29 反復(品質向上) 精度・遅延・コスト・安全 性を評価・最適化  プロトタイプ AIアプリの初期バージョ ンを試作する デプロイ デプロイ・ ガードレール

    オブザーブ モニタリング・フィード バック収集 Playground | Traces Guardrails Evaluations | Leaderboards User feedback Weave GenAI Application Development AIアプリケーション開発 ワークフロー
  15. Chapter 4 Weaveが提供するガードレールの仕組み 30 • ガードレールの目的 ◦ プロンプト・インジェクションのよう な悪意のある行為を軽減 ◦

    幻覚や不適切なコンテンツの識 別と防止 • 安全性と品質を確保するための事前構築さ れているスコアラーを提供 • 柔軟性: W&Bのスコアラーを使用したり、独 自のサードパーティ製スコアラーや自家製 スコアラーを利用可能
  16. 31 ガードレール vs モニター ガードレール (Guardrails) モニター (Monitors) Purpose 問題を未然に防ぐための積極的な介入

    分析のための受動的観測 Timing 出力がユーザーに届く前のリアルタイム 非同期またはバッチ Performance 高速である必要あり (レスポンスタイムに影響する) バックグラウンドで実行されるため、 通常レイテンシーは問わない Sampling 通常すべてのリクエストに対応 通常サンプリング Control flow 出力をブロックまたは変更可能 アプリケーションのフローに影響をなし Resource usage アプリが動作するローカルインフラ ローカルまたはW&Bが提供する推論環境 ガードレール vs モニターはどちらもW&B Scorersを用いますが、役割が異なります
  17. GUIからモニターの設定が 可能に! Chapter 4 32 32 • WeaveのUI上で、モニター対象の関数や LLMの選 択、プロンプト、サンプリングフィルターの指定が

    可能 • コーディングの専門知識は不要 • オンライン評価はWeights & Biases環境上で実行 • 運用中のアプリケーションのパフォーマンスを追 跡できる user request Application environment AI Agent processes user request W&B environment Monitors score the trace asynchronously trace output
  18. 33 System prompt: You are an AI assistant specialized in

    classifying Weights & Biases (W&B) related queries. Prompts for Scoring # Task1:Answerability Check For answerability, use EXACTLY one of these values: "True": Question is clear and has been answered effectively "False": Question is unclear or couldn't be answered properly "cannot_judge": Not enough context or unclear situation "wandbot_unavailable": System error or service unavailable # Task2: Query_type Focus on the main intent of the question and classify it into one or more of these categories: -contract -platform(BYOB, deployment, cloud and so on) -admin -error ….<省略> -weave_objects -weave_ops -weave_pii -weave_integrations -other # Input & Output: - Input: {inputs} - Output: {output} # Notes: 1. You can select MULTIPLE categories separated by commas 2. The response MUST be a valid JSON object 3. Do not include any explanation or additional text 4. Use the exact category names as shown above # Response format: The response should be a JSON object with the following fields: - answerability: <exact_answerability_value> - question_type: <comma_separated_categories> Demo