Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Eval-Centric AI: Agent 開発におけるベストプラクティスの探求

Eval-Centric AI: Agent 開発におけるベストプラクティスの探求

Google Cloud Next Tokyo 2025 のLT資料です

Avatar for Asei Sugiyama

Asei Sugiyama

August 06, 2025
Tweet

More Decks by Asei Sugiyama

Other Decks in Technology

Transcript

  1. Proprietary 03 Google Cloud Next Tokyo TOC 01 DevOps ,

    MLOps , LLMOps 02 Agent 開発の原則 03 まとめ
  2. Proprietary 05 Google Cloud Next Tokyo - Dev : 顧客に新しい価値を早く提供したい、多少

    不安定になるかもしれないが 運用が頑張れば良い - Ops : 顧客に安定的に価値を提供したい、 新機能の追加で不安定になることは 受け入れられない DevOps : Dev VS Ops 10+ Deploys Per Day: Dev and Ops Cooperation at Flickr - Slideshare https://www.slideshare.net/jallspaw/10-deploys-per-day-dev-and-ops-cooperation-at-flickr
  3. Proprietary 06 Google Cloud Next Tokyo DevOps : Dev ❤

    Ops - Dev vs Ops から Dev & Ops に移行しようとい う提案 ( 2008 ) - 「顧客に価値をすばやく安定的に提供しよう」と いう提案 - この提案に基づくのが DevOps - DevOps : Dev と Ops の協調 10+ Deploys Per Day: Dev and Ops Cooperation at Flickr - Slideshare https://www.slideshare.net/jallspaw/10-deploys-per-day-dev-and-ops-cooperation-at-flickr
  4. Proprietary 07 Google Cloud Next Tokyo - DevOps の原則の ひとつ

    - フィードバックサイクル による改善 DevOps : 継続的改善 Explore Continuous Improvement - Training | Microsoft Learn https://learn.microsoft.com/en-us/training/modules/characterize-devops-continous-collaboration-improvement/3-explore-continuous-improvement
  5. Proprietary 08 Google Cloud Next Tokyo MLOps : MLOps とは

    - 機械学習の成果をスケールさせるための さまざまな取り組み - DevOps のプラクティスに基づく 機械学習システムを育てる取り組み
  6. Proprietary 09 Google Cloud Next Tokyo - MLOps における継続的な 改善の実装

    - モデルを継続的に 訓練して改善 MLOps : 継続的な訓練 MLOps: Continuous delivery and automation pipelines in machine learning | Cloud Architecture Center | Google Cloud https://cloud.google.com/architecture/mlops-continuous-delivery-and-automation-pipelines-in-machine-learning
  7. Proprietary 010 Google Cloud Next Tokyo - デモまでは行き着くものの、 本番化が著しく困難 -

    品質を評価し、担保することが極めて困難 LLMOps : Demo hell Escaping AI Demo Hell: Why Eval-Driven Development Is Your Path To Production https://www.forbes.com/councils/forbestechcouncil/2025/04/04/escaping-ai-demo-hell-why-eval-driven-development-is-your-path-to-production/
  8. Proprietary 014 Google Cloud Next Tokyo - リスクベースアプローチの基になる 安全性の“も のさし”となる評価・管理技術の開発

    - 暮らし領域での評価手法の開発と実証 およびテスト環境構築技術の開発 - 国際標準化および普及のための ガイダンス等の整備 AI セーフティ強化に関する研究開発 NEDO「AIセーフティ強化に関する研究開発」の採択について - Citadel AI https://citadel-ai.com/ja/news/2025/04/30/nedo/
  9. Proprietary 015 Google Cloud Next Tokyo Citadel AI の役割 •

    企業等へのヒアリングに基づく AI セーフティ評価基準・評価手法の整理 • 企業等へのヒアリングに基づく企業向け 実装解説の作成及びその技術的有効性の検証 今回はヒアリングを通じて見えてきた原則をご紹介
  10. Proprietary 016 Google Cloud Next Tokyo Agent 開発における原則 1. リスクと効果を考慮し小さく始める

    2. 高速にプロトタイピングする 3. 独自のデータを定義し評価データを育てる 4. 専門家を開発チームの一員にする 5. 本番環境でテストする
  11. Proprietary 017 Google Cloud Next Tokyo - ユースケースを安全性と効果の 2 軸で分類

    - 安全かつ効果の高いユースケースを特定し推進する リスクと効果を考慮し小さく始める
  12. Proprietary 018 Google Cloud Next Tokyo • エンドユーザー向けではなく、社内の専門家向けにサービス提供 • 出力結果を直接提供することを禁止し、一度人手で編集して提供

    • 第三者に社内情報が漏洩しないように、オプトアウト • リスクを特定して徹底的に検証し、小規模にリリース • セキュリティや監査に堪え、安全に使える環境を用意して展開 • 全面的には利用を禁止し、小規模にパイロットとして導入しテスト • ガイドラインやチェックリストを用意し、安全な利用方法を推進 典型的なリスクへの対策
  13. Proprietary 019 Google Cloud Next Tokyo 高速にプロトタイピングする • 専門家も自分の行っていること・やり たいことを明確にできない

    • 要件定義よりも プロトタイプを優先する • 手戻りを恐れるのではなく イテレーションを回す AIエージェントの地上戦 〜開発計画と運用実践 / 2025/04/08 Findy ランチセッション #19 https://speakerdeck.com/smiyawaki0820/08-findy-w-and-bmitoatupu-number-19
  14. Proprietary 020 Google Cloud Next Tokyo 独自のデータを定義し評価データを育てる • 「自分の業務」という ベンチマークはない

    • 生成 AI に対する ユニットテストのように扱う • 専門家によるレビュー結果を 評価データに追加する AIエージェントの継続的改善のためオブザーバビリティ https://speakerdeck.com/pharma_x_tech/aiezientonoji-sok-de-gai-shan-notameobuzababiritei
  15. Proprietary 021 Google Cloud Next Tokyo • 自然言語は開発者と専門家の共通言語 • 専門家は強力なプロンプト開発者

    • 業務ごと小さなエージェントに分割 専門家を開発チームの一員にする AI エージェントの地上戦 〜開発計画と運用実践 / 2025/04/08 Findy ランチセッション #19 https://speakerdeck.com/smiyawaki0820/08-findy-w-and-bmitoatupu-number-19 メルカリにおけるデータアナリティクス AI エージェント「 Socrates 」と ADK 活用事例 https://speakerdeck.com/na0/merukariniokerudetaanariteikusu-ai-eziento-socrates-to-adk-huo-yong-shi-li
  16. Proprietary 022 Google Cloud Next Tokyo • どうしても 「やってみないとわからない」 •

    限定的にリリースして想定外の 事象が発生しないか確認する • モニタリングでリスクと効果を確認 本番環境でテストする AI エージェントの継続的改善のためオブザーバビリティ https://speakerdeck.com/pharma_x_tech/aiezientonoji-sok-de-gai-shan-notameobuzababiritei
  17. Proprietary 024 Google Cloud Next Tokyo Agent 開発における原則 ( 再掲

    ) 1. リスクと効果を考慮し小さく始める 2. 高速にプロトタイピングする 3. 独自のデータを定義し評価データを育てる 4. 専門家を開発チームの一員にする 5. 本番環境でテストする
  18. Proprietary 025 Google Cloud Next Tokyo よく知られたソフトウェア開発手法の再発見が起こっている 今起きていること Agent 開発手法

    ソフトウェア開発手法 小さくはじめて育てる リーンスタートアップ 高速プロトタイピング アジャイルソフトウェア開発宣言 「包括的なドキュメントよりも動くソフトウェア」 独自データセット定義 テスト駆動開発 領域特化エージェント ドメイン駆動開発 本番環境でのテスト DevOps のカナリアリリース
  19. Proprietary 026 Google Cloud Next Tokyo Agent 開発におけるベストプラクティスの体系 • 大きく分けて

    3 つの領域に分類できる a. Eval-Centric AI b. AI セーフティ c. AI ガバナンス • ベストプラクティス集・事例集を発表予定
  20. Proprietary 027 Google Cloud Next Tokyo Ask the Expert にぜひお越しください

    Google Cloud に関する技術的なご質問に GDE( Google Developers Experts )がお答えします! Stage Ask the Expert 本ステージの後方にございますので、 ぜひお立ち寄りくださいませ!