Eval-Centric AI: Agent 開発におけるベストプラクティスの探求

Proprietary Eval-Centric AI: Agent 開発におけるベストプラクティスの探求

Proprietary 02 Google Cloud Next Tokyo 杉山阿聖株式会社 Citadel
AI Software Engineer GDE ( Cloud , AI )

Proprietary 03 Google Cloud Next Tokyo TOC 01 DevOps ,
MLOps , LLMOps 02 Agent 開発の原則 03 まとめ

Proprietary 04 Google Cloud Next Tokyo 01. DevOps , MLOps
, LLMOps

Proprietary 05 Google Cloud Next Tokyo - Dev : 顧客に新しい価値を早く提供したい、多少
不安定になるかもしれないが運用が頑張れば良い - Ops : 顧客に安定的に価値を提供したい、新機能の追加で不安定になることは受け入れられない DevOps : Dev VS Ops 10+ Deploys Per Day: Dev and Ops Cooperation at Flickr - Slideshare https://www.slideshare.net/jallspaw/10-deploys-per-day-dev-and-ops-cooperation-at-flickr

Proprietary 06 Google Cloud Next Tokyo DevOps : Dev ❤
Ops - Dev vs Ops から Dev & Ops に移行しようという提案 ( 2008 ) - 「顧客に価値をすばやく安定的に提供しよう」という提案 - この提案に基づくのが DevOps - DevOps : Dev と Ops の協調 10+ Deploys Per Day: Dev and Ops Cooperation at Flickr - Slideshare https://www.slideshare.net/jallspaw/10-deploys-per-day-dev-and-ops-cooperation-at-flickr

Proprietary 07 Google Cloud Next Tokyo - DevOps の原則のひとつ
- フィードバックサイクルによる改善 DevOps : 継続的改善 Explore Continuous Improvement - Training | Microsoft Learn https://learn.microsoft.com/en-us/training/modules/characterize-devops-continous-collaboration-improvement/3-explore-continuous-improvement

Proprietary 08 Google Cloud Next Tokyo MLOps : MLOps とは
- 機械学習の成果をスケールさせるためのさまざまな取り組み - DevOps のプラクティスに基づく機械学習システムを育てる取り組み

Proprietary 09 Google Cloud Next Tokyo - MLOps における継続的な改善の実装
- モデルを継続的に訓練して改善 MLOps : 継続的な訓練 MLOps: Continuous delivery and automation pipelines in machine learning | Cloud Architecture Center | Google Cloud https://cloud.google.com/architecture/mlops-continuous-delivery-and-automation-pipelines-in-machine-learning

Proprietary 010 Google Cloud Next Tokyo - デモまでは行き着くものの、本番化が著しく困難 -
品質を評価し、担保することが極めて困難 LLMOps : Demo hell Escaping AI Demo Hell: Why Eval-Driven Development Is Your Path To Production https://www.forbes.com/councils/forbestechcouncil/2025/04/04/escaping-ai-demo-hell-why-eval-driven-development-is-your-path-to-production/

Proprietary 011 Google Cloud Next Tokyo LLMOps : Eval-Centric AI

Proprietary 012 Google Cloud Next Tokyo LLMOps : 継続的な評価による継続的な改善

Proprietary 013 Google Cloud Next Tokyo 02. Agent 開発の原則

Proprietary 014 Google Cloud Next Tokyo - リスクベースアプローチの基になる安全性の“ものさし”となる評価・管理技術の開発
- 暮らし領域での評価手法の開発と実証およびテスト環境構築技術の開発 - 国際標準化および普及のためのガイダンス等の整備 AI セーフティ強化に関する研究開発 NEDO「AIセーフティ強化に関する研究開発」の採択について - Citadel AI https://citadel-ai.com/ja/news/2025/04/30/nedo/

Proprietary 015 Google Cloud Next Tokyo Citadel AI の役割 •
企業等へのヒアリングに基づく AI セーフティ評価基準・評価手法の整理 • 企業等へのヒアリングに基づく企業向け実装解説の作成及びその技術的有効性の検証今回はヒアリングを通じて見えてきた原則をご紹介

Proprietary 016 Google Cloud Next Tokyo Agent 開発における原則 1. リスクと効果を考慮し小さく始める
2. 高速にプロトタイピングする 3. 独自のデータを定義し評価データを育てる 4. 専門家を開発チームの一員にする 5. 本番環境でテストする

Proprietary 017 Google Cloud Next Tokyo - ユースケースを安全性と効果の 2 軸で分類
- 安全かつ効果の高いユースケースを特定し推進するリスクと効果を考慮し小さく始める

Proprietary 018 Google Cloud Next Tokyo • エンドユーザー向けではなく、社内の専門家向けにサービス提供 • 出力結果を直接提供することを禁止し、一度人手で編集して提供
• 第三者に社内情報が漏洩しないように、オプトアウト • リスクを特定して徹底的に検証し、小規模にリリース • セキュリティや監査に堪え、安全に使える環境を用意して展開 • 全面的には利用を禁止し、小規模にパイロットとして導入しテスト • ガイドラインやチェックリストを用意し、安全な利用方法を推進典型的なリスクへの対策

Proprietary 019 Google Cloud Next Tokyo 高速にプロトタイピングする • 専門家も自分の行っていること・やりたいことを明確にできない
• 要件定義よりもプロトタイプを優先する • 手戻りを恐れるのではなくイテレーションを回す AIエージェントの地上戦〜開発計画と運用実践 / 2025/04/08 Findy ランチセッション #19 https://speakerdeck.com/smiyawaki0820/08-findy-w-and-bmitoatupu-number-19

Proprietary 020 Google Cloud Next Tokyo 独自のデータを定義し評価データを育てる • 「自分の業務」というベンチマークはない
• 生成 AI に対するユニットテストのように扱う • 専門家によるレビュー結果を評価データに追加する AIエージェントの継続的改善のためオブザーバビリティ https://speakerdeck.com/pharma_x_tech/aiezientonoji-sok-de-gai-shan-notameobuzababiritei

Proprietary 021 Google Cloud Next Tokyo • 自然言語は開発者と専門家の共通言語 • 専門家は強力なプロンプト開発者
• 業務ごと小さなエージェントに分割専門家を開発チームの一員にする AI エージェントの地上戦〜開発計画と運用実践 / 2025/04/08 Findy ランチセッション #19 https://speakerdeck.com/smiyawaki0820/08-findy-w-and-bmitoatupu-number-19 メルカリにおけるデータアナリティクス AI エージェント「 Socrates 」と ADK 活用事例 https://speakerdeck.com/na0/merukariniokerudetaanariteikusu-ai-eziento-socrates-to-adk-huo-yong-shi-li

Proprietary 022 Google Cloud Next Tokyo • どうしても「やってみないとわからない」 •
限定的にリリースして想定外の事象が発生しないか確認する • モニタリングでリスクと効果を確認本番環境でテストする AI エージェントの継続的改善のためオブザーバビリティ https://speakerdeck.com/pharma_x_tech/aiezientonoji-sok-de-gai-shan-notameobuzababiritei

Proprietary 023 Google Cloud Next Tokyo 03. まとめ

Proprietary 024 Google Cloud Next Tokyo Agent 開発における原則 ( 再掲
) 1. リスクと効果を考慮し小さく始める 2. 高速にプロトタイピングする 3. 独自のデータを定義し評価データを育てる 4. 専門家を開発チームの一員にする 5. 本番環境でテストする

Proprietary 025 Google Cloud Next Tokyo よく知られたソフトウェア開発手法の再発見が起こっている今起きていること Agent 開発手法
ソフトウェア開発手法小さくはじめて育てるリーンスタートアップ高速プロトタイピングアジャイルソフトウェア開発宣言「包括的なドキュメントよりも動くソフトウェア」独自データセット定義テスト駆動開発領域特化エージェントドメイン駆動開発本番環境でのテスト DevOps のカナリアリリース

Proprietary 026 Google Cloud Next Tokyo Agent 開発におけるベストプラクティスの体系 • 大きく分けて
3 つの領域に分類できる a. Eval-Centric AI b. AI セーフティ c. AI ガバナンス • ベストプラクティス集・事例集を発表予定

Proprietary 027 Google Cloud Next Tokyo Ask the Expert にぜひお越しください
Google Cloud に関する技術的なご質問に GDE（ Google Developers Experts ）がお答えします！ Stage Ask the Expert 本ステージの後方にございますので、ぜひお立ち寄りくださいませ！

Eval-Centric AI: Agent 開発におけるベストプラクティスの探求

Eval-Centric AI: Agent 開発におけるベストプラクティスの探求

Asei Sugiyama

More Decks by Asei Sugiyama

Other Decks in Technology

Featured

Transcript

Proprietary Eval-Centric AI: Agent 開発におけるベストプラクティスの探求

Proprietary 02 Google Cloud Next Tokyo 杉山阿聖株式会社 Citadel

Proprietary 03 Google Cloud Next Tokyo TOC 01 DevOps ,

Proprietary 04 Google Cloud Next Tokyo 01. DevOps , MLOps

Proprietary 05 Google Cloud Next Tokyo - Dev : 顧客に新しい価値を早く提供したい、多少

Proprietary 06 Google Cloud Next Tokyo DevOps : Dev ❤

Proprietary 07 Google Cloud Next Tokyo - DevOps の原則のひとつ

Proprietary 08 Google Cloud Next Tokyo MLOps : MLOps とは

Proprietary 09 Google Cloud Next Tokyo - MLOps における継続的な改善の実装

Proprietary 010 Google Cloud Next Tokyo - デモまでは行き着くものの、本番化が著しく困難 -

Proprietary 011 Google Cloud Next Tokyo LLMOps : Eval-Centric AI

Proprietary 012 Google Cloud Next Tokyo LLMOps : 継続的な評価による継続的な改善

Proprietary 013 Google Cloud Next Tokyo 02. Agent 開発の原則

Proprietary 014 Google Cloud Next Tokyo - リスクベースアプローチの基になる安全性の“ものさし”となる評価・管理技術の開発

Proprietary 015 Google Cloud Next Tokyo Citadel AI の役割 •

Proprietary 016 Google Cloud Next Tokyo Agent 開発における原則 1. リスクと効果を考慮し小さく始める

Proprietary 017 Google Cloud Next Tokyo - ユースケースを安全性と効果の 2 軸で分類

Proprietary 018 Google Cloud Next Tokyo • エンドユーザー向けではなく、社内の専門家向けにサービス提供 • 出力結果を直接提供することを禁止し、一度人手で編集して提供

Proprietary 019 Google Cloud Next Tokyo 高速にプロトタイピングする • 専門家も自分の行っていること・やりたいことを明確にできない

Proprietary 020 Google Cloud Next Tokyo 独自のデータを定義し評価データを育てる • 「自分の業務」というベンチマークはない

Proprietary 021 Google Cloud Next Tokyo • 自然言語は開発者と専門家の共通言語 • 専門家は強力なプロンプト開発者

Proprietary 022 Google Cloud Next Tokyo • どうしても「やってみないとわからない」 •

Proprietary 023 Google Cloud Next Tokyo 03. まとめ

Proprietary 024 Google Cloud Next Tokyo Agent 開発における原則 ( 再掲

Proprietary 025 Google Cloud Next Tokyo よく知られたソフトウェア開発手法の再発見が起こっている今起きていること Agent 開発手法

Proprietary 026 Google Cloud Next Tokyo Agent 開発におけるベストプラクティスの体系 • 大きく分けて

Proprietary 027 Google Cloud Next Tokyo Ask the Expert にぜひお越しください