Slide 1

Slide 1 text

AIエージェントの 開発・評価・継続的運用 Asei Sugiyama

Slide 2

Slide 2 text

自己紹介 杉山 阿聖 (@K_Ryuichirou) Software Engineer @ Citadel AI Google Developer Expert @ Cloud, AI MLSE GenAIOps WG 機械学習図鑑 共著 事例でわかる MLOps 共著

Slide 3

Slide 3 text

目次 1. 生成 AI を活用する技術 <- 2. AI 活用の現在地と期待 3. 直面する「生産性のパラドックス」 4. 「良い付き合い方」を見つけるために 5. まとめ

Slide 4

Slide 4 text

AI Agent がビジネスに Algomatic: アポドリ、リクルタAI などエージェントを利用したサー ビスを次々展開 LayerX: バクラクシリーズに加え、 生成AIプラットフォーム Ai Workforce を展開 複数 AI エージェント同時立ち上げで「打席数」を重視——DMM が用意した20億円でスター トアップスタジオ展開する Algomatic #取材会 - BRIDGE(ブリッジ) https://thebridge.jp/2025/06/algomatic-launches-startup-studio-with-¥2-billion- investment-from-dmm LayerX、総額150億円の資金を調達。エンジニアを中心とした人材採用強化やさらなる事業 拡大へ https://aismiley.co.jp/ai_news/layerx-ai-saas-fintech/

Slide 5

Slide 5 text

Demo hell デモまでは行き着くもの の、本番化が著しく困難 品質を評価し、担保する ことが極めて困難 Escaping AI Demo Hell: Why Eval-Driven Development Is Your Path To Production https://www.forbes.com/councils/forbestechcouncil/2025/04/04/escaping- ai-demo-hell-why-eval-driven-development-is-your-path-to-production/

Slide 6

Slide 6 text

評価に基づく LLMOps 最近の潮流 不確実性の高い分野に対 する開発のノウハウ集 MLOps というよりは「高 速 DevOps」 How to Solve the #1 Blocker for Getting AI Agents in Production | LangChain Interrupt https://interrupt.langchain.com/videos/building-reliable-agents- agent-evaluations

Slide 7

Slide 7 text

AI セーフティ強化に関する研究 開発プロジェクト Citadel AI で「企業向け実装解 説」としてベストプラクティ ス集・事例集の作成を担当 「デモは簡単にできるものの サービス化や本番化は難しい」 というテーマでヒアリング 似たような課題・対策を行っ ていることが見えてきた

Slide 8

Slide 8 text

継続的評価による継続的改善 評価は難しい Who Validates the Validators? プロンプトエンジニアリング LLM-as-a-Judge 継続的な評価 ハッカソン エージェント トレース

Slide 9

Slide 9 text

継続的な評価による継続的な改善

Slide 10

Slide 10 text

実践 AI セーフティ リスクマネジメントの手法を応用 1. ユースケースを列挙 2. ユースケースごとにリスクを分析 3. ユースケースごとに対応 (回避・低減・移転・受容) を決定 4. 安全だと判断できるユースケースに限ってサービスを提供 5. サービスの利用状況をモニタリング

Slide 11

Slide 11 text

リスクに対策する (1/2) Human-in-the-Loop エンドユーザー向けではなく、社内の専門家向けにサービス提供 出力結果を直接提供することを禁止し、一度人手で編集して提供 安全な環境を用意 第三者に社内情報が漏洩しないように、オプトアウト セキュリティや監査に堪え、安全に使える環境を用意して展開

Slide 12

Slide 12 text

リスクに対策する (2/2) 小規模に始めて徐々に拡大 リスクを特定して徹底的に検証し、小規模にリリース 全面的には利用を禁止し、小規模にパイロットとして導入しテスト 社内の体制整備 ガイドラインやチェックリストを用意し、安全な利用方法を推進

Slide 13

Slide 13 text

AI ガバナンスの提供する機能 ガイドラインの整備 組織体制の構築 統合的なAI相談窓口 AI 活用支援 教育

Slide 14

Slide 14 text

目次 1. 生成 AI を活用する技術 2. AI 活用の現在地と期待 <- 3. 直面する「生産性のパラドックス」 4. 「良い付き合い方」を見つけるために 5. まとめ

Slide 15

Slide 15 text

1. AI 活用の現在地と期待 個人単位での利用は進んでいる 個人単位での利用は進んでいる 日本でも大企業を中心に活用が進んでいる 期待も高い

Slide 16

Slide 16 text

個人単位での利用は進んでいる 20代は直近3ヶ月で33%から42% へ急増し、若年層の伸びが著しい 男性30代や女性20代・50代でも 12%前後の大幅な上昇が見られる 世代間の差はあるものの、全世代 で活用が進行している NRC レポート https://www.nrc.co.jp/report/250707.html

Slide 17

Slide 17 text

日本でも大企業を中心に活用が進 んでいる 企業規模による格差: 1,001人以上 は96.1%が取組、100人以下は 46.8% 生成AI導入の加速: 大企業の75%以 上が導入・試験利用、本導入へ移 行中 国際的なリード: 大企業の導入済割 合は日米独の比較で日本が最高 DX動向2025 https://www.ipa.go.jp/digital/chousa/dx-trend/dx-trend-2025.html

Slide 18

Slide 18 text

AI に対する期待は高い 巨大な経済インパクト: 2035年ま での累積GDPを約140兆円押し上 げる予測 人手不足の解消: 労働時間を約17% 削減し、850万人規模の労働不足 をカバー 生産性改善の加速: 効率化と高付加 価値化により、年平均1.3%の生産 性向上 みずほリサーチ&テクノロジーズ https://www.mizuho- rt.co.jp/publication/2025/pdf/report250129.pdf

Slide 19

Slide 19 text

目次 1. 生成 AI を活用する技術 2. AI 活用の現在地と期待 3. 直面する「生産性のパラドックス」 <- 4. 「良い付き合い方」を見つけるために 5. まとめ

Slide 20

Slide 20 text

2. 直面する「生産性のパラドックス」 活用が進む企業と進んでいない企業が分かれる よく訓練された人間はAIで遅くなる ファインディの調査結果 DORA の調査結果 原因として考えられるもの コードレビューという高い壁 個人の生産性は伸びているが、集団としての生産性は伸びていない

Slide 21

Slide 21 text

飛び杼 機織り機に革命をもたらした発明 杼 (ひ) をキャッチする助手を不要に 生産性は2−3倍に (文献により異なる) Shuttle with bobin horizontal.jpg https://ja.wikipedia.org/wiki/ファイル:Shuttle_with_bobin_horizontal.jpgCC BY-SA 3.0

Slide 22

Slide 22 text

AI の効果 調査によって異なるが 1.2 - 1.6倍 程度 飛び杼のもたらした効果にはまっ たく及んでいない RIETI - 日本企業・労働者のAI利用と生産性 https://www.rieti.go.jp/jp/publications/summary/24030022.html

Slide 23

Slide 23 text

活用が進む企業と進んでいない企 業が分かれる 88%がAIを利用しているものの、 全社的なスケーリング段階にある のは約3割に留まる 実質的な収益効果を得ている「ハ イパフォーマー」は全体の6% ハイパフォーマーはAIによるビジ ネスの抜本的変革を他社の3.6倍強 く志向している The state of AI in early 2024 - McKinsey https://www.mckinsey.com/capabilities/quantumblack/our-insights/the-state-of-ai

Slide 24

Slide 24 text

よく訓練された人間はAIで遅く なる 200万行規模のOSSプロジェ クトで、コードを熟知したエ ンジニアがAIコーディングを 使った場合とそうでない場合 を比較 エンジニアは使ったほうが早 くなると予測 実際は遅くなっていた Early 2025 AI Experienced OS Dev Study https://metr.org/blog/2025-07-10-early- 2025-ai-experienced-os-dev-study/

Slide 25

Slide 25 text

ファインディの調査結果 約8割のエンジニアが個人の作 業効率化を実感 チーム全体の向上を実感して いる割合は約4割と半減 マージされたプルリクエスト 数などの客観的指標には、AI 導入前後で顕著な変化が見ら れない 生成AIで上がらなかった開発組織の生産性?! - AI駆動開発の実現に向けて取り組 むべきこと|山田裕一朗(CEO at Findy Inc.) https://note.com/yuichiro826/n/n285026b11564

Slide 26

Slide 26 text

DORA の調査結果 AI の導入が 25% 増加すると 個人としては早くなり、 組織としては遅くなる コードレビューの速度は 3.1% 増加 承認の速度は 1.3% 増加 リリース速度は 1.5% 低下 安定性は 7.2% 低下 DORA | Impact of Generative AI in Software Development https://dora.dev/research/ai/gen-ai-report/ (fig.2, fig.3)

Slide 27

Slide 27 text

原因として考えられるもの 真空仮説 AIが「価値ある仕事」を効率化して早く終わらせるため、時間に余 白(真空)が生まれる現象 相対的にAIで自動化できない「定型業務(会議や事務作業などの Toil) 」が残ってしまう ソフトウェア・エンジニアリングのプラクティスの無視 AIで大量のコードを一度に生成できるため、レビュー負荷や不安定 性が増大 テストや設計といった重要な工程がおろそかになる DORA | Impact of Generative AI in Software Development https://dora.dev/research/ai/gen-ai-report/

Slide 28

Slide 28 text

Algorithmic vs. Holistic Evaluation 2つの大規模なOSSリポジ トリから18個の実際の issue を抽出 Claude 3.7 Sonnet を使用 38% が自動テストをパス レビュー結果、マージで きるものはなかった Research Update: Algorithmic vs. Holistic Evaluation - METR https://metr.org/blog/2025-08-12-research-update-towards-reconciling- slowdown-with-time-horizons/

Slide 29

Slide 29 text

Writing Code Was Never The Bottleneck 「人間が頭を使う作業」がボトル ネックになりがち コードレビュー 知識の伝達 テストとデバッグ 調整とコミュニケーション Writing Code Was Never The Bottleneck - ordep.dev https://ordep.dev/posts/writing-code-was-never-the-bottleneck

Slide 30

Slide 30 text

AI コーディングに関する新卒一年目へのインタビュー 必要な技術は調べられる 設計書やコードは書ける コードレビューという高い壁に直面する 複数の選択肢から良い設計を選択できない レビュー時に「なぜこう書いたのか(意図) 」を答えられない AI コーディングに頼らない自身の技術力を追い求めて、AI コーディ ングを封印して技術力の研鑽を行う

Slide 31

Slide 31 text

目次 1. 生成 AI を活用する技術 2. AI 活用の現在地と期待 3. 直面する「生産性のパラドックス」 4. 「良い付き合い方」を見つけるために <- 5. まとめ

Slide 32

Slide 32 text

「良い付き合い方」の仮説 1. 1人チーム 2. 問題解決手法の活用 3. 同じ志を持つ仲間との議論

Slide 33

Slide 33 text

1人チーム 調査結果は「個人開発は早くなっても、チーム開発は早くならな い」というものが多い 個人で業務をこなしている人は生産性の向上を体感している 業務を個人で完結させるよう組織を構築すれば生産性が向上? コードレビューは AI で割り切る スタートアップで例あり

Slide 34

Slide 34 text

生成 AI で忘れ去られたもの データサイエンスで重要視された企画フェーズの取り組みの活用 ビジネス課題と機械学習タスクとを一致させる取り組み 「データサイエンスが効果を出せるかどうかは問題設定の良さで決 まる」というのはよく言われたこと

Slide 35

Slide 35 text

問題解決手法 PDCA サイクルを回すため のフレームワーク データの収集と KPI の設 定を行い、対策前後での 比較で効果測定を行う データサイエンスのフレ ームワークに等価 第5回:新作研修「問題解決研修 基礎編 ~8ステップと考え方~」は「風土 改革」 ・ 「人財育成」に直結する! | 社員・企業研修のトヨタエンタプライズ https://kensyu.toyota-ep.co.jp/column/4880/

Slide 36

Slide 36 text

同じ志を持つ仲間との議論 優れたソフトウェアエンジニ アを定義する具体的な特性に 関する調査 見出された特性に「助けを求 める」 「自分の知識を共有す る」がある コミュニティを活用して情報 交換し、より良い方法を模索 する (今日の意義) What Makes a Great Software Engineer? (IEEE) https://ieeexplore.ieee.org/document/7194618

Slide 37

Slide 37 text

まとめ AI エージェントを活用するために、開発と評価を繰り返すループは DevOps の原則の応用とみなせる AI活用の普及と期待: 全世代でAI活用が進み、140兆円という試算が 示すように社会からの期待も極めて大きい 二極化とパラドックス: 成果を出せる企業とそうでない企業の格差 が広がり、個人の効率化が組織の成果に直結しない現状がある 未知へのアプローチ: 誰も正解を持たない今、普遍的なエンジニア リングの学習とコミュニティでの対話を通じて、最適解を探求し続 ける姿勢こそが必要である

Slide 38

Slide 38 text

議論 AI エージェントで成果を出していくためにはなにが不足しているの でしょうか?