GenAIOps: 生成AI時代の DevOps

GenAIOps: 生成AI時代の DevOps Asei Sugiyama

自己紹介杉山阿聖 (@K_Ryuichirou) Software Engineer @ Citadel AI Google
Developer Expert @ Cloud AI MLSE GenAIOps WG 機械学習図鑑共著事例でわかる MLOps 共著

TOC 生成AIの衝撃 <- MLOps までの道のり GenAIOps 発展的な話題

生成AIの衝撃古典的機械学習生成 AI 生成 AI の創発性 Vibe Coding Spec
Driven Development 本当に早くなったのか新しい問題なのか Software Engineering とは

古典的機械学習 AI といえば機械学習アルゴリズムだった今も有用ではある秋庭伸也, 杉山阿聖, 寺田
学著, 加藤公一監修「見て試してわかる機械学習アルゴリズムの仕組み機械学習図鑑」翔泳社 2019年 https://www.shoeisha.co.jp/book/detail/9784798155654

生成 AI

生成 AI の創発性

Vibe Coding 自然言語で指示するだけでコーディングを行わないスタイル非専門家がアプリケーション開発可能にプロトタイピングのための試行錯誤が容易に Andrej
Karpathy / X https://x.com/karpathy/status/1886192184808149383

Spec Driven Development AWS が開発した Kiro で導入された開発手法プロンプトからまずは要件を記述
要件に基づきコード生成 (Plan first, then build.) GitHub からも Spec Kit が発表された Kiro: The AI IDE for prototype to production https://kiro.dev/ github/spec-kit: Toolkit to help you get started with Spec-Driven Development https://github.com/github/spec-kit

本当に早くなったのか AI の導入が 25% 増加すると個人としては早くなり、組織としては遅くなるコードレビューの速度は 3.1% 増加
承認の速度は 1.3% 増加リリース速度は 1.5% 低下安定性は 7.2% 低下 DORA | Impact of Generative AI in Software Development https://dora.dev/research/ai/gen-ai-report/ (fig.2, fig.3)

新しい問題なのか新たな時代の到来と主張する人もいる (Software Engineering 3.0) 低品質なコードを記述することで開発速度が低下することは既知の事実対策するための技術も知
られている AI時代のソフトウェア開発を考える（2025/07版） / Agentic Software Engineering Findy 2025-07 Edition - Speaker Deck https://speakerdeck.com/twada/agentic-software-engineering-findy-2025- 07-edition

Software Engineering とはソフトウェアエンジニアリングとは時間で積分したプログラミングであるプログラミングとは、コードを生産する即時的行動である。ソフトウェアエンジニアリングとは、コードを利用しなければならない期間中に有用に保つのに必要であり、またチームを横断した共同作業を可能とする、ポリシ
ー、プラクティス、ツールのセットである。 Titus Winters、Tom Manshreck、Hyrum Wright　編、竹辺靖昭　監訳、久富木隆一　訳「Googleのソフトウェアエンジニアリング― 持続可能なプログラミングを支える技術、文化、プロセス」オライリージャパン 2021年 https://www.oreilly.co.jp/books/9784873119656/

星のドラゴンクエスト 10 周年でサービス終了サービスの複雑化がサービスの継続判断に影響 10 年間サービスを開発し続けることは簡単ではないサービスが継続できなくなるインパクトを生むことがある
プロデューサーレター | 星のドラゴンクエスト | SQUARE ENIX BRIDGE https://cache.sqex-bridge.jp/jp/ja/guest/information/96614? returnTo=https%3A%2F%2Fcache.sqex- bridge.jp%2Fguest%2Finformation%3Fgame_id%3D67%26list%3Dno%26page%3D

星のドラゴンクエストプロデューサーレターより引用ゲームプログラムは膨大な機能の集合体です。個々は問題なく動作していても、絡み合った際に思わぬ挙動を示すことは多々あります。運営・制作チーム、特に開発作業に携わる者達は常に効率化に尽力し、時には発明することでこれらの課題を乗り越えて参りましたが、いよいよプレイヤーのみなさまに影響を及ぼさずに運営を続けることが難しい状況に至った次第でございます。それならば10周年を節目として全ての物語を描き切ろう、運営・
制作チームはそのように判断いたしました。プロデューサーレター | 星のドラゴンクエスト | SQUARE ENIX BRIDGE https://cache.sqex-bridge.jp/jp/ja/guest/information/96614? returnTo=https%3A%2F%2Fcache.sqex-bridge.jp%2Fguest%2Finformation%3Fgame_id%3D67%26list%3Dno%26page%3D2

グランブルーファンタジー 10 年続くサービスを継続するための取り組み大規模なシステムの設計を見直し再構築継続を可能にするための技術が存在する注: 継続したほうが偉いと
いう話ではない【Developers Summit 2024フォローアップ】『グランブルーファンタジー』 100万行を超える大規模なシステム再構築～10周年のその先へ～ | Cygames Engineers' Blog https://tech.cygames.co.jp/archives/3614/

まとめ生成 AI により幅広い人が莫大な量のコードを記述できるようになった Vibe Coding や Spec Driven
Development という新しい技法が出現している一方で、生成 AI の導入が組織の生産性に必ずしも良い影響を与えるとは限らない低品質なコードを記述することで開発速度が低下することは既知の事実対策するための技術も Software Engineering の分野で知られている

TOC 生成AIの衝撃 MLOps までの道のり <- GenAIOps 発展的な話題

MLOps に至るまで Spec Driven Development (再掲) ウォーターフォールアジャイルソフトウェア開発宣言 MLOps に至るまで
TPS (トヨタ生産方式) DevOps MLOps

Spec Driven Development AWS が開発した Kiro で導入された開発手法プロンプトからまずは要件を記述
要件に基づきコード生成 (Plan first, then build.) GitHub からも Spec Kit が発表された Kiro: The AI IDE for prototype to production https://kiro.dev/ github/spec-kit: Toolkit to help you get started with Spec-Driven Development https://github.com/github/spec-kit

ウォーターフォール Winston W. Royce による開発プロセスの整理オリジナルは反復とフィードバックを含むなぜか直線的なプロセスとして世に理解されてしまった
Managing the development of large software systems: concepts and techniques | Proceedings of the 9th international conference on Software Engineering https://dl.acm.org/doi/10.5555/41765.41801

MLOps に至るまでアジャイルの源流は TPS (トヨタ生産方式) DevOps はリーンやアジャイルに源流がある MLOps は
DevOps (SRE) に源流があるアジャイルとDevOpsの品質保証と信頼性 - Test Automation 図2, 図3 https://kokotatata.hatenablog.com/entry/2020/06/01/163652

TPS (トヨタ生産方式) TPS とは TPS の目的理想のチームカイゼン問題解決

TPS とはムダの徹底的排除の思想と、つくり方の合理性を追い求め、生産全般をその思想で貫き、システム化した生産方式自働化ジャスト・イン・タイムトヨタ生産方式
| 経営理念 | 企業情報 | トヨタ自動車株式会社公式企業サイト https://global.toyota/jp/company/vision-and-philosophy/production- system/

TPS の目的 TPS は効率化と捉えられがち「誰かの仕事を楽にしたい」トヨタ春交渉2021 #3　「トヨタ生産方式」「カーボンニュートラル」「SDGs」一人ひとりに
何ができるか｜トヨタイムズ - YouTube https://youtu.be/ze0hUCMS-aI

理想のチームトヨタ鞍ヶ池記念館ラジオラマ(4)『G1 型トラックの故障修理活動』昭和１１年(１９３６)４月春爛漫の昼下がり職務を超えて全員でお客様のためにできることをやっている図
FAIRLADY Z fan : トヨタ鞍ヶ池記念館に行きました。 http://blog.livedoor.jp/fairlady3233/archives/1934986.html

カイゼン「もっといいクルマをつくろうよ」「1 にユーザー、2 にディーラー、3 にメーカー」売れる車と言わなかったトヨタ企業サイト｜トヨタ自動車75年史｜第3部
第5章第2節｜第1項激動す https://www.toyota.co.jp/jpn/company/history/75years/text/leaping_forward_a

問題解決 PDCA サイクルを回すためのフレームワークデータの収集と KPI の設定を行い、対策前後での比較で効果測定を行うデータサイエンスのフレ
ームワークに等価第5回:新作研修「問題解決研修基礎編～8ステップと考え方～」は「風土改革」・「人財育成」に直結する！ | 社員・企業研修のトヨタエンタプライズ https://kensyu.toyota-ep.co.jp/column/4880/

DevOps Dev vs Ops (2000 年代) Dev Ops 自動化継続的改善

Dev vs Ops (2000 年代) クラウドサービスが生まれ始めた時代 (Amazon S3 は
2006 年) Dev: 顧客に新しい価値を早く提供したい、多少不安定になるかもしれないが運用が頑張れば良い Ops: 顧客に安定的に価値を提供したい、新機能の追加で不安定になることは受け入れられない 10+ Deploys Per Day: Dev and Ops Cooperation at Flickr - Slideshare https://www.slideshare.net/jallspaw/10-deploys-per-day-dev-and-ops-cooperation-at-flickr

Dev Ops Dev vs Ops から Dev & Ops に移行
しようという提案 (2008) 「顧客に価値をすばやく安定的に提供しよう」という提案この提案に基づくのが DevOps DevOps: Dev と Ops の協調 10+ Deploys Per Day: Dev and Ops Cooperation at Flickr - Slideshare https://www.slideshare.net/jallspaw/10-deploys-per-day-dev-and-ops-cooperation-at-flickr

自動化: CI/CD CI (Continuous Integration) コードをリポジトリに頻繁にコミットする手法 CD (Continuous Deployment)
自動化によりサービスを更新しデプロイする手法 GitHub Actions を使った継続的デプロイについて - GitHub Docs https://docs.github.com/ja/actions/about-github-actions/about-continuous- deployment-with-github-actions Google Cloud 上での DevOps と CI / CD について | Google Cloud 公式ブログ https://cloud.google.com/blog/ja/topics/developers-practitioners/devops- and-cicd-google-cloud-explained?hl=ja

継続的な改善フィードバックサイクルによる改善単一のチームで開発と運用を行う Explore Continuous Improvement
- Training | Microsoft Learn https://learn.microsoft.com/en- us/training/modules/characterize-devops- continous-collaboration-improvement/3-explore- continuous-improvement

MLOps MLOps とは CT (継続的学習)

MLOps Google の開催したイベント Cloud Next 2018 で有名になった概念機械学習の成果をスケールさせるためのさまざまな取り組み AI
を育てる活動 (Waymo など)

CT (継続的な訓練) MLOps における継続的な改善の実装モデルを継続的に訓練して改善
MLOps: Continuous delivery and automation pipelines in machine learning | Cloud Architecture Center | Google Cloud https://cloud.google.com/architecture/mlops- continuous-delivery-and-automation-pipelines-in- machine-learning

まとめ MLOps は機械学習の成果をスケールさせるためのさまざまな取り組み MLOps は DevOps を ML に拡張したものであり、源流は
TPS TPS は仕事を楽にすることが重要であり、データに基づいて PDCA サイクルを回すことでカイゼンを実施している DevOps はすばやい開発とフィードバックによる継続的な改善が重要であり、そのために CI/CD パイプラインを構築し自動化している MLOps はフィードバックループを継続的な訓練により実現しており、そのために機械学習パイプラインを構築し自動化している

TOC 生成AIの衝撃 MLOps までの道のり GenAIOps <- 発展的な話題

GenAIOps ハッカソン Demo Hell Eval-Centric AI 評価は難しい Criteria Drift プロンプトエンジニアリング
LLM-as-a-Judge 継続的な評価による継続的な改善 Agent

ハッカソン: デジタル庁ハッカソンにより「5時間という短い開発時間の中で、38個のプロトタイプ」ハッカソンの成果物を OSS として公開第三弾：「法令」×「デジタル」ハッカソンを開催しました｜デジタル庁
https://www.digital.go.jp/news/9fb5ef8e-c631-4974-96d9-0b145304c553 法令 Deep Research ツール Lawsy を OSS として公開しました｜Tatsuya Shirakawa https://note.com/tatsuyashirakawa/n/nbda706503902

Demo hell デモまでは行き着くものの、本番化が著しく困難品質を評価し、担保することが極めて困難 Escaping AI Demo Hell:
Why Eval-Driven Development Is Your Path To Production https://www.forbes.com/councils/forbestechcouncil/2025/04/04/escaping- ai-demo-hell-why-eval-driven-development-is-your-path-to-production/

AI セーフティ強化に関する研究開発プロジェクト Citadel AI で「企業向け実装解説」としてベストプラクティス集・事例集の作成を担当「デモは簡単にできるもののサービス化や本番化は難しい」
というテーマでヒアリング似たような課題・対策を行っていることが見えてきた

評価は難しいシステムの正しい振る舞いを、誰も明確に記述できない品質評価の観点を事前に列挙することは困難で、出力から事後的に得られることが大半機械学習による言語パフォーマンスの評価 -
Speaker Deck https://speakerdeck.com/langstat/ji-jie-xue-xi-niyoruyan-yu- pahuomansunoping-jia

Criteria Drift Who Validates the Validators? Aligning LLM-Assisted Evaluation of
LLM Outputs with Human Preferences LLM の出力に対する評価基準が、評価を進めるにつれてユーザー自身によって変化または洗練されていく [2404.12272] Who Validates the Validators? Aligning LLM-Assisted Evaluation of LLM Outputs with Human Preferences https://arxiv.org/abs/2404.12272

発想の逆転: 高速プロトタイピング専門家も自分の行っていること・やりたいことを明確にできない評価を繰り返すことで専門家の知識を明文化する手戻りを恐れるのではなくイテレーションを回す
AIエージェントの地上戦〜開発計画と運用実践 / 2025/04/08 Findy ランチセッション #19 https://speakerdeck.com/smiyawaki0820/08-findy-w-and- bmitoatupu-number-19

プロンプトエンジニアリング入力文章を調整して、言語モデルを効率的に使おうとする手法群指示文を人が見たときにわかりやすくなるよう、明確に記述することが基本 Gemini の記事が参考になる Gemini
から欲しい回答を引き出すプロンプト術｜Gemini - Google の AI https://note.com/google_gemini/n/n60a9c426694e

LLM-as-a-Judge プロンプトを用いて LLM に出力の良さを評価させる手法新たな評価観点が得られた場合、その評価観点に基づく評価方法の手順書を書くと、その観点に基づく評価が
LLM で可能 LLMによるLLMの評価「LLM-as-a-Judge」入門〜基礎から運用まで徹底解説 https://zenn.dev/pharmax/articles/2d07bf0498e212

継続的な評価による継続的な改善

Agent チューニングにより「1つのこと(ドメイン)をうまくやる」ものができる各ドメインを協調させる取り組みがエージェント Microservices Architecture の再発見メルカリにおけるデータアナリティクス
AI エージェント「Socrates」と ADK 活用事例 https://speakerdeck.com/na0/merukariniokerudetaanariteikusu-ai-eziento- socrates-to-adk-huo-yong-shi-li

まとめ生成 AI の活用においては Eval-Centric (評価中心) な方法論が必要 Eval-Centric においては継続的な評価により継続的な改善を実装できる
専門家も自分の知識を明文化できないという前提に立って、継続的な評価を通じた高速プロトタイピングを継続的に行う

TOC 生成AIの衝撃 MLOps までの道のり GenAIOps 発展的な話題 <-

発展的な話題 AI セーフティ AI ガバナンスソフトウェアエンジニアリングの再発見古典は厚いが役に立つ

AI セーフティ定義自体の議論が進行中 AI 事業者ガイドラインでは「安全性」を定義 AISI UK の Research
Agenda では 6 種類のリスクを定義 Research Agenda https://www.aisi.gov.uk/research-agenda

実践 AI セーフティリスクマネジメントの手法を応用 1. ユースケースを列挙 2. ユースケースごとにリスクを分析 3. ユースケースごとに対応
(回避・低減・移転・受容) を決定 4. 安全だと判断できるユースケースに限ってサービスを提供 5. サービスの利用状況をモニタリング AIセーフティは個々の開発チームの責務

AI セーフティ≒プロダクトマネジメントユーザーは誰かどう使うのか何に使うのかいつ使うのか Melissa Perri 著
吉羽龍太郎訳「プロダクトマネジメント」オライリー・ジャパン 2020年 https://www.oreilly.co.jp//books/9784873119250/ 及川卓也, 曽根原春樹, 小城久美子著「プロダクトマネジメントのすべて事業戦略・IT開発・UXデザイン・マーケティングからチーム・組織運営まで」翔泳社 2021 年 https://www.shoeisha.co.jp/book/detail/9784798166520

AI ガバナンスリスク管理 + 提供価値の最大化アジャイルガバナンス: 組織として学習し続けることを求める A/Bテストを通じた提供価値の改善を組織として行えるようにする
ことは、AIガバナンスの一部 AI事業者ガイドライン（METI/経済産業省） https://www.meti.go.jp/shingikai/mono_info_service/ai_shakai_jisso/20240419_report.html

AI ガバナンスのミッションどんな使い方をしても大丈夫なAIを用意して展開しようとすると失敗する (実現できない) AI セーフティについては組織内の各チームに任せる AI ガバナンスを専門で行うチームでのみ低減できるリスクは「AI を
活用しない機会損失リスク」うまくいっている AI ガバナンスチームのミッションは「AI の組織的な活用」

セガでの AI ガバナンス CEDEC 2025 講演資料より引用 (pp.11-12) もはや AI
を使うのが当たり前で気がついたら誰もが使っているという前提「AIを使わないことはありえない」安心安全に生成AIを使おう！社内で運用中の生成AIのガバナンスをご紹介 https://cedil.cesa.or.jp/cedil_sessions/view/3147

ソフトウェアエンジニアリングの再発見 Agent 開発手法ソフトウェア開発手法小さくはじめて育てるリーンスタートアップ高速プロトタイピングアジャイルソフトウェア開発宣言独自データセット定義テスト駆動開発
領域特化エージェントドメイン駆動開発本番環境でのテスト DevOps のカナリアリリース

書籍は厚いが役に立つ NotebookLM で伝統的な手法と新技術をあわせて音声解説を生成すると良い Vlad Khononov 著,
増田亨, 綿引琢磨　訳「ドメイン駆動設計をはじめよう― ソフトウェアの実装と事業戦略を結びつける実践技法」オライリー・ジャパン 2024 年 https://www.oreilly.co.jp/books/9784814400737/ AI エージェント実践ガイドブック https://cloud.google.com/resources/content/intl/ja- jp/aiagentgb

まとめ生成 AI の出現により、非専門家であってもコードを書けるようになり、莫大な量のコードが書けるようになったソフトウェアエンジニアリングは、コードを利用しなければならない期間中、コードを有用なものに保つ取り組み MLOps は DevOps
を ML に拡張したものであり、源流は TPS TPS は仕事を楽にすることが重要であり、データに基づいて PDCA サイクルを回すことでカイゼンを実施している Eval-Centric においては継続的な評価により継続的な改善を実装でき、提供したい価値を発見していく取り組み

GenAIOps: 生成AI時代の DevOps

GenAIOps: 生成AI時代の DevOps

More Decks by Asei Sugiyama

Featured

Transcript