Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
AIエージェントによるプロダクト運⽤の⾃動化CroisにおけるAIOpsの実践
Search
Sponsored
·
SiteGround - Reliable hosting with speed, security, and support you can count on.
→
Recruit
PRO
March 25, 2026
Technology
51
0
Share
AIエージェントによるプロダクト運⽤の⾃動化CroisにおけるAIOpsの実践
2026/3/24に、データ推進室イベントで発表した茅原の資料になります。
Recruit
PRO
March 25, 2026
More Decks by Recruit
See All by Recruit
AI 時代の Platform Engineering
recruitengineers
PRO
2
270
巨大プラットフォームを進化させる「第3のROI」
recruitengineers
PRO
2
3k
データ戦略を加速させる プラットフォーム エンジニアリングと進化的アーキテクチャ
recruitengineers
PRO
2
80
まなび領域における生成AI活用事例
recruitengineers
PRO
2
280
AI時代にエンジニアはどう成長すれば良いのか?
recruitengineers
PRO
1
480
AIを用いたカスタマーサポートの業務プロセス・組織変革の実現
recruitengineers
PRO
1
230
問い合わせ自動化の技術的挑戦
recruitengineers
PRO
2
330
「Air ビジネスツールズ」のクライアントサポートにおける生成 AI 活用
recruitengineers
PRO
0
160
AI活用のためのアナリティクスエンジニアリング
recruitengineers
PRO
2
260
Other Decks in Technology
See All in Technology
食べログのサーキットブレーカー導入を振り返って
atpons
1
140
データ基盤構築・運用の現場から 〜 Snowflake Intelligence 導入で変わった、データ活用の未来 〜
wonohe
0
210
long-running-tasks
cipepser
2
420
自称宇宙最速で不合格となったAIP-C01にリベンジを果たすべくAIで問題集アプリを作ってみた。
yama3133
0
220
TROCCOで始めるクラウドコストを民主化するためのFinOps
tk3fftk
1
250
データ分析基盤の信頼を支える視点と設計
yuki_saito
2
730
Kiro CLI v2.0.0がやってきた!
kentapapa
0
200
AI とサービス・デザイン / AI and Service Design
ks91
PRO
0
180
形式手法特論:公平性制約の位相的特徴づけ #kernelvm / Kernel VM Study Kansai 12th
ytaka23
1
510
『家族アルバム みてね』における インシデント対応との向き合い方 / Approach incident response in Family Album
kohbis
2
230
Amazon CloudFrontにおけるAIボットアクセス制御のポイント
kizawa2020
4
300
freee-mcpを Local→Remote で出してわかった MCP認可実装のリアル
terara
3
890
Featured
See All Featured
Build The Right Thing And Hit Your Dates
maggiecrowley
39
3.1k
Embracing the Ebb and Flow
colly
88
5k
Collaborative Software Design: How to facilitate domain modelling decisions
baasie
1
230
Practical Orchestrator
shlominoach
191
11k
Imperfection Machines: The Place of Print at Facebook
scottboms
270
14k
16th Malabo Montpellier Forum Presentation
akademiya2063
PRO
0
130
Six Lessons from altMBA
skipperchong
29
4.2k
Skip the Path - Find Your Career Trail
mkilby
1
130
StorybookのUI Testing Handbookを読んだ
zakiyama
31
6.7k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
333
22k
Bootstrapping a Software Product
garrettdimon
PRO
307
120k
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
28
3.5k
Transcript
© Recruit Co., Ltd. All Rights Reserved AIエージェントによるプロダクト運⽤の⾃動化 CroisにおけるAIOpsの実践 データ推進室
データプロダクトマネジメント1部 データプロダクトエンジニアリング2グループ 茅原拓未 2026/03/24
© Recruit Co., Ltd. All Rights Reserved 2 2 データ推進室
データプロダクトマネジメント1部 DPRE2G 横断データ基盤 Crois の開発を担当 2022 リクルート新卒⼊社 2022 - 横断データ基盤 Crois の開発/運⽤ - SRE - Platform Engineering - FinOps 2025 - Crois チームリーダー - [new] AIOps 茅原 拓未 Chihara Takumi Profile 経歴 所属 近況 - ⾃宅でピザ作り
© Recruit Co., Ltd. All Rights Reserved 背景/課題
© Recruit Co., Ltd. All Rights Reserved 4 ワークフローエンジン‧ジョブスケジューラ機能 を提供する内製の横断プロダクト
稼働規模 - 20,000 ジョブ / ⽇ - 80,000 コンテナタスク / ⽇ - 300+ MAU (社内) コントロールプレーンは AWS 上に構築され、 コンテナタスク実⾏環境は AWS / GCP 両⽅を提供 Crois について
© Recruit Co., Ltd. All Rights Reserved 5 横断プロダクトとして、様々な社内領域から機械学習/推論パイプライン/ETLジョブの実⾏基盤しとして利⽤され ている
→ リクルートの横断的なデータ活⽤施策に不可⽋なインフラ基盤 Crois について
© Recruit Co., Ltd. All Rights Reserved 6 - 運⽤業務として、Slack上で利⽤者から様々な問い合わせ対応やアラート対応をする
- クラウドインフラやソースコードを直に⾒に⾏かないとわからないことが多く、難易度が⾼い 運⽤業務としてのインフラ調査 利用者 「なんかジョブが 動かない」 利用者 「これはCroisの仕 様?AWSの不具 合?」 インフラ 「謎のアラートが 出てる!!」 運用担当者 「ヒェー」 slack workflowによる問い合わせ slack上に飛んでくるアラート
© Recruit Co., Ltd. All Rights Reserved 7 2022年ごろから会社統合や別プロダクトとの機能統合により Croisの利⽤量増⼤
Croisへの依頼‧問い合わせ‧信頼性の期待も増加 → SRE的取り組みを始める - ドキュメント⽂化の醸成 - 定型業務のランブック/ADR/リファレンス... - オオカミアラートの削減 - 問い合わせフローの整備 - 運⽤チームの発⾜‧育成 Crois 運⽤改善の歩み Croisのジョブ実⾏数 各アラートに紐づくランブック Slack上へのアラート通知
© Recruit Co., Ltd. All Rights Reserved 8 従来の運⽤効率化の限界 ⼿順書(ランブック)の整備
- 柔軟な判断が可能 - (スクリプトよりは)整備が簡単 - 読みながらでも大変は大変 スクリプト化 - 定型作業に強い - 形骸化しやすい - 複雑な分岐を持つタスクに弱い スクリプトには複雑すぎ、 人間には面倒すぎる領域 プロダクト運⽤効率化の⽂脈では⼿順書の整備‧スクリプトのよる⾃動化が代表的 しかし インフラ調査や問い合わせ対応など、確認先が分散していて状況依存の分岐が多いタスクでは スクリプト化やコストが⾒合わず、⼿順書の対応では負荷が⾼い
© Recruit Co., Ltd. All Rights Reserved 9 開発業務における「仕様書からコードを⽣成する」スキームを、 運⽤業務における「⼿順書からオペレーションを⽣成する」プロセスに転⽤
既存の運⽤⼿順書が⾼品質なプロンプトとして活⽤できる! ⼿順書の変更‧改善だけで仕様変更‧改善ができる!! ⽣成AIの活⽤: 仕様書駆動開発から”⼿順書駆動運⽤”へ
© Recruit Co., Ltd. All Rights Reserved 横断プロダクトCroisにおける実践
© Recruit Co., Ltd. All Rights Reserved 11 Crois運⽤エージェント “クロサイ”
判断・対応 *クロサイ: Crois AI → くろいさい → クロサイ クロサイ* リクエスト インフラ情報/ ドキュメントの取得 調査結果の返却
© Recruit Co., Ltd. All Rights Reserved 12 Slack上に発報されたアラートにクロサイが反応し、アラート対応を⾏う。関連するランブックを読み込み、⼿順 に従いAWS/GCPのログやリソースの状態を調査。
クロサイによる調査 実践: クロサイによるアラート対応 手順書(ランブック ) 手順書では判断フローチャートや調査コマンドが整 備されている
© Recruit Co., Ltd. All Rights Reserved 13 ランブックが未整備であったり、「原因不明でジョブが失敗している」等の⼿がかりが少ない問い合わせに対し ても、ソースコードやクラウドリソースを参照し、⾃律的に調査を進める
実践: クロサイによるインフラ調査 問い合わせ例: - ジョブが失敗しているがCrois UI上で原因がわ からない クロサイの調査: - ジョブに対応するインフラリソース(ECS, Lambda, StepFunction等)を特定 - ソースコードからリソースの命名規則を把握 - 関連するリソースのログを網羅的に調査、原因 となるエラーメッセージを特定
© Recruit Co., Ltd. All Rights Reserved 14 クロサイの出力を評価 運用者は出力を判断しつつ、逐次評価を行う。
全体の7割以上のアラートで自分でやる以上の評価 調査タスクの負担を軽減 複数リソースを行き来する調査はAIが代行。人間の運用 者は整理された情報を元に判断することに集中 成果: 運⽤負荷の軽減
© Recruit Co., Ltd. All Rights Reserved 15 成果: Human
in the loopによる継続的改善 8/1 - 9/30 における手動評価 11/1 - 12/31 における手動評価 継続的な改善 運⽤者は、AIによる出⼒を評価し、⼿順書の改善を⾏うことによっ て、AIの出⼒を改善するループに組み込まれている。 - 修正するのは主に⼿順書なので改善が簡単 - ⼿順書改善が⾃動化範囲の拡⼤に直結、結果的に⾼いモチベー ションで改善を実施 以上の性質から、改善ループが順調に周り、取り組み当初からAI出⼒ の質が⼤幅に改善している
© Recruit Co., Ltd. All Rights Reserved 学び
© Recruit Co., Ltd. All Rights Reserved 17 LangChainの調査によると、 「toolでアクセスできる詳細情報」「集約されたガイドライン」が揃ったと
きにAIエージェントは最も高いスコアを出す。 Croisでは、SRE活動によりこれらかすでに存在していた 学び: SRE⽂化との親和性 toolでアクセスできる詳細情報 整備されたログ、メトリクス、アラートをtool として実装することでAIがシステムを理解 → ⾃動化のためにシステム監視を充実 させよう!! 集約されたガイドライン 地道に蓄積してきたランブックが⾼品質なプロ ンプトとして機能 → ⾃動化のためにドキュメントを充実 させよう!!
© Recruit Co., Ltd. All Rights Reserved 18 従来の⼿順書の整備‧スクリプトでは改善が難しかった運⽤タスクに⽣成AIを活⽤ -
既存の⼿順書を活⽤し、⼿順書駆動運⽤の実現 Croisの運⽤効率改善のためAIOpsを始め、Crois 運⽤AI “クロサイ”を開発 - ⼈間には学習コストの⾼い運⽤タスクの代替が可能であることが分かった - インフラ‧ドキュメントを⾃律的に調査し、役⽴つ出⼒を得ることができる - Human in the loopによる継続的な改善を実現 SRE⽂化が⼤事 - ⾃動化のためにドキュメントを充実させよう! - ⾃動化のためにシステム監視を充実させよう! まとめ