AIエージェントによるプロダクト運⽤の⾃動化CroisにおけるAIOpsの実践

Sponsored · SiteGround - Reliable hosting with speed, security, and support you can count on.

 AIエージェントによるプロダクト運⽤の⾃動化CroisにおけるAIOpsの実践

2026/3/24に、データ推進室イベントで発表した茅原の資料になります。

Avatar for Recruit

Recruit PRO

March 25, 2026

More Decks by Recruit

Other Decks in Technology

Transcript

  1. © Recruit Co., Ltd. All Rights Reserved AIエージェントによるプロダクト運⽤の⾃動化 CroisにおけるAIOpsの実践 データ推進室

    データプロダクトマネジメント1部 データプロダクトエンジニアリング2グループ 茅原拓未 2026/03/24
  2. © Recruit Co., Ltd. All Rights Reserved 2 2 データ推進室

    データプロダクトマネジメント1部 DPRE2G 横断データ基盤 Crois の開発を担当 2022   リクルート新卒⼊社  2022 - 横断データ基盤 Crois の開発/運⽤ - SRE - Platform Engineering - FinOps 2025 - Crois チームリーダー - [new] AIOps 茅原 拓未 Chihara Takumi Profile 経歴  所属 近況 - ⾃宅でピザ作り
  3. © Recruit Co., Ltd. All Rights Reserved 4 ワークフローエンジン‧ジョブスケジューラ機能 を提供する内製の横断プロダクト

    稼働規模 - 20,000 ジョブ / ⽇ - 80,000 コンテナタスク / ⽇ - 300+ MAU (社内) コントロールプレーンは AWS 上に構築され、 コンテナタスク実⾏環境は AWS / GCP 両⽅を提供 Crois について
  4. © Recruit Co., Ltd. All Rights Reserved 6 - 運⽤業務として、Slack上で利⽤者から様々な問い合わせ対応やアラート対応をする

    - クラウドインフラやソースコードを直に⾒に⾏かないとわからないことが多く、難易度が⾼い  運⽤業務としてのインフラ調査 利用者 「なんかジョブが 動かない」 利用者 「これはCroisの仕 様?AWSの不具 合?」 インフラ 「謎のアラートが 出てる!!」 運用担当者 「ヒェー」 slack workflowによる問い合わせ slack上に飛んでくるアラート
  5. © Recruit Co., Ltd. All Rights Reserved 7 2022年ごろから会社統合や別プロダクトとの機能統合により Croisの利⽤量増⼤

    Croisへの依頼‧問い合わせ‧信頼性の期待も増加 → SRE的取り組みを始める - ドキュメント⽂化の醸成 - 定型業務のランブック/ADR/リファレンス... - オオカミアラートの削減 - 問い合わせフローの整備 - 運⽤チームの発⾜‧育成 Crois 運⽤改善の歩み Croisのジョブ実⾏数 各アラートに紐づくランブック Slack上へのアラート通知
  6. © Recruit Co., Ltd. All Rights Reserved 8 従来の運⽤効率化の限界 ⼿順書(ランブック)の整備

    - 柔軟な判断が可能 - (スクリプトよりは)整備が簡単 - 読みながらでも大変は大変 スクリプト化 - 定型作業に強い - 形骸化しやすい - 複雑な分岐を持つタスクに弱い スクリプトには複雑すぎ、 人間には面倒すぎる領域 プロダクト運⽤効率化の⽂脈では⼿順書の整備‧スクリプトのよる⾃動化が代表的 しかし インフラ調査や問い合わせ対応など、確認先が分散していて状況依存の分岐が多いタスクでは スクリプト化やコストが⾒合わず、⼿順書の対応では負荷が⾼い
  7. © Recruit Co., Ltd. All Rights Reserved 9 開発業務における「仕様書からコードを⽣成する」スキームを、 運⽤業務における「⼿順書からオペレーションを⽣成する」プロセスに転⽤

    既存の運⽤⼿順書が⾼品質なプロンプトとして活⽤できる! ⼿順書の変更‧改善だけで仕様変更‧改善ができる!! ⽣成AIの活⽤: 仕様書駆動開発から”⼿順書駆動運⽤”へ
  8. © Recruit Co., Ltd. All Rights Reserved 11 Crois運⽤エージェント “クロサイ”

    判断・対応 *クロサイ: Crois AI → くろいさい → クロサイ クロサイ* リクエスト インフラ情報/ ドキュメントの取得 調査結果の返却
  9. © Recruit Co., Ltd. All Rights Reserved 12 Slack上に発報されたアラートにクロサイが反応し、アラート対応を⾏う。関連するランブックを読み込み、⼿順 に従いAWS/GCPのログやリソースの状態を調査。

    クロサイによる調査 実践: クロサイによるアラート対応 手順書(ランブック ) 手順書では判断フローチャートや調査コマンドが整 備されている
  10. © Recruit Co., Ltd. All Rights Reserved 13 ランブックが未整備であったり、「原因不明でジョブが失敗している」等の⼿がかりが少ない問い合わせに対し ても、ソースコードやクラウドリソースを参照し、⾃律的に調査を進める

    実践: クロサイによるインフラ調査 問い合わせ例: - ジョブが失敗しているがCrois UI上で原因がわ からない クロサイの調査: - ジョブに対応するインフラリソース(ECS, Lambda, StepFunction等)を特定 - ソースコードからリソースの命名規則を把握 - 関連するリソースのログを網羅的に調査、原因 となるエラーメッセージを特定
  11. © Recruit Co., Ltd. All Rights Reserved 14 クロサイの出力を評価 運用者は出力を判断しつつ、逐次評価を行う。

    全体の7割以上のアラートで自分でやる以上の評価 調査タスクの負担を軽減 複数リソースを行き来する調査はAIが代行。人間の運用 者は整理された情報を元に判断することに集中 成果: 運⽤負荷の軽減
  12. © Recruit Co., Ltd. All Rights Reserved 15 成果: Human

    in the loopによる継続的改善 8/1 - 9/30 における手動評価 11/1 - 12/31 における手動評価 継続的な改善 運⽤者は、AIによる出⼒を評価し、⼿順書の改善を⾏うことによっ て、AIの出⼒を改善するループに組み込まれている。 - 修正するのは主に⼿順書なので改善が簡単 - ⼿順書改善が⾃動化範囲の拡⼤に直結、結果的に⾼いモチベー ションで改善を実施 以上の性質から、改善ループが順調に周り、取り組み当初からAI出⼒ の質が⼤幅に改善している
  13. © Recruit Co., Ltd. All Rights Reserved 17 LangChainの調査によると、 「toolでアクセスできる詳細情報」「集約されたガイドライン」が揃ったと

    きにAIエージェントは最も高いスコアを出す。 Croisでは、SRE活動によりこれらかすでに存在していた 学び: SRE⽂化との親和性 toolでアクセスできる詳細情報 整備されたログ、メトリクス、アラートをtool として実装することでAIがシステムを理解 → ⾃動化のためにシステム監視を充実 させよう!! 集約されたガイドライン 地道に蓄積してきたランブックが⾼品質なプロ ンプトとして機能 → ⾃動化のためにドキュメントを充実 させよう!!
  14. © Recruit Co., Ltd. All Rights Reserved 18 従来の⼿順書の整備‧スクリプトでは改善が難しかった運⽤タスクに⽣成AIを活⽤ -

    既存の⼿順書を活⽤し、⼿順書駆動運⽤の実現 Croisの運⽤効率改善のためAIOpsを始め、Crois 運⽤AI “クロサイ”を開発 - ⼈間には学習コストの⾼い運⽤タスクの代替が可能であることが分かった - インフラ‧ドキュメントを⾃律的に調査し、役⽴つ出⼒を得ることができる - Human in the loopによる継続的な改善を実現 SRE⽂化が⼤事 - ⾃動化のためにドキュメントを充実させよう! - ⾃動化のためにシステム監視を充実させよう!   まとめ