Upgrade to Pro — share decks privately, control downloads, hide ads and more …

SRE へのサポートケースをAIに管理させる方法

Avatar for Takashi IIGUNI Takashi IIGUNI
July 11, 2025
210

SRE へのサポートケースをAIに管理させる方法

SRE NEXT 2025 で発表した資料です。
https://sre-next.dev/2025/schedule/#slot050

Avatar for Takashi IIGUNI

Takashi IIGUNI

July 11, 2025
Tweet

Transcript

  1. 7 Ubie における他のチームからインフラチームへの相談内容 • terraform 等の PR のレビュー依頼 • Google

    Cloud / GitHub への権限付与 • デプロイ失敗時のトラブルシュート • データ分析の相談 • 新規サービスのインフラ構築の相談 1m-5m 数週間 1営業日
  2. 9 課題1: 問い合わせ対応に取られる工数が肥大化 • 月間100件以上の問い合わせを3人で回していた • もっとインフラの根本的な改善に工数を割り当てたい ◦ コスト最適化, 開発者体験の向上,

    諸々のマイグレーション • 問い合わせ対応に1日の稼働の50%以上使うこともある 月100件 エンジニア 70人 SRE 2人 + Data Engineer 1人
  3. 10 SRE への問い合わせを Toilととらえる > Our SRE organization has an

    advertised goal of keeping operational work (i.e., toil) below 50% of each SRE’s time. At least 50% of each SRE’s time should be spent on engineering project work that will either reduce future toil or add service features. Feature development typically focuses on improving reliability, performance, or utilization, which often reduces toil as a second-order effect. Chapter 5 - Eliminating Toil, https://sre.google/sre-book/eliminating-toil/ • 問い合わせの多くはマニュアル的な作業 • 問い合わせの多くは、反復的に発生する • 問い合わせは、サービスや組織の成長によって増える O(n)
  4. 14 Slackのスレッドをチケット化するサービスを内製 (otter) • Slack Bot + Webアプリとして動作 • AI

    によるチケットの一次回答 • AI がチケットの優先度、アサインを判定する
  5. 17 Ubie の インフラに関するドメイン知識が不足している • Ubie のインフラのアーキテクチャ • Ubie のアプリケーションのデリバリーの仕組み

    • Ubie では非推奨な機能、サービス 「知らんがな」 「AI君は入ってきたばかりだから知らないかもしれないけど」
  6. 18 AI君のオンボをしよう • 開発者ドキュメントを量産 ◦ フォーマット決めて cursor に書かせた ◦ GitHub

    Pages + Hugo で社内に公開 • Vertex AI Search のデータソースを作る ◦ チケットが作られたら初手ドキュメント検 索してリンクを提示
  7. 19 otter に問い合わせるとき 1. スレッドを立てる 2. チケットを作成 3. AI による一時回答

    4. 作業待ち / Review 5. Close Engineer 新しくリリースしたService A から Service B に疎通でき ない
  8. 20 otter にチケットを作成する流れ 1. スレッドを立てる 2. チケットを作成 3. AI による一時回答

    4. 作業待ち / Review 5. Close アサインと優先度判定も 合わせて行う
  9. 21 otter にチケットを作成する流れ 1. スレッドを立てる 2. チケットを作成 3. AI による一時回答

    4. 作業待ち / Review 5. Close InfraHelpOtter Istio の Authorization Policy を確認してください Summary: サービス間通信の方法について、以下の情報を提供します。 <略> Links: *1 https://docs.example.com/how-to-setup-istio-authorization-policy *2 https://docs.example.com/about-istio
  10. 22 otter に問い合わせるとき 1. スレッドを立てる 2. チケットを作成 3. AI による一時回答

    4. 作業待ち / Review 5. Close Engineer PR 作ったから見てほしい SRE @InfraHelpOtter ack InfraHelpOtter チケットを In-Progress にしました Engineer Authorization Policy 設定する PR 出す SRE Approve した @InfraHelpOtter hold InfraHelpOtter チケットを In-Review にしました
  11. 23 otter に問い合わせるとき 1. スレッドを立てる 2. チケットを作成 3. AI による一時回答

    4. 作業待ち / Review 5. Close SRE @InfraHelpOtter close InfraHelpOtter チケットを close にしました Engineer Merge して動作確認できたー
  12. 25 社内のナレッジとの連携で Toil を削減 After • bot が提示するドキュメントで事足りる場合はプロダクトチームが手を動かした方が早い • そもそも問い合わせチケットを作ることなく自己解決する

    Before • 説明するのが面倒で SRE が手を動かして PR 作っちゃう • 毎回必要なリソースが定義されている GitHub のリンクを探して、手順を人間が書いてあげる
  13. 26 コミュニケーションパスの統一 After • #help-xxx チャンネルに議論を集約できる ◦ 他のチャンネルから #help-xxx チャンネルにスレッドを要約してチケットスレッドにする機能

    Before • 他のチームのチャンネルや times で相談されて、SREの稼働が把握しにくい • 各チームで議論している最中に呼ばれて今北産業状態
  14. 27 人力チケット管理からの解放 After • 優先度が高いチケットは毎朝botがリマインドする • 対応する人のロールや稼働日に応じてAIがチケットのアサインを割り振る • チケットのステータスが変わるごとに差分をAIで要約する Before

    • 毎朝マネージャーがスレッドを遡って手動でリマインド • ランダムでアサインされた人を手動で再割り当て • 並列でやっていると「これどういう状態?」ってなりがち
  15. 30 今後の機能追加 • AI 機能の強化 (AI だけで50%以上のチケットの解決を目指す) ◦ Agent化: 一次回答だけで終わらせない

    ▪ Bulk で検索結果だけ渡しても目が滑る ▪ ヒアリングしていくと how が変わることがある ◦ MCP の実装: ▪ server: daily stand up でチケットの情報を自動で取得する ▪ client: 社内のナレッジを拾いやすくする
  16. 32 まとめ • SRE への問い合わせ件数が増え、工数が爆発 (327件, 2025/4-6) • SRE への問い合わせをAIで管理するサービスを内製開発

    ◦ AI による優先度判定、アサイン ◦ 社内ドキュメントとの連携とAIによる一時回答 • 全社に展開して、AI がシームレスにナレッジにアクセスしつつ全社の Toilを削減していく
  17. © Ubie,Inc. 33 採用情報 Ubieでは積極的に採用を行っています。あ なたの応募をお待ちしています。 https://recruit.ubie.life/ We Are Hiring!

    https://x.com/UbieCorp_JP https://www.facebook.com/ubie.inc https://www.linkedin.com/company/ubie-inc Ubie公式 採用サイト