Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Enhancing SRE Using AI

Ryo Yoshii
January 29, 2025

Enhancing SRE Using AI

2025年1月29日に開催された「SRE Kaigi 2025 アフターイベント」で登壇しました。
そのスライドを公開します。

SRE 活動は少人数で広い領域をカバーしないとならないと考えています。
そのためにはトイル削減が欠かせないでしょう。
トイルを削減するための AI/LLM 導入アイデアを練ってみました。

https://hireroo.connpass.com/event/342513/

Ryo Yoshii

January 29, 2025
Tweet

More Decks by Ryo Yoshii

Other Decks in Technology

Transcript

  1. 2 ©MIXI ⾃⼰紹介 吉井 亮 (YOSHII RYO) • 経歴 HWエンジニア

    → 中⼩SIer → ERPコンサル → AWS パートナー → 株式会社MIXI (2023年7⽉〜) • Community OpsJAWS (AWS Community Builder) • 好きな⾔葉 No human labor is no human error. Follow Me https://my.prairie.cards/u/YoshiiRyo1
  2. ©MIXI エモーションと コミュニケーションで 「心もつながる」場と機会を 創造し続けます。 MIXI GROUPは、 ただ「つながればいい」という効率的な機能の提供ではなく、 歓喜や興奮、温かな思い、幸せ、居心地の良さの共有を通じて、 その先に、もっと深くて濃く豊かな、心のつながりを生み出すような、

    サービスの開発・提供を目指しています。 現在、スポーツ・ライフスタイル・デジタルエンターテインメント の3つの領域で事業を展開しており、 それぞれの主な事業内容は右の通りです。 また、近年の投資活動の拡大と重要性を勘案し、 FY2023からはスタートアップやファンド出資等の投資活動を事業化しました。 スポーツ事業 プロスポーツチーム運営および 公営競技ビジネスの推進 ライフスタイル事業 インターネットを活用し、 人々の生活に密着したサービスの提供 デジタルエンターテインメント事業 スマホゲームを中心としたゲームの提供 MIXI GROUPの事業領域 
 3つの領域で “「心もつながる」 場と機会” を創造する事業を推進
  3. 44 ©MIXI MIXI GROUPについて 豊かなコミュニケーションを広げ、 世界を幸せな驚きで包む。 PURPOSE 創業以来大切にしてきた豊かなコミュニケーションで幸せな驚きに包まれ た世界を目指し、ただ「つながればいい」という効率的な機能の提供では なく、あたたかい心のつながりを生み出すようなサービスの開発・提供を

    行っています。 3つの事業領域で「心もつながる」場と機会の創 造 ─ スポーツ、ライフスタイル、デジタルエンターテインメント ─ BUSINESS スポーツ領域ではチーム・選手・ユーザーのつながり、ライフスタイル領 域では人々の生活がより豊かになるような身近なコミュニケーション、デ ジタルエンターテインメント領域では親しい友人達と一緒に遊んだり、リ アルイベントで盛り上がれる場や機会の提供など、「心もつなぐコミュニ ケーション」を軸とした事業展開を行っています。 ユーザーサプライズファースト、発明・夢中・誠実 大胆な発想と情熱と何事にも真摯に向きあう文化 CULTURE/PEOPLE ユーザーの驚きを最優先に考えるという想いのこもった「ユーザーサプライ ズファースト」という言葉を胸に、一人ひとりが、ユーザーや仲間、自分に 対して真摯に向き合い、夢中になって、それぞれの専門領域や経験を活かし たこれまでにない新しい視点の発想でものごとに取り組む組織文化です。 多様な働き方を実現する 「マーブルワークスタイル」制度 WORKING STYLE 多様な人材が活躍できる環境づくりを目指し、働き方や休み方の制度も拡充 されています。リモートワークとオフィスワークを融合した「マーブルワー クスタイル」制度は、対面でのコミュニケーション機会も重要であると考 え、両方の働き方を融合したような制度です。 WE ARE HIRING! MIXIではコミュニケーションを一緒につくる仲間を募集中! MIXI 採用
  4. 6 ©MIXI Enhancing SRE Using AI なぜこのテーマにしたのか SRE 活動は少⼈数で広い領域をカバーしないとならないと考えています。 そのためにはトイル削減が⽋かせないでしょう。

    トイルを削減するための AI/LLM 導⼊アイデアを練ってみました。 また、ビジネス⾯では AI を導⼊したサービスが多くリリースされています。 この現状で SRE も AI の知⾒‧経験を習得するべきと考えます。
  5. 7 ©MIXI SRE のタスク領域ごとに AI/LLM 導⼊アイデアを考えてみます。 - モニタリング (*) -

    CI/CD (*) - インシデント対応 (*) - Post Incident Review - キャパシティプランニング - IaC (*) - ナレッジストア (*) PoC 中 https://zenn.dev/ryoyoshii/articles/bce3a488418486 https://zenn.dev/ryoyoshii/articles/b394253dd09d0a https://zenn.dev/ryoyoshii/articles/2617569c17538e タスク領域
  6. 8 ©MIXI 【アイデア】 毎⽇ダッシュボードを⾒て正常性をチェックしています。 そのチェックを AI にもやってもらい意⾒を出してもらいます。 【実装案】 • 指標となるメトリクスを

    JSON 形式でエクスポートして AI に渡す • 渡すメトリクスは過去2週間程度のデータ • レスポンスタイムとリクエスト数、といった複数の組み合わせにすると良さそう • 過去2週間のトレンドを劣化、異常値検出などの観点で分析してもらう • スパイクする時間帯が判っていれば、AI に予め教えておく モニタリング
  7. 9 ©MIXI 【アイデア】 コードレビューを AI にやってもらいます。 開発環境ブランチ の Pull Request

    時にレビューもらうのが良さそうです。 【実装案】 • Pull Request トリガーで GitHub Actions (相当の機能) を Run • File Diff に対するレビューを AI に依頼、コメントしてもらう • コメントに返信すると、その返信にまたコメントをくれる • 同時に Pull Request のサマリーを⽣成してもらう • コーディング規約等は予め AI に教えておく CI/CD
  8. 10 ©MIXI インシデント対応 【アイデア】 インシデント発⽣を検知し、Slack へ通知している環境下を想定します。 Slack に通知されたアラートから ChatBot で⼀次解析を依頼、AI

    が解析し 結果を Slack に返信します。 【実装案】 • AI Agent の裏側で呼び出すクラウドファンクションを作っておく • ファンクションには、解析の元になるシグナルを収集する機能がある • アラートが発⽣した時刻の5分前からシグナルを収集する • AI Agent に渡すプロンプトは可能な限り具体的に記述する • 過去のインシデント情報をナレッジベース(RAG)にまとめておくと精度向上
  9. 11 ©MIXI Post Incident Review 【アイデア】 インシデント発⽣中の作業ログを要約して、時系列で整理したドキュメントを AI に作ってもらいます。Correct of

    Error ⽂書の⼀部として記録します。 【実装案】 • 作業ログ(Slack、Notion、GitHub、Etc...)を AI Agent に渡して 時系列で整理してもらう • ドキュメントの出⼒書式は予め指定しておく • インシデント対応中のメトリクスを画像で出⼒してもらう
  10. 12 ©MIXI キャパシティプランニング 【アイデア】 トラフィックパターンとリソース使⽤率をデータソースとして AI に 将来的なキャパシティプランニングを予測してもらいます。 【実装案】 •

    トラフィックパターンとリソース使⽤率は JSON 形式でストレージに保管する • JSON 出⼒は定期的(n時間おき)に⾏う • 関連性の⾼い複数のリソースデータを出⼒する(多過ぎず少なすぎず)
  11. 13 ©MIXI IaC 【アイデア】 コード⽣成、コードレビュー、⽂法チェックなどを AI に⼿伝ってもらいます。 【実装案】 • IDE

    に AI 拡張をインストールする • 例えば Terraform なら tf ファイルの先頭⾏にコメントで何を作りたいか記述すると それに合ったコードを⽣成してくれる • リソース名や変数もよしなに判断したコードになる • タブで似たようなファイルを開いておくと参考にしてくれる • 確度は80%(体感)くらいだけど、0から作るよりも効率的
  12. 14 ©MIXI ナレッジストア 【アイデア】 説明不要ですね。 プロダクト/プロジェクトに特化した情報を蓄積して、ChatBot 経由で Q&A を⾏います。 【実装案】

    • ChatBot → AI Agent → ナレッジベース のような流れ • 元のドキュメント(Notion、GitHub、共有ファイル等)が更新されたら ナレッジベースに⾃動反映される仕組みを⽤意しておく
  13. 16 ©MIXI • SRE 領域のも AI を使おう • 複雑な処理や雑多なタスクは AI

    に任せてしまおう • AI で More More SRE 3⾏まとめ
  14. 18 ©MIXI いくつかの事例を⾒つけましたので、以下にご紹介します。 1. ⾃動インシデント対応 概要: AIを利⽤して、インシデントが発⽣した際の迅速な初動対応を実現しています。例えば、異常検知とリアルタイムの対応を⾃動化することで、エンジニアの負担を軽減していま す。 参考リンク: Examples

    of Generative AI In SRE 2. キャパシティプランニングとリソース最適化 概要: 機械学習を⽤いてリソースの使⽤状況を予測し、最適なリソース配分を実現しています。これにより、過剰なリソースの使⽤を抑え、コスト削減と効率化を図っています。 参考リンク: Unleashing the Power of AI and Machine Learning in Cloud SRE 3. テスト⾃動化 概要: AIを活⽤して、テストケースの⾃動⽣成や結果の解析を⾏っています。特に⼤規模な変更が頻繁に発⽣する環境でのテスト時間と労⼒の削減に効果的です。 参考リンク: 6 Game-Changing Use Cases of Gen AI in Site Reliability Engineering 4. ナレッジマネジメント 概要: チャットボットや⾃然⾔語処理(NLP)を⽤いて、ドキュメントの⾃動整理や関連情報の推奨システムを運⽤しています。これにより、新しいインシデントが発⽣した際の迅速 な情報取得が可能になります。 参考リンク: Unlock the Power of AI in Site Reliability Engineering これらの事例は、AI/LLMを活⽤することでSREの多くの分野で効率化を実現している例です。 OpenAI O1 に聞いてみた 皆同じこと考えてた!!!