Alert on Call with LLM - Speaker Deck

Alert on Call with LLM

by Sashimimochi

Embed

Start on current slide

Slide 1

Slide 1 text

LLMは障害対応のお友達さしみもち 2025/11/25【オンライン】エンジニア達の「完全に理解した」Talk#71

Slide 2

Slide 2 text

自己紹介さしみもち @Sashimimochi343 検索技術とその応用をこよなく愛するエンジニア。ようやくバックエンドエンジニア一本で名乗れるように。最近は、GitHub Copilot Agentに個人リポジトリのPR書かせまくっている。 2

Slide 3

Slide 3 text

技術書典19で新刊出しました!! https://techbookfest.org/product/66gJ3xvWVQKPufbR18GFZF 深夜のアラート対応で、過去の類似障害を探すためにクエリを書き直し、Notionを検索し、Slackの履歴を漁る―SREや運用エンジニアなら誰もが経験する「検索疲れ」。本書は、そんな日常を変える一冊です。 - エラーログを見せるだけで、過去の類似障害と対処法を自動で調べてくれる - 自然言語で質問すれば、ログとナレッジベースを横断して回答してくれる - アラート対応のたびに、情報が自動的に集約されるそんな未来が、もう手の届くところまで来ています。 3

Slide 4

Slide 4 text

深夜3時の悪夢 4 深夜3時、一通の電話で叩き起こされた。眠い目をこすりながら画面を見ると、「Production API - High Error Rate Alert」の文字。心臓がドキッと跳ねる。慌ててベッドから飛び起きたあなたは、ノートPCを開き、Grafanaのダッシュボードを確認する。警告を知らせる真っ赤なパネルが目に飛び込んできた。 Slackには「スココッ」とひっきりなしに通知が来ている。一体何が起こっている？

Slide 5

Slide 5 text

深夜3時の悪夢 5 ログを確認すると、見覚えのあるようなないような文言が並んでいる。Slackでやりとりした履歴がないか、「error」「timeout」で検索する。 30分後にようやく類似事象を社外のテックブログで見つける。当時の対応を確認すると、「DBのコネクションプール枯渇。設定値を調整して解決」と書いてある。願いを込めて、同じ対応を実施。するとエラー率は下がり、アラートも解除。事故報告などを済ませてほっと息をついたときにはもう朝の5時だった。疲れ果てて沈むように布団に戻るのだった。

Slide 6

Slide 6 text

深夜3時の悪夢 6 翌朝(というか数時間後)、チームのポストモーテム会議で先輩が言う。「あー、それ俺も半年前に対応したわ。 Notionに書いたんだけどな」先輩よ、あなたが電話に出てくれれば一瞬で解決したのに......。こういう経験1度はあるのではないでしょうか？

Slide 7

Slide 7 text

こうなってほしい 7 私たちはあくまでAIに雑に聞くだけ。情報収集はAIくんが良しなにやってくれる世界。こうなれば新人でも臆せず、オンコールローテーションに参加できるはず！

Slide 8

Slide 8 text

できちゃいました 8

Slide 9

Slide 9 text

できちゃった様子 9

Slide 10

Slide 10 text

できちゃった様子 10

Slide 11

Slide 11 text

できちゃった様子 11

Slide 12

Slide 12 text

できちゃった様子 12

Slide 13

Slide 13 text

システム全体像 13

Slide 14

Slide 14 text

システム全体像 14 肝はMCPサーバーの登場

Slide 15

Slide 15 text

MCPサーバーとは 15 Anthropic社が2024年11月に発表したオープンな通信プロトコル LLMと外部ツールを標準的な方法で接続するための標準規格 ● LLMの種類によってアプリケーションの実装を変える必要がない ● LLMにシステムの存在を周知し、統一フォーマットでの仕様書提供 ● LLMの利用可能な機能を制御（例:/_searchのみ提供して削除を防止） ● I/OをJSON Schemaで明示検索エンジンのクエリを自分で考えなくて良くなった！

Slide 16

Slide 16 text

今回の例は一例にすぎない 16 MCPサーバーの登場によって、既存のサービスを組み合わせて、新サービスを作りやすくなった!!

Slide 17

Slide 17 text

再掲）技術書典19で新刊出しました!! https://techbookfest.org/product/66gJ3xvWVQKPufbR18GFZF 第1章:SREの現場とログ課題第2章:Elasticsearchで始める障害ログ検索基礎第3章:ハイブリッド検索で「類似障害」を見つける第4章:MCPサーバー経由でElasticsearch にアクセスする第5章:自然言語でアラート分析を実現する 17

Slide 18

Slide 18 text

まとめ 18 ● 情報が分散している状態で緊急性を求められる作業はつらい ● チャットで雑に聞くだけでログと原因調査と手順を調べてくれるような仕組みが作れた！！ ● MCPサーバー/AIエージェントの登場によってクエリを考えなくて良くなったし、インターフェースを1か所に統合できるようになった ● MCPサーバーは既存サービスをつなげて新しい体験価値を素早く試せるツール

Slide 19

Slide 19 text

復旧作業までAIにやらせるのか 19 結局深夜に起こされるのは変わらないんだ... ● 判断が予めできているかつ定形作業はやらせても良いと思う（すでにやってる） ● 都度判断が必要な本番サーバーの状態を変化させる操作は抵抗感がある（SRE関連の勉強会でも出た意見）とある読者様の感想

Slide 20

Slide 20 text

使用させていただいた素材 20 ● いらすとや https://www.irasutoya.com/