Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
実践 自動復旧 / self healing
Search
kobtea
February 26, 2019
Technology
1.6k
1
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
実践 自動復旧 / self healing
kobtea
February 26, 2019
Other Decks in Technology
See All in Technology
Claude Codeをどのように キャッチアップしているか
oikon48
13
8.7k
スタートアップにAmazon EKSは早すぎる? マルチプロダクト戦略を加速する Platform Engineeringの実践 / Is Amazon EKS Too Soon for Startups? Practical Platform Engineering to Accelerate a Multi-Product Strategy
elmodev09
1
1.4k
MUSUBI 田中裕一『AIと共に行う「しごとのリデザイン」- スモールバックオフィス編』AI Ops Lab #4
musubi
0
280
Bucharest Tech Week 2026 - Guardians of the Cloud-Native Galaxy
edeandrea
PRO
0
130
【NRUG vol.18】KubernetesにおけるNew Relicデータ取得量削減の考え方
nrug_member
0
170
SONiCのLinuxベースを活かしたZabbix監視
sonic
0
260
AIチャットの改善から見えた、良いAI体験とは / What Constitutes a Good AI Experience: Insights from Improving AI Chat
kubode
0
110
[チョークトーク資料]AWS DevOps Agent を使いこなす / AWS Dev Ops Agent Chalk Talk AWS Summit Japan 2026
kinunori
3
720
千葉での単身赴任からAWSをやり続け、千葉に戻ってきた話
yama3133
1
100
20260619 私の日常業務での生成 AI 活用
masaruogura
1
240
入門!AWS Blocks
ysuzuki
1
170
コミットの「なぜ」を読む
ota1022
0
110
Featured
See All Featured
A brief & incomplete history of UX Design for the World Wide Web: 1989–2019
jct
2
400
Effective software design: The role of men in debugging patriarchy in IT @ Voxxed Days AMS
baasie
0
430
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
34
2.8k
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
49
3.5k
RailsConf 2023
tenderlove
30
1.5k
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
37
6.5k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
141
35k
エンジニアに許された特別な時間の終わり
watany
107
250k
Paper Plane (Part 1)
katiecoart
PRO
0
9.2k
Making Projects Easy
brettharned
120
6.7k
Claude Code のすすめ
schroneko
67
230k
HU Berlin: Industrial-Strength Natural Language Processing with spaCy and Prodigy
inesmontani
PRO
0
410
Transcript
Copyright © GREE, Inc. All Rights Reserved. Copyright © GREE,
Inc. All Rights Reserved. 実践 自動復旧 Hiroaki Kobayashi 2019-02-26
Copyright © GREE, Inc. All Rights Reserved. 小林 裕明 •
所属: グリー株式会社 開発本部 インフラストラクチャ部 • 業務: • プロダクトリリース・運用支援 • モニタリングシステム運用 自己紹介
Copyright © GREE, Inc. All Rights Reserved. よいアラートの仕組みを作る6つの方法 • アラートにメールを使うのをやめよう
• 手順書を書こう • 固定の閾値を決めることだけが方法ではない • アラートを削除し、チューニングしよう • メンテナンス期間を使おう • まずは自動復旧を試そう <- !? 入門 監視 3章より
Copyright © GREE, Inc. All Rights Reserved. • AWS環境の通知種別と配信基盤 •
自動復旧を導入した話 • 何から手を付けるか • どうやって実装するか • 導入 / 効果測定 / イテレーション • 自動復旧との付き合い方 話すこと
Copyright © GREE, Inc. All Rights Reserved. • critical •
即時対応が必要 • 通知先: PagerDuty, Slack, ... • a.k.a: アラート, ページ • warning • 即時対応は不要 • 通知先: Slack, ... • a.k.a: (アラート), ロギング • ticket • 期日までに対応が必要 • 通知先: Slack, JIRA 通知の種別
Copyright © GREE, Inc. All Rights Reserved. Architecture アラート配信基盤 Alert
Yusura - distribute alerts - summarize alerts - fetch metadata Job
Copyright © GREE, Inc. All Rights Reserved. 対応手順書を書く • 観測して明文化する
• このアラートは何を意味するのか • サービス(SLO)への影響はあるか • 何を確認すべきか • どのような行動を取るべきか • 法則が見えてくる • 実はコマンド1発叩いているだけ • 単純なアラートほど頻出する • アラートにhookしてコマンド実行できれば良いのでは 何から手を付けるか
Copyright © GREE, Inc. All Rights Reserved. • シンプルにする •
単一インスタンスで完結させる • オーケストレーションはしない • サービスレベルを悪化させない • SLOの範囲内で実施 • サービスアウトされたインスタンスに実施 • バッファを持ち欠損しない処理に実施 • Fail Safeにする • プロセス再起動するなら、プロセスチェックする • しきい値であれば2重に設定する どうやって実装するか 方針
Copyright © GREE, Inc. All Rights Reserved. リソース管理のためのサービス • コマンド実行に関係する機能
• Run Command: タスク・コマンド実行 • Automation: タスクのステップ実行 • SSM Documents: タスク・コマンド群の定義 • AWS APIでコマンド実行できる • SNS -> Lambda -> SSM RunCommand • CloudWatch Event -> SSM RunCommand AWS System Manager (SSM) $ aws ssm send-command \ --document-name "AWS-RunShellScript" \ --instance-ids i-123 \ --parameters '{"commands":["hostname"]}'
Copyright © GREE, Inc. All Rights Reserved. Architecture 実装 自動復旧
SQS Yusura Target SNS SSM 1. notify 2. receive 3. notify 3. notify 4. trigger 5. resolve 6,8. notify 7. execute Lambda
Copyright © GREE, Inc. All Rights Reserved. 実行宣言 / 結果報告
Copyright © GREE, Inc. All Rights Reserved. 設定イメージ { "SOME_ROLE:SOME_ALERT":
{ "commands": [ "PROC_CHECK --ignore-check FOO_PROCESS", "service FOO_PROCESS restart", "service FOO_PROCESS status" ] } }
Copyright © GREE, Inc. All Rights Reserved. • 導入は慎重に行う •
導入初期はアラートも飛ばして人が見守る • 実績ができ次第アラートは無効にする (Warning化) • アラートレポートで可視化・イテレートする • 無効化・ルール見直し・自動復旧・恒久対応 導入 / 効果測定 / イテレーション
Copyright © GREE, Inc. All Rights Reserved. Architecture Alert Report
Scheduled Search Webhook Connection Webhook Webhook
Copyright © GREE, Inc. All Rights Reserved. • 自動復旧は恒久対応ではない •
あくまで一次対応の負担を下げるもの • 根本原因は解決されていない • 浮いた時間で恒久対応する • 恒久対応は時間がかかる • 担当者の工数確保 • OSSのフィードバック、修正、リリース • ミドルウェアのバージョンアップ • アーキテクチャの再設計 • オンコールが疲弊しないための自動復旧 • 必要以上に依存しない 自動復旧との付き合い方
Copyright © GREE, Inc. All Rights Reserved. • 手順書を書いてアルゴリズムを把握する •
自動化できるかの指針になる • アラート削減や恒久対応の際の指針になる • SNS, Lambda, SSMがあればわりとなんとかなる • 自動復旧は恒久対応ではないので使いすぎには注意 まとめ
Copyright © GREE, Inc. All Rights Reserved. Copyright © GREE,
Inc. All Rights Reserved. インターネットを通じて、 世界をより良くする。
Copyright © GREE, Inc. All Rights Reserved.