Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
実践 自動復旧 / self healing
Search
kobtea
February 26, 2019
Technology
1.6k
1
Share
実践 自動復旧 / self healing
kobtea
February 26, 2019
Other Decks in Technology
See All in Technology
責任あるソフトウェアエンジニアリングの紹介4章・5章 / RSE_Ch4-5
ido_kara_deru
0
330
ラズパイ & Picoで入門:Zephyr(RTOS)の環境構築からビルドまでの紹介
iotengineer22
0
230
GitHub Copilot のこれまでとこれから: From Copilot to Collaborative Agents
yuriemori
1
180
20260528_生成AIを専属DSに_Howの次にすべきことを考える
doradora09
PRO
0
200
ルール・ロール・ツールを創る / Creating Rules, Roles and Tools
ks91
PRO
0
160
コーポレートサイトのアクセシビリティ改善とJIS準拠への実践
lycorptech_jp
PRO
2
140
layerx-fde-practices
cipepser
6
2.7k
イベントで大活躍する電子ペーパー名札 〜その3〜 / ビジュアルプログラミングIoTLT vol.23
you
PRO
0
140
その英語学習、AWSで代替できませんか?
suzutatsu
1
250
Agentic Design Patterns
glaforge
0
190
組織の中で自分を経営する技術
shoota
0
150
Python開発環境にハーネス適用を検討する
yuuka51
1
510
Featured
See All Featured
Java REST API Framework Comparison - PWX 2021
mraible
34
9.3k
New Earth Scene 8
popppiees
3
2.3k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
35
3.5k
The untapped power of vector embeddings
frankvandijk
2
1.7k
Improving Core Web Vitals using Speculation Rules API
sergeychernyshev
21
1.5k
Building Applications with DynamoDB
mza
96
7k
Making the Leap to Tech Lead
cromwellryan
135
9.8k
Stop Working from a Prison Cell
hatefulcrawdad
274
21k
Technical Leadership for Architectural Decision Making
baasie
3
370
SEO Brein meetup: CTRL+C is not how to scale international SEO
lindahogenes
1
2.7k
Leo the Paperboy
mayatellez
7
1.8k
My Coaching Mixtape
mlcsv
0
130
Transcript
Copyright © GREE, Inc. All Rights Reserved. Copyright © GREE,
Inc. All Rights Reserved. 実践 自動復旧 Hiroaki Kobayashi 2019-02-26
Copyright © GREE, Inc. All Rights Reserved. 小林 裕明 •
所属: グリー株式会社 開発本部 インフラストラクチャ部 • 業務: • プロダクトリリース・運用支援 • モニタリングシステム運用 自己紹介
Copyright © GREE, Inc. All Rights Reserved. よいアラートの仕組みを作る6つの方法 • アラートにメールを使うのをやめよう
• 手順書を書こう • 固定の閾値を決めることだけが方法ではない • アラートを削除し、チューニングしよう • メンテナンス期間を使おう • まずは自動復旧を試そう <- !? 入門 監視 3章より
Copyright © GREE, Inc. All Rights Reserved. • AWS環境の通知種別と配信基盤 •
自動復旧を導入した話 • 何から手を付けるか • どうやって実装するか • 導入 / 効果測定 / イテレーション • 自動復旧との付き合い方 話すこと
Copyright © GREE, Inc. All Rights Reserved. • critical •
即時対応が必要 • 通知先: PagerDuty, Slack, ... • a.k.a: アラート, ページ • warning • 即時対応は不要 • 通知先: Slack, ... • a.k.a: (アラート), ロギング • ticket • 期日までに対応が必要 • 通知先: Slack, JIRA 通知の種別
Copyright © GREE, Inc. All Rights Reserved. Architecture アラート配信基盤 Alert
Yusura - distribute alerts - summarize alerts - fetch metadata Job
Copyright © GREE, Inc. All Rights Reserved. 対応手順書を書く • 観測して明文化する
• このアラートは何を意味するのか • サービス(SLO)への影響はあるか • 何を確認すべきか • どのような行動を取るべきか • 法則が見えてくる • 実はコマンド1発叩いているだけ • 単純なアラートほど頻出する • アラートにhookしてコマンド実行できれば良いのでは 何から手を付けるか
Copyright © GREE, Inc. All Rights Reserved. • シンプルにする •
単一インスタンスで完結させる • オーケストレーションはしない • サービスレベルを悪化させない • SLOの範囲内で実施 • サービスアウトされたインスタンスに実施 • バッファを持ち欠損しない処理に実施 • Fail Safeにする • プロセス再起動するなら、プロセスチェックする • しきい値であれば2重に設定する どうやって実装するか 方針
Copyright © GREE, Inc. All Rights Reserved. リソース管理のためのサービス • コマンド実行に関係する機能
• Run Command: タスク・コマンド実行 • Automation: タスクのステップ実行 • SSM Documents: タスク・コマンド群の定義 • AWS APIでコマンド実行できる • SNS -> Lambda -> SSM RunCommand • CloudWatch Event -> SSM RunCommand AWS System Manager (SSM) $ aws ssm send-command \ --document-name "AWS-RunShellScript" \ --instance-ids i-123 \ --parameters '{"commands":["hostname"]}'
Copyright © GREE, Inc. All Rights Reserved. Architecture 実装 自動復旧
SQS Yusura Target SNS SSM 1. notify 2. receive 3. notify 3. notify 4. trigger 5. resolve 6,8. notify 7. execute Lambda
Copyright © GREE, Inc. All Rights Reserved. 実行宣言 / 結果報告
Copyright © GREE, Inc. All Rights Reserved. 設定イメージ { "SOME_ROLE:SOME_ALERT":
{ "commands": [ "PROC_CHECK --ignore-check FOO_PROCESS", "service FOO_PROCESS restart", "service FOO_PROCESS status" ] } }
Copyright © GREE, Inc. All Rights Reserved. • 導入は慎重に行う •
導入初期はアラートも飛ばして人が見守る • 実績ができ次第アラートは無効にする (Warning化) • アラートレポートで可視化・イテレートする • 無効化・ルール見直し・自動復旧・恒久対応 導入 / 効果測定 / イテレーション
Copyright © GREE, Inc. All Rights Reserved. Architecture Alert Report
Scheduled Search Webhook Connection Webhook Webhook
Copyright © GREE, Inc. All Rights Reserved. • 自動復旧は恒久対応ではない •
あくまで一次対応の負担を下げるもの • 根本原因は解決されていない • 浮いた時間で恒久対応する • 恒久対応は時間がかかる • 担当者の工数確保 • OSSのフィードバック、修正、リリース • ミドルウェアのバージョンアップ • アーキテクチャの再設計 • オンコールが疲弊しないための自動復旧 • 必要以上に依存しない 自動復旧との付き合い方
Copyright © GREE, Inc. All Rights Reserved. • 手順書を書いてアルゴリズムを把握する •
自動化できるかの指針になる • アラート削減や恒久対応の際の指針になる • SNS, Lambda, SSMがあればわりとなんとかなる • 自動復旧は恒久対応ではないので使いすぎには注意 まとめ
Copyright © GREE, Inc. All Rights Reserved. Copyright © GREE,
Inc. All Rights Reserved. インターネットを通じて、 世界をより良くする。
Copyright © GREE, Inc. All Rights Reserved.