Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
オブザーバビリティ勉強会で模擬障害対応をやってみた
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Tech Leverages
June 06, 2024
Technology
1
830
オブザーバビリティ勉強会で模擬障害対応をやってみた
# ゆるSRE勉強会 #6
20:35-20:40 『オブザーバビリティ勉強会で模擬障害対応をやってみた』
蒲生廣人さん X(旧Twitter): @gamonges_eng
Tech Leverages
June 06, 2024
Tweet
Share
More Decks by Tech Leverages
See All by Tech Leverages
Google ADKのSub Agentを Agentic Workflowに移行し、 遷移成功率を改善した話
leveragestech
0
23
ハッカソンから社内プロダクトへ AIエージェント ko☆shi 開発で学んだ4つの重要要素
leveragestech
0
1.2k
2025年のデザインシステムとAI 活用を振り返る
leveragestech
0
1.4k
ディメンショナルモデリングを採用してない組織がモデリング本を通じて得られたこと
leveragestech
0
1.2k
レバレジーズのLangfuse活用事例
leveragestech
0
1.2k
CloudComposerによる大規模ETL 「制御と実行の分離」の実践
leveragestech
0
1.5k
「ELT職人」から卒業!Fivetranでデータパイプラインの構築・運用から解放され、 本来の価値創造に集中できる ようになった事例
leveragestech
0
1.1k
SpecKitでどこまでできる? コストはどれくらい?
leveragestech
2
4.5k
未来を拓くAI技術〜エージェント開発とAI駆動開発〜
leveragestech
2
320
Other Decks in Technology
See All in Technology
All About Sansan – for New Global Engineers
sansan33
PRO
1
1.3k
Frontier Agents (Kiro autonomous agent / AWS Security Agent / AWS DevOps Agent) の紹介
msysh
3
140
~Everything as Codeを諦めない~ 後からCDK
mu7889yoon
3
240
GCASアップデート(202510-202601)
techniczna
0
250
マーケットプレイス版Oracle WebCenter Content For OCI
oracle4engineer
PRO
5
1.5k
日本の85%が使う公共SaaSは、どう育ったのか
taketakekaho
1
120
Azure Durable Functions で作った NL2SQL Agent の精度向上に取り組んだ話/jat08
thara0402
0
130
15 years with Rails and DDD (AI Edition)
andrzejkrzywda
0
160
Contract One Engineering Unit 紹介資料
sansan33
PRO
0
13k
Embedded SREの終わりを設計する 「なんとなく」から計画的な自立支援へ
sansantech
PRO
2
1.9k
Deno・Bunの標準機能やElysiaJSを使ったWebSocketサーバー実装 / ラーメン屋を貸し切ってLT会! IoTLT 2026新年会
you
PRO
0
250
【インシデント入門】サイバー攻撃を受けた現場って何してるの?
shumei_ito
0
1.4k
Featured
See All Featured
[SF Ruby Conf 2025] Rails X
palkan
0
740
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
128
55k
Digital Ethics as a Driver of Design Innovation
axbom
PRO
1
170
Crafting Experiences
bethany
1
46
Everyday Curiosity
cassininazir
0
130
How to make the Groovebox
asonas
2
1.9k
Designing Dashboards & Data Visualisations in Web Apps
destraynor
231
54k
For a Future-Friendly Web
brad_frost
182
10k
How to Think Like a Performance Engineer
csswizardry
28
2.4k
The World Runs on Bad Software
bkeepers
PRO
72
12k
Git: the NoSQL Database
bkeepers
PRO
432
66k
The Hidden Cost of Media on the Web [PixelPalooza 2025]
tammyeverts
2
170
Transcript
オブザーバビリティ勉強会で模 擬障害対応をやってみた レバテック開発部DevOps推進グ ループSREチーム 蒲生廣人
| © Leverages inc. 2 • 所属 ◦ レバテック開発部DevOps推進グループSREチーム • サービス
◦ レバテック ▪ エンジニアの転職支援、新卒支援 ▪ フリーランスエンジニアの案件支援 • 趣味 ◦ フットサル、ずっと真夜中でいいのに • 好きな言葉 ◦ 「推測するな、計測せよ」 ◦ 「一行のログの先には、一人のユーザーがいる」 自己紹介 Introduction
| © Leverages inc. 3 • オブザーバビリティ導入へのハードル • 模擬障害対応やってみた • 模擬障害対応の効果
• まとめ アジェンダ INDEX
オブザーバビリティ導入までのハードル
| © Leverages inc. 5 ※ツールの選定や導入決定に至るまでの経緯は端折ります🙏 • オブザーバビリティの解像度 ◦ モニタリングとどう違うの ◦
それまでのモニタリング体制文化からの変容 ▪ インフラのメトリクス、ログ中心の監視設定からユーザー体験重視のプラクティスへ • ツール移行 ◦ 監視設定などの移行コスト ◦ 運用自体の移行コスト 導入当初のハードル オブザーバビリティ導入までのハードル
| © Leverages inc. 6 • オブザーバビリティ勉強会 ◦ オブザーバビリティの考えや概念について学んでもらう • ツールハンズオン
◦ 導入したオブザーバビリティツール(NewRelic)の操作を一通り行うことで、ツールを開発チー ムで触れるようにする • アラート勉強会 ◦ ユーザー視点でのアラートをどう設定していくのか ◦ NewRelicのアラート設定ハンズオン • NewRelicアラートのTerraformライブラリ作成 • NewRelic合宿 ◦ GWの中日にあった平日3日間で、出勤している開発部メンバーでアラートの移行作業を行う ◦ その間SREチームががっつりサポート ハードルを超えるための取り組み オブザーバビリティ導入までのハードル
| © Leverages inc. 7 • 具体的な普段の運用方法の解像度が上がりきらない ◦ APMなど新しい機能をどう運用にのせていくか • いざ障害が発生した際に使いこなせるかわからない
◦ ツールを使ったトラブルシューティング経験がないので、インシデント時の対応に不安が残る 解決しきれない課題 オブザーバビリティ導入までのハードル
模擬障害対応やってみよう
| © Leverages inc. 9 • 具体的な普段の運用方法の解像度が上がりきらない ◦ 実際に運用しているサービスのテレメトリをツールで見れる状態にして 開発者が分析できる状態を作る •
いざ障害が発生した際に使いこなせるかわからない ◦ 実際に障害を起こしてみて、導入したツールを使って何ができるか、トラブルシューティングをど うやっていくのか、を体験させてみる どうしてやるの 模擬障害対応やってみよう
| © Leverages inc. 10 • 対象 ◦ NewRelicのライセンスを配った社員約30名ほど • シナリオ選び
◦ 実際に過去に起きたインシデントの中から、売上損失につながりやすいインシデントシナリオを3 つ用意 • 環境 ◦ 関係するサービスのSTG環境 ▪ 開発者以外の社内の人が使っているケースがあるので事前に告知 ▪ ゴミデータができるなど不可逆性の高いものは、模擬障害対応用のデータベースを作って そちらで実施 どうやったの 模擬障害対応やってみよう
| © Leverages inc. 11 どうやったの 模擬障害対応やってみよう NewRelicのワークロードという機能 を使って、関連するアプリケーションや リソースをひとまとめで管理。 障害発生時に、どこで問題が発生して
いるか可視化してくれるようにした
| © Leverages inc. 12 どうやったの 模擬障害対応やってみよう フリーランスのエンジニアが案件を探すた めの案件検索画面のレイテンシをアラート に設定して、 中でゴニョゴニョしてレイテンシを悪化さ
せた
模擬障害対応の効果
| © Leverages inc. 14 • 具体的な普段の運用方法の解像度が上がりきらない ◦ APMなど新しい機能をどう運用にのせていくか 運用のイメージの解像度UP 模擬障害対応の効果
• 新しく使う機能でダッシュボードやアラートを作成し、それらを使って調査をしても らった ◦ これの一個前の勉強会で、ダッシュボードとアラートの作成ハンズオンをやって いるので概念は分かってる ◦ 自システムの設定例を見てもらうことで、自分たちで設定する時の参考にして もらった
| © Leverages inc. 15 • いざ障害が発生した際に使いこなせるかわからない ◦ ツールを使ったトラブルシューティング経験がないので、インシデント時の対応に不安が残る 障害発生時のトラブルシューティングの解像度UP 模擬障害対応の効果
• 過去に起きた障害を、新しいツール(NewRelic)を使って調査してもらうことで 実際の障害対応に近い体験をしながらツールの扱いに慣れてもらった
まとめ
| © Leverages inc. 17 • 障害対応をカジュアルな気持ちで体験できる ◦ ISUCONに近いゲーム感覚があった • 解決すべき問題に対して、ツールを駆使する体験ができる
◦ ハンズオンだけだと具体的にツールを役立たせる、みたいなところまではできないけど 障害を解決するっていう問題に対して取り組ませるのは、また違う頭の使い方をするところがいい • 出題者側はシステムの仕組みを理解するいい機会になる ◦ 「こここうなってたのね!」とか「こうするとここが壊れるのね!」っていうアハ体験は楽しかった ◦ でも準備は大変 模擬障害対応はいいぞ(準備は大変だけど) まとめ
| © Leverages inc. 18 • Xアカウント:@gamonges_eng • レバテック技術広報アカウント:@levtech_dev • レバテック技術ブログ:Zenn
NewRelicに移行した経緯が書いてあるADRをチームメンバーが公開してくれました!!🎉🎉🎉 蛇足