Upgrade to Pro — share decks privately, control downloads, hide ads and more …

「挑戦しなければ障害は生まれない」 社内ポストモーテム共有会について

「挑戦しなければ障害は生まれない」 社内ポストモーテム共有会について

「インシデントにどう対応してきた?みんなで学ぶポストモーテム Lunch LT vol.2」の登壇資料です。社内で開催されたポストモーテム共有会について、元ネタのブログ記事「挑戦しなければ障害は生まれない」社内ポストモーテム共有会よりも詳細に話します。

sheep_san_white

September 14, 2023
Tweet

Other Decks in Technology

Transcript

  1. Twitter:し〜ぷ(sheep_san_white) 経歴: • 新卒からずっとインフラエンジニア( 15年) • SIer下請けからゲーム系、ウェブ系などを転々として現職に 落ち着いた 好きな言語:Go 趣味:サイクリング

    好きなこと:食べること(料理も少々)、ルビコン出張(AC6) 瀬戸口 健 株式会社リブセンス テクノロジカルマーケティング部 インフラストラクチャーグループ Copyright © Livesense Inc.
  2. インフラグループ Copyright © Livesense Inc. • 事業部に属さない全社横断組織 • 6人+兼務2人 •

    各 事 業 部に対し、1-2人が窓 口 担 当になる (DevOps/SRE的な動きもする) • リブセンス 全 体 で 利 用 する 基 盤 ・プラット フォームも管轄する
  3. 本日話すこと 1 リブセンスのポストモーテム文化について 2 ポストモーテム共有会について 3 ポストモーテム事例紹介 4 Copyright ©

    Livesense Inc. ※ブログ記事「挑戦しなければ障害は生まれない」社内ポストモーテム共有会 を ベースに、より詳細な話をします。 まとめ
  4. • フォーマット ◦ 各事業部ごとのフォーマットで記載している ◦ 全社で固定のフォーマットは無い • 共有の頻度 ◦ 各事業部ごとに週次ミーティングの場などで共有し、振り返りを行なっている

    ◦ 全社的な共有は定常的には行なっていない ▪ 半年に1回ぐらいの頻度でエンジニアイベントを開催するタイミングで 併せて共有したりしている リブセンスのポストモーテム文化について
 トラブルが起こった際に再発防止・知見共有のために記載している Copyright © Livesense Inc.
  5. • Livesense Engineering Park(LEP) ◦ 開催頻度 ▪ 2週間に1回 ◦ 概要

    ▪ ラジオ参加など、来たい時に来て自由に抜けるカジュアルなミーティング ▪ テーマがあるときはアジェンダに書いておいて、無ければ雑談している • Livesense Engineering Talk(LET) ◦ 開催頻度 ▪ 不定期 ◦ 概要 ▪ 技術的な知見の共有や LTを行う (前置き)リブセンスにおける社内活動 Livesense Engineering ParkとLivesense Engineering Talk Copyright © Livesense Inc.
  6. • 参加方法 • オフライン ◦ オフィスの会議室に集まり、ピザとビールで乾杯 • オンライン ◦ 北は北海道、南は京都から

    Zoomでリモート参加 • 参加者 ◦ 各事業部のエンジニア ▪ バックエンドエンジニア ▪ ネイティブアプリエンジニア ◦ 横断部署のエンジニア ▪ インフラエンジニア ▪ データエンジニア ポストモーテム共有会当日の様子 オフィスの会議室とZoomでハイブリッド開催した Copyright © Livesense Inc.
  7. • コロナ禍で縮小していたが、リブセンスではエンジニア系のイベントが色々ある ◦ 規制がだんだん緩和され、他のイベントも再開の兆しが見えてきた • 2023年2Qに開催されたEngineer Drink Up(エンジニア向けに開催される飲み会イベント)で 「ポストモーテム共有会を併せてやろう」という意見が出た ◦

    しかし、テーマを限定せずに開催した方が登壇者が増えることを狙って限定しなかった ▪ リブセンス全体としては、ポストモーテム共有会を定期開催するわけではなく 何かのイベントに併せて開催する形で現在は運営されている 初回以降の全社的なポストモーテム共有会の開催について ポストモーテム限定でなく、他の社内イベントのLTに合流した Copyright © Livesense Inc.
  8. • 解決したかった課題 ◦ 同一アプリケーションに複数の機能があり、片方の高負荷が片方に影響を与えていた ▪ 求人の社内管理システム画面 ▪ ユーザ用メール送信 API ◦

    APサーバを以下2つに分離することで高負荷時の影響を回避しようとした ▪ 求人の社内管理システム画面用の APサーバ ▪ メールAPIアクセス用のAPサーバ • 発生事象 ◦ 求人の社内管理画面からユーザにメールを送れなくなった 事例紹介 「Sがついてただけなのに」 ①
 メール送信APIを別のサーバーに切り出そうとしたらメール送信に失敗した件 Copyright © Livesense Inc.
  9. • 暫定対応 ◦ リバースプロキシ設定修正の PRを作成してリリースした • 原因 ◦ リバースプロキシでHTTP指定すべきところをHTTPS指定してしまっていた ▪

    リリース前の検証で環境ごとの設定値が誤っていた • ステージング環境では HTTPを指定しておりエラーとならなかった • 本番環境ではHTTPSを指定していたがレビュー時の見落としだった • 恒久対応 ◦ GitHub Actionsでステージング・本番環境の設定値を比較する workflowを追加した ▪ 環境差分が無い設定値の見落としを減らした 事例紹介 「Sがついてただけなのに」 ②
 Copyright © Livesense Inc.
  10. • 発生した障害を元に様々な改善がなされたことがわかった ◦ CIでの自動チェック強化を行なった ▪ 目grepには限界があるので、チェックの自動化大事 ◦ 既存処理のデグレチェックを怠らないなど、既存処理を信用しすぎないことが大切 ▪ 古くからあるものは何かとトラブルを引きがち・・・

    • 日々の改善で各自挑戦しているからこそ起こったものが大半だった ◦ 総括で「挑戦しなければ障害は生まれない」というコメントがあった ◦ 障害は起こさないに越したことは無いが、前向きに改善に意識を向けることができた ポストモーテム共有会を実際にやってみて 様々な知見が得られた Copyright © Livesense Inc.