「インシデントにどう対応してきた?みんなで学ぶポストモーテム Lunch LT vol.2」の登壇資料です。社内で開催されたポストモーテム共有会について、元ネタのブログ記事「挑戦しなければ障害は生まれない」社内ポストモーテム共有会よりも詳細に話します。
「挑戦しなければ障害は生まれない」社内ポストモーテム共有会について
View Slide
Twitter:し〜ぷ(sheep_san_white)経歴:● 新卒からずっとインフラエンジニア(15年)● SIer下請けからゲーム系、ウェブ系などを転々として現職に落ち着いた好きな言語:Go趣味:サイクリング好きなこと:食べること(料理も少々)、ルビコン出張(AC6)瀬戸口 健株式会社リブセンステクノロジカルマーケティング部インフラストラクチャーグループCopyright © Livesense Inc.
リブセンスについての紹介Copyright © Livesense Inc.
リブセンスの事業Copyright © Livesense Inc.
インフラグループCopyright © Livesense Inc.● 事業部に属さない全社横断組織● 6人+兼務2人● 各 事 業 部に対し、1-2人が窓 口 担 当になる(DevOps/SRE的な動きもする)● リブセンス 全 体 で 利 用 する 基 盤 ・プラットフォームも管轄する
本日話すこと1 リブセンスのポストモーテム文化について2 ポストモーテム共有会について3 ポストモーテム事例紹介4Copyright © Livesense Inc.※ブログ記事「挑戦しなければ障害は生まれない」社内ポストモーテム共有会をベースに、より詳細な話をします。まとめ
リブセンスのポストモーテム文化についてCopyright © Livesense Inc.
● フォーマット○ 各事業部ごとのフォーマットで記載している○ 全社で固定のフォーマットは無い● 共有の頻度○ 各事業部ごとに週次ミーティングの場などで共有し、振り返りを行なっている○ 全社的な共有は定常的には行なっていない■ 半年に1回ぐらいの頻度でエンジニアイベントを開催するタイミングで併せて共有したりしているリブセンスのポストモーテム文化について トラブルが起こった際に再発防止・知見共有のために記載しているCopyright © Livesense Inc.
参考: ポストモーテムのテンプレート(マッハバイト)Copyright © Livesense Inc.各項目については、SRE本を参考にしている
ポストモーテム共有会についてCopyright © Livesense Inc.
● Livesense Engineering Park(LEP)○ 開催頻度■ 2週間に1回○ 概要■ ラジオ参加など、来たい時に来て自由に抜けるカジュアルなミーティング■ テーマがあるときはアジェンダに書いておいて、無ければ雑談している● Livesense Engineering Talk(LET)○ 開催頻度■ 不定期○ 概要■ 技術的な知見の共有や LTを行う(前置き)リブセンスにおける社内活動Livesense Engineering ParkとLivesense Engineering TalkCopyright © Livesense Inc.
● 各事業部でポストモーテムを書く文化はあったが、全社的な共有会は無い● 以下の理由により、飲食・飲酒ありのイベントとして開催することにした○ 「シラフで淡々とやっても盛り上がらなかった」という事例共有があった○ 「リモート主体で集まる機会が無いのでたまには集まりたいよね」という意見があったポストモーテム共有会開催のきっかけLEPの雑談で話題に上がり、LETの運営メンバーで開催することにCopyright © Livesense Inc.
● 参加方法● オフライン○ オフィスの会議室に集まり、ピザとビールで乾杯● オンライン○ 北は北海道、南は京都から Zoomでリモート参加● 参加者○ 各事業部のエンジニア■ バックエンドエンジニア■ ネイティブアプリエンジニア○ 横断部署のエンジニア■ インフラエンジニア■ データエンジニアポストモーテム共有会当日の様子オフィスの会議室とZoomでハイブリッド開催したCopyright © Livesense Inc.
● コロナ禍で縮小していたが、リブセンスではエンジニア系のイベントが色々ある○ 規制がだんだん緩和され、他のイベントも再開の兆しが見えてきた● 2023年2Qに開催されたEngineer Drink Up(エンジニア向けに開催される飲み会イベント)で「ポストモーテム共有会を併せてやろう」という意見が出た○ しかし、テーマを限定せずに開催した方が登壇者が増えることを狙って限定しなかった■ リブセンス全体としては、ポストモーテム共有会を定期開催するわけではなく何かのイベントに併せて開催する形で現在は運営されている初回以降の全社的なポストモーテム共有会の開催についてポストモーテム限定でなく、他の社内イベントのLTに合流したCopyright © Livesense Inc.
ポストモーテム事例紹介Copyright © Livesense Inc.
● 解決したかった課題○ 同一アプリケーションに複数の機能があり、片方の高負荷が片方に影響を与えていた■ 求人の社内管理システム画面■ ユーザ用メール送信 API○ APサーバを以下2つに分離することで高負荷時の影響を回避しようとした■ 求人の社内管理システム画面用の APサーバ■ メールAPIアクセス用のAPサーバ● 発生事象○ 求人の社内管理画面からユーザにメールを送れなくなった事例紹介 「Sがついてただけなのに」 ① メール送信APIを別のサーバーに切り出そうとしたらメール送信に失敗した件Copyright © Livesense Inc.
● 暫定対応○ リバースプロキシ設定修正の PRを作成してリリースした● 原因○ リバースプロキシでHTTP指定すべきところをHTTPS指定してしまっていた■ リリース前の検証で環境ごとの設定値が誤っていた● ステージング環境では HTTPを指定しておりエラーとならなかった● 本番環境ではHTTPSを指定していたがレビュー時の見落としだった● 恒久対応○ GitHub Actionsでステージング・本番環境の設定値を比較する workflowを追加した■ 環境差分が無い設定値の見落としを減らした事例紹介 「Sがついてただけなのに」 ② Copyright © Livesense Inc.
まとめCopyright © Livesense Inc.
● 発生した障害を元に様々な改善がなされたことがわかった○ CIでの自動チェック強化を行なった■ 目grepには限界があるので、チェックの自動化大事○ 既存処理のデグレチェックを怠らないなど、既存処理を信用しすぎないことが大切■ 古くからあるものは何かとトラブルを引きがち・・・● 日々の改善で各自挑戦しているからこそ起こったものが大半だった○ 総括で「挑戦しなければ障害は生まれない」というコメントがあった○ 障害は起こさないに越したことは無いが、前向きに改善に意識を向けることができたポストモーテム共有会を実際にやってみて様々な知見が得られたCopyright © Livesense Inc.