Slide 1

Slide 1 text

「挑戦しなければ障害は生まれない」 社内ポストモーテム共有会について

Slide 2

Slide 2 text

Twitter:し〜ぷ(sheep_san_white) 経歴: ● 新卒からずっとインフラエンジニア( 15年) ● SIer下請けからゲーム系、ウェブ系などを転々として現職に 落ち着いた 好きな言語:Go 趣味:サイクリング 好きなこと:食べること(料理も少々)、ルビコン出張(AC6) 瀬戸口 健 株式会社リブセンス テクノロジカルマーケティング部 インフラストラクチャーグループ Copyright © Livesense Inc.

Slide 3

Slide 3 text

リブセンスについての紹介 Copyright © Livesense Inc.

Slide 4

Slide 4 text

リブセンスの事業 Copyright © Livesense Inc.

Slide 5

Slide 5 text

インフラグループ Copyright © Livesense Inc. ● 事業部に属さない全社横断組織 ● 6人+兼務2人 ● 各 事 業 部に対し、1-2人が窓 口 担 当になる (DevOps/SRE的な動きもする) ● リブセンス 全 体 で 利 用 する 基 盤 ・プラット フォームも管轄する

Slide 6

Slide 6 text

本日話すこと 1 リブセンスのポストモーテム文化について 2 ポストモーテム共有会について 3 ポストモーテム事例紹介 4 Copyright © Livesense Inc. ※ブログ記事「挑戦しなければ障害は生まれない」社内ポストモーテム共有会 を ベースに、より詳細な話をします。 まとめ

Slide 7

Slide 7 text

リブセンスの ポストモーテム文化について Copyright © Livesense Inc.

Slide 8

Slide 8 text

● フォーマット ○ 各事業部ごとのフォーマットで記載している ○ 全社で固定のフォーマットは無い ● 共有の頻度 ○ 各事業部ごとに週次ミーティングの場などで共有し、振り返りを行なっている ○ 全社的な共有は定常的には行なっていない ■ 半年に1回ぐらいの頻度でエンジニアイベントを開催するタイミングで 併せて共有したりしている リブセンスのポストモーテム文化について
 トラブルが起こった際に再発防止・知見共有のために記載している Copyright © Livesense Inc.

Slide 9

Slide 9 text

参考: ポストモーテムのテンプレート(マッハバイト) Copyright © Livesense Inc. 各項目については、SRE本を参考にしている

Slide 10

Slide 10 text

ポストモーテム共有会について Copyright © Livesense Inc.

Slide 11

Slide 11 text

● Livesense Engineering Park(LEP) ○ 開催頻度 ■ 2週間に1回 ○ 概要 ■ ラジオ参加など、来たい時に来て自由に抜けるカジュアルなミーティング ■ テーマがあるときはアジェンダに書いておいて、無ければ雑談している ● Livesense Engineering Talk(LET) ○ 開催頻度 ■ 不定期 ○ 概要 ■ 技術的な知見の共有や LTを行う (前置き)リブセンスにおける社内活動 Livesense Engineering ParkとLivesense Engineering Talk Copyright © Livesense Inc.

Slide 12

Slide 12 text

● 各事業部でポストモーテムを書く文化はあったが、全社的な共有会は無い ● 以下の理由により、飲食・飲酒ありのイベントとして開催することにした ○ 「シラフで淡々とやっても盛り上がらなかった」という事例共有があった ○ 「リモート主体で集まる機会が無いのでたまには集まりたいよね」という意見があった ポストモーテム共有会開催のきっかけ LEPの雑談で話題に上がり、LETの運営メンバーで開催することに Copyright © Livesense Inc.

Slide 13

Slide 13 text

● 参加方法 ● オフライン ○ オフィスの会議室に集まり、ピザとビールで乾杯 ● オンライン ○ 北は北海道、南は京都から Zoomでリモート参加 ● 参加者 ○ 各事業部のエンジニア ■ バックエンドエンジニア ■ ネイティブアプリエンジニア ○ 横断部署のエンジニア ■ インフラエンジニア ■ データエンジニア ポストモーテム共有会当日の様子 オフィスの会議室とZoomでハイブリッド開催した Copyright © Livesense Inc.

Slide 14

Slide 14 text

● コロナ禍で縮小していたが、リブセンスではエンジニア系のイベントが色々ある ○ 規制がだんだん緩和され、他のイベントも再開の兆しが見えてきた ● 2023年2Qに開催されたEngineer Drink Up(エンジニア向けに開催される飲み会イベント)で 「ポストモーテム共有会を併せてやろう」という意見が出た ○ しかし、テーマを限定せずに開催した方が登壇者が増えることを狙って限定しなかった ■ リブセンス全体としては、ポストモーテム共有会を定期開催するわけではなく 何かのイベントに併せて開催する形で現在は運営されている 初回以降の全社的なポストモーテム共有会の開催について ポストモーテム限定でなく、他の社内イベントのLTに合流した Copyright © Livesense Inc.

Slide 15

Slide 15 text

ポストモーテム事例紹介 Copyright © Livesense Inc.

Slide 16

Slide 16 text

● 解決したかった課題 ○ 同一アプリケーションに複数の機能があり、片方の高負荷が片方に影響を与えていた ■ 求人の社内管理システム画面 ■ ユーザ用メール送信 API ○ APサーバを以下2つに分離することで高負荷時の影響を回避しようとした ■ 求人の社内管理システム画面用の APサーバ ■ メールAPIアクセス用のAPサーバ ● 発生事象 ○ 求人の社内管理画面からユーザにメールを送れなくなった 事例紹介 「Sがついてただけなのに」 ①
 メール送信APIを別のサーバーに切り出そうとしたらメール送信に失敗した件 Copyright © Livesense Inc.

Slide 17

Slide 17 text

● 暫定対応 ○ リバースプロキシ設定修正の PRを作成してリリースした ● 原因 ○ リバースプロキシでHTTP指定すべきところをHTTPS指定してしまっていた ■ リリース前の検証で環境ごとの設定値が誤っていた ● ステージング環境では HTTPを指定しておりエラーとならなかった ● 本番環境ではHTTPSを指定していたがレビュー時の見落としだった ● 恒久対応 ○ GitHub Actionsでステージング・本番環境の設定値を比較する workflowを追加した ■ 環境差分が無い設定値の見落としを減らした 事例紹介 「Sがついてただけなのに」 ②
 Copyright © Livesense Inc.

Slide 18

Slide 18 text

まとめ Copyright © Livesense Inc.

Slide 19

Slide 19 text

● 発生した障害を元に様々な改善がなされたことがわかった ○ CIでの自動チェック強化を行なった ■ 目grepには限界があるので、チェックの自動化大事 ○ 既存処理のデグレチェックを怠らないなど、既存処理を信用しすぎないことが大切 ■ 古くからあるものは何かとトラブルを引きがち・・・ ● 日々の改善で各自挑戦しているからこそ起こったものが大半だった ○ 総括で「挑戦しなければ障害は生まれない」というコメントがあった ○ 障害は起こさないに越したことは無いが、前向きに改善に意識を向けることができた ポストモーテム共有会を実際にやってみて 様々な知見が得られた Copyright © Livesense Inc.

Slide 20

Slide 20 text

No content