Slide 1

Slide 1 text

一人目 SRE として取り組んだこと

Slide 2

Slide 2 text

自己紹介 大 西 時 雨 株式会社hacomono SREチーム所属 2021年 8月入社 shigure.onishi iwanomoto a4t ゲーム / コミュニケーション / 広告 / 医療 / IoT 事業が面白そうならなんでもやる 所 属 経 歴 職 種 Webデザイナーのはずが現在はインフラとか SRE 好 き AWS S3 / AWS Support Enterpriseプラン / Terraform

Slide 3

Slide 3 text

hacomonoに入社 〜 現在 2021 - 08 2021 - 11 2022 - 01 現 在 J o i n 🎉 3 ヶ 月 ぐ ら い 研 修 し な が ら サ ー ビ ス の 改 善 ・ 運 用 業 務 中 心 独 り 立 ち 🏃 サ ー ビ ス が 不 安 定 な の を 課 題 / 解 決 に 取 り 組 む パ フ ォ ー マ ン ス チ ュ ー ニ ン グ / AutoScaling整 備 / 障 害 訓 練 マ ネ ー ジ ャ ー 転 向 🕺 チ ー ム で 成 果 を 出 す こ と を 評 価 さ れ マ ネ ー ジ ャ ー に 転 向 評 価 軸 は エ ン ジ ニ ア で は な い 非 機 能 要 求 の 整 備 🏢 大 手 の 案 件 を 獲 得 す る に は 非 機 能 要 求 が 重 要 他 部 署 も 巻 き 込 ん で 改 善 に 取 り 組 み 中

Slide 4

Slide 4 text

アジェンダ 今 日 の お は な し 1. 入 社 時 の 状 態 と シ ス テ ム で 改 善 し た こ と 2. チ ー ム で 安 定 稼 働 に 向 け て 活 動 し た こ と 4. 今 後 の 活 動 に つ い て 3. hacomono だ か ら 出 来 た こ と

Slide 5

Slide 5 text

入社時の状態とシステムで改善したこと 状 態 / 問 題 点 昼夜問わずどこかで頻繁にサーバダウンが発生する 特定のURLを踏むとサーバダウン サーバ増減させるのがインフラエンジニアじゃないと難しい サーバダウンしても検知できないケースが多々ある

Slide 6

Slide 6 text

入社時の状態とシステムで改善したこと 対 応 方 法 昼夜問わずどこかで頻繁にサーバダウンが発生する 気づいたらサーバ再起動 特定のURLを踏むとサーバダウン 気づいたらサーバ再起動 サーバ増減させるのがインフラエンジニアじゃないと難しい インフラエンジニアの負担増 / 突然の負荷増加に対応できない サーバダウンしても検知できないケースが多々ある お客様に指摘されてサーバ再起動

Slide 7

Slide 7 text

入社時の状態とシステムで改善したこと 改 善 方 法 昼夜問わずどこかで頻繁にサーバダウンが発生する サーバダウンの原因を特定する / Issue化する 特定のURLを踏むとサーバダウン 何故落ちるか?何がパフォーマンス劣化させてるか調査・改善 サーバ増減させるのがインフラエンジニアじゃないと難しい 複雑な手順をシンプル化 / 数字の増減だけでサーバ台数変更可能 サーバダウンしても検知できないケースが多々ある 落ちる時のメトリクスの傾向調査 / 事前検知してアラート化

Slide 8

Slide 8 text

入社時の状態とシステムで改善したこと 課 題 の 本 質 サーバが落ちること自体は仕方がない 原因特定できてないことが問題 コントロールができていない状態 いつ落ちるかわからない 簡単に直せる事象で被害が大きいものまで放置されてしまっている 改修コスト 障害時間 ココ

Slide 9

Slide 9 text

入社時の状態とシステムで改善したこと SREの基本を忠実に データを収集・可視化・分析・アラート化 影響が少ない事象は改善を後回し 改修コストに見合わないものは諦める

Slide 10

Slide 10 text

入社時の状態とシステムで改善したこと 何故できてなかったか? インフラエンジニアが少数で負担が大きい 運用コストが大きいため原因特定・改善に取り組めない 私がJoinすることでようやく手が空き始めた 正のサイクルが回り始めた

Slide 11

Slide 11 text

入社時の状態とシステムで改善したこと Next Action 肝心なことを忘れていないか? 🤔 諦めて改修しなかった事象はどうするのか? 改修コスト 障害時間 ココ

Slide 12

Slide 12 text

チームで安定稼働に向けて活動したこと 障害訓練を始めました

Slide 13

Slide 13 text

チームで安定稼働に向けて活動したこと 課 題 技術で簡単に改善できることはやりきった 残りの未改修は引き続き落ちることは変わってない 応急処置方法はあるけどインフラエンジニアしかできない

Slide 14

Slide 14 text

チームで安定稼働に向けて活動したこと 不 満 の 低 減 1. 少人数で対応するのは限界 対応できる人を教育・障害解消時間の短縮 2. 顧客への案内の高速化し混乱の低減 3. サーバダウン時の代替案の提示

Slide 15

Slide 15 text

入社時の状態とシステムで改善したこと 顧客の不満度の低減を重視する サービスのダウンは時間を短くできないものがある AWSがダウンした場合とかどうしようもない 顧客の行動コントロールし混乱を防ぐ サーバダウン時間の低減ではない リカバリープランを事前に検討する

Slide 16

Slide 16 text

入社時の状態とシステムで改善したこと 障害訓練を受けるのは誰? 顧客と連絡を取るのはサポートの方 顧客に言われて障害に気づくのは心象が悪い 顧客より先に行動できるようになる必要がある 障害通知に気づく・判断できたら先手を打てる

Slide 17

Slide 17 text

チームで安定稼働に向けて活動したこと 改 善 す る こ と 1. 障害を判断できる 2. 顧客への通知の高速化 3. 障害をエンジニアに早く気づいてもらう

Slide 18

Slide 18 text

チームで安定稼働に向けて活動したこと 改 善 す る こ と 1. 障害を判断できる 2. 顧客への通知の高速化 3. 障害をエンジニアに早く気づいてもらう コミュニケーションであったり事前の準備できることが多い

Slide 19

Slide 19 text

チームで安定稼働に向けて活動したこと 実 践 し て 判 明 1. 顧客に対して一斉に通知を行う方法がサッと出ない 2. 障害時の文言のテンプレートが存在しない 3. 障害報告を行える人が特定の人に偏ってる 事前準備でほとんど解決できる!

Slide 20

Slide 20 text

チームで安定稼働に向けて活動したこと 1時間Over… 30分前後 🥲 😲

Slide 21

Slide 21 text

チームで安定稼働に向けて活動したこと 開 発 者 版 の 効 果 1. 障害対応能力の向上・障害を通じて AWSを覚える 2. 円滑な障害対応体制の構築 3. 対応方法のマニュアルにたどり着けるようになる 4. 認証情報自体を持ってない事案の解消

Slide 22

Slide 22 text

チームで安定稼働に向けて活動したこと 詳しくはTech Blogにて スタートアップ企業がゼロから始めた障害訓練 https://techblog.hacomono.jp/entry/2022/03/01/130000

Slide 23

Slide 23 text

hacomonoだから出来たこと 私 は 恵 ま れ て る 1. とりあえずやってみようでみんな動いてくれた 2. 事実をしっかり受け止めてくれた 3. 実際に改善を行って毎回速度を上げてきた 4. 事業部を超えて提案に共感し、ジブンゴト化してくれた

Slide 24

Slide 24 text

今後の活動について 課 題 は 山 盛 り 明確な課題がいくつも発覚して改善を行うフェーズ 見逃されてた非機能要件をひたすら改善 PDCAのサイクルはできているので後はひたすら Try 苦しいけど楽しい課題がいっぱいある、仲間が欲しい 😉

Slide 25

Slide 25 text

ご清聴 ありがとうございました