Upgrade to Pro — share decks privately, control downloads, hide ads and more …

一人目 SRE として取り組んだこと

一人目 SRE として取り組んだこと

hacomono Inc.

November 29, 2022
Tweet

More Decks by hacomono Inc.

Other Decks in Technology

Transcript

  1. 一人目 SRE として取り組んだこと

    View Slide

  2. 自己紹介
    大 西 時 雨
    株式会社hacomono SREチーム所属
    2021年 8月入社
    shigure.onishi
    iwanomoto
    a4t
    ゲーム / コミュニケーション / 広告 / 医療 / IoT
    事業が面白そうならなんでもやる
    所 属
    経 歴
    職 種 Webデザイナーのはずが現在はインフラとか SRE
    好 き AWS S3 / AWS Support Enterpriseプラン / Terraform

    View Slide

  3. hacomonoに入社 〜 現在
    2021 - 08
    2021 - 11
    2022 - 01
    現 在
    J o i n 🎉
    3 ヶ 月 ぐ ら い 研 修 し な が ら サ ー ビ ス の 改 善 ・ 運 用 業 務 中 心
    独 り 立 ち 🏃
    サ ー ビ ス が 不 安 定 な の を 課 題 / 解 決 に 取 り 組 む
    パ フ ォ ー マ ン ス チ ュ ー ニ ン グ / AutoScaling整 備 / 障 害 訓 練
    マ ネ ー ジ ャ ー 転 向 🕺
    チ ー ム で 成 果 を 出 す こ と を 評 価 さ れ マ ネ ー ジ ャ ー に 転 向
    評 価 軸 は エ ン ジ ニ ア で は な い
    非 機 能 要 求 の 整 備 🏢
    大 手 の 案 件 を 獲 得 す る に は 非 機 能 要 求 が 重 要
    他 部 署 も 巻 き 込 ん で 改 善 に 取 り 組 み 中

    View Slide

  4. アジェンダ
    今 日 の お は な し
    1. 入 社 時 の 状 態 と シ ス テ ム で 改 善 し た こ と
    2. チ ー ム で 安 定 稼 働 に 向 け て 活 動 し た こ と
    4. 今 後 の 活 動 に つ い て
    3. hacomono だ か ら 出 来 た こ と

    View Slide

  5. 入社時の状態とシステムで改善したこと
    状 態 / 問 題 点
    昼夜問わずどこかで頻繁にサーバダウンが発生する
    特定のURLを踏むとサーバダウン
    サーバ増減させるのがインフラエンジニアじゃないと難しい
    サーバダウンしても検知できないケースが多々ある

    View Slide

  6. 入社時の状態とシステムで改善したこと
    対 応 方 法
    昼夜問わずどこかで頻繁にサーバダウンが発生する
    気づいたらサーバ再起動
    特定のURLを踏むとサーバダウン
    気づいたらサーバ再起動
    サーバ増減させるのがインフラエンジニアじゃないと難しい
    インフラエンジニアの負担増 / 突然の負荷増加に対応できない
    サーバダウンしても検知できないケースが多々ある
    お客様に指摘されてサーバ再起動

    View Slide

  7. 入社時の状態とシステムで改善したこと
    改 善 方 法
    昼夜問わずどこかで頻繁にサーバダウンが発生する
    サーバダウンの原因を特定する / Issue化する
    特定のURLを踏むとサーバダウン
    何故落ちるか?何がパフォーマンス劣化させてるか調査・改善
    サーバ増減させるのがインフラエンジニアじゃないと難しい
    複雑な手順をシンプル化 / 数字の増減だけでサーバ台数変更可能
    サーバダウンしても検知できないケースが多々ある
    落ちる時のメトリクスの傾向調査 / 事前検知してアラート化

    View Slide

  8. 入社時の状態とシステムで改善したこと
    課 題 の 本 質
    サーバが落ちること自体は仕方がない
    原因特定できてないことが問題
    コントロールができていない状態
    いつ落ちるかわからない
    簡単に直せる事象で被害が大きいものまで放置されてしまっている
    改修コスト
    障害時間
    ココ

    View Slide

  9. 入社時の状態とシステムで改善したこと
    SREの基本を忠実に
    データを収集・可視化・分析・アラート化
    影響が少ない事象は改善を後回し
    改修コストに見合わないものは諦める

    View Slide

  10. 入社時の状態とシステムで改善したこと
    何故できてなかったか?
    インフラエンジニアが少数で負担が大きい
    運用コストが大きいため原因特定・改善に取り組めない
    私がJoinすることでようやく手が空き始めた
    正のサイクルが回り始めた

    View Slide

  11. 入社時の状態とシステムで改善したこと
    Next Action
    肝心なことを忘れていないか? 🤔
    諦めて改修しなかった事象はどうするのか?
    改修コスト
    障害時間
    ココ

    View Slide

  12. チームで安定稼働に向けて活動したこと
    障害訓練を始めました

    View Slide

  13. チームで安定稼働に向けて活動したこと
    課 題
    技術で簡単に改善できることはやりきった
    残りの未改修は引き続き落ちることは変わってない
    応急処置方法はあるけどインフラエンジニアしかできない

    View Slide

  14. チームで安定稼働に向けて活動したこと
    不 満 の 低 減
    1. 少人数で対応するのは限界
    対応できる人を教育・障害解消時間の短縮
    2. 顧客への案内の高速化し混乱の低減
    3. サーバダウン時の代替案の提示

    View Slide

  15. 入社時の状態とシステムで改善したこと
    顧客の不満度の低減を重視する
    サービスのダウンは時間を短くできないものがある
    AWSがダウンした場合とかどうしようもない
    顧客の行動コントロールし混乱を防ぐ
    サーバダウン時間の低減ではない
    リカバリープランを事前に検討する

    View Slide

  16. 入社時の状態とシステムで改善したこと
    障害訓練を受けるのは誰?
    顧客と連絡を取るのはサポートの方
    顧客に言われて障害に気づくのは心象が悪い
    顧客より先に行動できるようになる必要がある
    障害通知に気づく・判断できたら先手を打てる

    View Slide

  17. チームで安定稼働に向けて活動したこと
    改 善 す る こ と
    1. 障害を判断できる
    2. 顧客への通知の高速化
    3. 障害をエンジニアに早く気づいてもらう

    View Slide

  18. チームで安定稼働に向けて活動したこと
    改 善 す る こ と
    1. 障害を判断できる
    2. 顧客への通知の高速化
    3. 障害をエンジニアに早く気づいてもらう
    コミュニケーションであったり事前の準備できることが多い

    View Slide

  19. チームで安定稼働に向けて活動したこと
    実 践 し て 判 明
    1. 顧客に対して一斉に通知を行う方法がサッと出ない
    2. 障害時の文言のテンプレートが存在しない
    3. 障害報告を行える人が特定の人に偏ってる
    事前準備でほとんど解決できる!

    View Slide

  20. チームで安定稼働に向けて活動したこと
    1時間Over… 30分前後
    🥲 😲

    View Slide

  21. チームで安定稼働に向けて活動したこと
    開 発 者 版 の 効 果
    1. 障害対応能力の向上・障害を通じて
    AWSを覚える
    2. 円滑な障害対応体制の構築
    3. 対応方法のマニュアルにたどり着けるようになる
    4. 認証情報自体を持ってない事案の解消

    View Slide

  22. チームで安定稼働に向けて活動したこと
    詳しくはTech Blogにて
    スタートアップ企業がゼロから始めた障害訓練
    https://techblog.hacomono.jp/entry/2022/03/01/130000

    View Slide

  23. hacomonoだから出来たこと
    私 は 恵 ま れ て る
    1. とりあえずやってみようでみんな動いてくれた
    2. 事実をしっかり受け止めてくれた
    3. 実際に改善を行って毎回速度を上げてきた
    4. 事業部を超えて提案に共感し、ジブンゴト化してくれた

    View Slide

  24. 今後の活動について
    課 題 は 山 盛 り
    明確な課題がいくつも発覚して改善を行うフェーズ
    見逃されてた非機能要件をひたすら改善
    PDCAのサイクルはできているので後はひたすら
    Try
    苦しいけど楽しい課題がいっぱいある、仲間が欲しい 😉

    View Slide

  25. ご清聴
    ありがとうございました

    View Slide