Upgrade to Pro — share decks privately, control downloads, hide ads and more …

一人目 SRE として取り組んだこと

Sponsored · Ship Features Fearlessly Turn features on and off without deploys. Used by thousands of Ruby developers.

一人目 SRE として取り組んだこと

Avatar for hacomono Inc.

hacomono Inc. PRO

November 29, 2022

More Decks by hacomono Inc.

Other Decks in Technology

Transcript

  1. 自己紹介 大 西 時 雨 株式会社hacomono SREチーム所属 2021年 8月入社 shigure.onishi

    iwanomoto a4t ゲーム / コミュニケーション / 広告 / 医療 / IoT 事業が面白そうならなんでもやる 所 属 経 歴 職 種 Webデザイナーのはずが現在はインフラとか SRE 好 き AWS S3 / AWS Support Enterpriseプラン / Terraform
  2. hacomonoに入社 〜 現在 2021 - 08 2021 - 11 2022

    - 01 現 在 J o i n 🎉 3 ヶ 月 ぐ ら い 研 修 し な が ら サ ー ビ ス の 改 善 ・ 運 用 業 務 中 心 独 り 立 ち 🏃 サ ー ビ ス が 不 安 定 な の を 課 題 / 解 決 に 取 り 組 む パ フ ォ ー マ ン ス チ ュ ー ニ ン グ / AutoScaling整 備 / 障 害 訓 練 マ ネ ー ジ ャ ー 転 向 🕺 チ ー ム で 成 果 を 出 す こ と を 評 価 さ れ マ ネ ー ジ ャ ー に 転 向 評 価 軸 は エ ン ジ ニ ア で は な い 非 機 能 要 求 の 整 備 🏢 大 手 の 案 件 を 獲 得 す る に は 非 機 能 要 求 が 重 要 他 部 署 も 巻 き 込 ん で 改 善 に 取 り 組 み 中
  3. アジェンダ 今 日 の お は な し 1. 入

    社 時 の 状 態 と シ ス テ ム で 改 善 し た こ と 2. チ ー ム で 安 定 稼 働 に 向 け て 活 動 し た こ と 4. 今 後 の 活 動 に つ い て 3. hacomono だ か ら 出 来 た こ と
  4. 入社時の状態とシステムで改善したこと 改 善 方 法 昼夜問わずどこかで頻繁にサーバダウンが発生する サーバダウンの原因を特定する / Issue化する 特定のURLを踏むとサーバダウン

    何故落ちるか?何がパフォーマンス劣化させてるか調査・改善 サーバ増減させるのがインフラエンジニアじゃないと難しい 複雑な手順をシンプル化 / 数字の増減だけでサーバ台数変更可能 サーバダウンしても検知できないケースが多々ある 落ちる時のメトリクスの傾向調査 / 事前検知してアラート化
  5. チームで安定稼働に向けて活動したこと 改 善 す る こ と 1. 障害を判断できる 2.

    顧客への通知の高速化 3. 障害をエンジニアに早く気づいてもらう
  6. チームで安定稼働に向けて活動したこと 改 善 す る こ と 1. 障害を判断できる 2.

    顧客への通知の高速化 3. 障害をエンジニアに早く気づいてもらう コミュニケーションであったり事前の準備できることが多い
  7. チームで安定稼働に向けて活動したこと 実 践 し て 判 明 1. 顧客に対して一斉に通知を行う方法がサッと出ない 2.

    障害時の文言のテンプレートが存在しない 3. 障害報告を行える人が特定の人に偏ってる 事前準備でほとんど解決できる!
  8. チームで安定稼働に向けて活動したこと 開 発 者 版 の 効 果 1. 障害対応能力の向上・障害を通じて

    AWSを覚える 2. 円滑な障害対応体制の構築 3. 対応方法のマニュアルにたどり着けるようになる 4. 認証情報自体を持ってない事案の解消
  9. hacomonoだから出来たこと 私 は 恵 ま れ て る 1. とりあえずやってみようでみんな動いてくれた

    2. 事実をしっかり受け止めてくれた 3. 実際に改善を行って毎回速度を上げてきた 4. 事業部を超えて提案に共感し、ジブンゴト化してくれた