Upgrade to Pro — share decks privately, control downloads, hide ads and more …

一人目 SRE として取り組んだこと

一人目 SRE として取り組んだこと

hacomono Inc.

November 29, 2022
Tweet

More Decks by hacomono Inc.

Other Decks in Technology

Transcript

  1. 自己紹介 大 西 時 雨 株式会社hacomono SREチーム所属 2021年 8月入社 shigure.onishi

    iwanomoto a4t ゲーム / コミュニケーション / 広告 / 医療 / IoT 事業が面白そうならなんでもやる 所 属 経 歴 職 種 Webデザイナーのはずが現在はインフラとか SRE 好 き AWS S3 / AWS Support Enterpriseプラン / Terraform
  2. hacomonoに入社 〜 現在 2021 - 08 2021 - 11 2022

    - 01 現 在 J o i n 🎉 3 ヶ 月 ぐ ら い 研 修 し な が ら サ ー ビ ス の 改 善 ・ 運 用 業 務 中 心 独 り 立 ち 🏃 サ ー ビ ス が 不 安 定 な の を 課 題 / 解 決 に 取 り 組 む パ フ ォ ー マ ン ス チ ュ ー ニ ン グ / AutoScaling整 備 / 障 害 訓 練 マ ネ ー ジ ャ ー 転 向 🕺 チ ー ム で 成 果 を 出 す こ と を 評 価 さ れ マ ネ ー ジ ャ ー に 転 向 評 価 軸 は エ ン ジ ニ ア で は な い 非 機 能 要 求 の 整 備 🏢 大 手 の 案 件 を 獲 得 す る に は 非 機 能 要 求 が 重 要 他 部 署 も 巻 き 込 ん で 改 善 に 取 り 組 み 中
  3. アジェンダ 今 日 の お は な し 1. 入

    社 時 の 状 態 と シ ス テ ム で 改 善 し た こ と 2. チ ー ム で 安 定 稼 働 に 向 け て 活 動 し た こ と 4. 今 後 の 活 動 に つ い て 3. hacomono だ か ら 出 来 た こ と
  4. 入社時の状態とシステムで改善したこと 改 善 方 法 昼夜問わずどこかで頻繁にサーバダウンが発生する サーバダウンの原因を特定する / Issue化する 特定のURLを踏むとサーバダウン

    何故落ちるか?何がパフォーマンス劣化させてるか調査・改善 サーバ増減させるのがインフラエンジニアじゃないと難しい 複雑な手順をシンプル化 / 数字の増減だけでサーバ台数変更可能 サーバダウンしても検知できないケースが多々ある 落ちる時のメトリクスの傾向調査 / 事前検知してアラート化
  5. チームで安定稼働に向けて活動したこと 改 善 す る こ と 1. 障害を判断できる 2.

    顧客への通知の高速化 3. 障害をエンジニアに早く気づいてもらう
  6. チームで安定稼働に向けて活動したこと 改 善 す る こ と 1. 障害を判断できる 2.

    顧客への通知の高速化 3. 障害をエンジニアに早く気づいてもらう コミュニケーションであったり事前の準備できることが多い
  7. チームで安定稼働に向けて活動したこと 実 践 し て 判 明 1. 顧客に対して一斉に通知を行う方法がサッと出ない 2.

    障害時の文言のテンプレートが存在しない 3. 障害報告を行える人が特定の人に偏ってる 事前準備でほとんど解決できる!
  8. チームで安定稼働に向けて活動したこと 開 発 者 版 の 効 果 1. 障害対応能力の向上・障害を通じて

    AWSを覚える 2. 円滑な障害対応体制の構築 3. 対応方法のマニュアルにたどり着けるようになる 4. 認証情報自体を持ってない事案の解消
  9. hacomonoだから出来たこと 私 は 恵 ま れ て る 1. とりあえずやってみようでみんな動いてくれた

    2. 事実をしっかり受け止めてくれた 3. 実際に改善を行って毎回速度を上げてきた 4. 事業部を超えて提案に共感し、ジブンゴト化してくれた