Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
一人目 SRE として取り組んだこと
Search
hacomono Inc.
PRO
November 29, 2022
Technology
230
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
一人目 SRE として取り組んだこと
hacomono Inc.
PRO
November 29, 2022
More Decks by hacomono Inc.
See All by hacomono Inc.
開発者の認知負荷軽減を目指して選んだCrossplane - Self-serviceの理想と現実
hacomono
PRO
0
220
クラウドネイティブ DB はいかにして制約を 克服したか? 〜進化歴史から紐解く、スケーラブルアーキテクチャ設計指針〜
hacomono
PRO
6
1.5k
AI ネイティブな開発プロセスを目指して ~田中のローカルmac編~
hacomono
PRO
1
79
新規事業×QAの挑戦:不確実性を乗りこなす!フェーズごとに求められるQAの役割変革
hacomono
PRO
0
490
テストプロセスにおけるAI活用 :人間とAIの共存
hacomono
PRO
0
450
作ったのに使われなかったを繰り返さないために。
hacomono
PRO
0
360
NewSQL_ ストレージ分離と分散合意を用いたスケーラブルアーキテクチャ
hacomono
PRO
4
540
インプロセスQA、テスト自動化にどう向き合う?挑戦の道のり
hacomono
PRO
0
110
ウェルネス SaaS × AI、1,000万ユーザーを支える 業界特化 AI プロダクト開発への道のり
hacomono
PRO
0
2.2k
Other Decks in Technology
See All in Technology
【NRUG vol.18】なぜ多くのオブザーバビリティ導入は失敗するのか
nrug_member
0
130
自律型AIエージェントは何を破壊するのか
kojira
0
160
2026TECHFRESH畢業分享會 - Lightning Talk - 資料也要 CI/CD? 用 Airbyte 自動化資料同步
line_developers_tw
PRO
0
1k
20260619 私の日常業務での生成 AI 活用
masaruogura
1
200
FinOps × AIエージェントで実現する コストインシデントの自動調査
oasis1994liveforever
0
140
マルチアカウント環境での コーディングエージェントを使った障害調査が大変なので AIエージェントにReadOnly権限を付与してみた / ReadOnly AI Agents for Multi-Account AWS Incident Response
yamaguchitk333
2
100
ACE-Step-1.5で見る 音楽生成AIのしくみと“破綻だけ直す”Retake機能の開発【zennfes spring 2026 登壇資料】
personabb
1
450
機械学習を「社会実装」するということ 2026年夏版 / Social Implementation of Machine Learning June 2026 Version
moepy_stats
5
2.4k
2026TECHFRESH畢業分享會 - Lightning Talk - 打造精準高效的 MCP 設計模式與測試實務
line_developers_tw
PRO
0
1k
現地で盛り上がった WWDC26 Keynote
zozotech
PRO
1
250
MUSUBI 田中裕一『AIと共に行う「しごとのリデザイン」- スモールバックオフィス編』AI Ops Lab #4
musubi
0
180
AI駆動開発を通して感じた、 AI時代のデザイナーの役割変化
whisaiyo
3
2.1k
Featured
See All Featured
Ten Tips & Tricks for a 🌱 transition
stuffmc
0
130
svc-hook: hooking system calls on ARM64 by binary rewriting
retrage
2
300
ラッコキーワード サービス紹介資料
rakko
1
3.6M
A brief & incomplete history of UX Design for the World Wide Web: 1989–2019
jct
2
400
Embracing the Ebb and Flow
colly
88
5.1k
Side Projects
sachag
455
43k
Agile that works and the tools we love
rasmusluckow
331
21k
Lightning Talk: Beautiful Slides for Beginners
inesmontani
PRO
2
570
How Software Deployment tools have changed in the past 20 years
geshan
0
34k
Odyssey Design
rkendrick25
PRO
2
700
BBQ
matthewcrist
89
10k
Mobile First: as difficult as doing things right
swwweet
225
10k
Transcript
一人目 SRE として取り組んだこと
自己紹介 大 西 時 雨 株式会社hacomono SREチーム所属 2021年 8月入社 shigure.onishi
iwanomoto a4t ゲーム / コミュニケーション / 広告 / 医療 / IoT 事業が面白そうならなんでもやる 所 属 経 歴 職 種 Webデザイナーのはずが現在はインフラとか SRE 好 き AWS S3 / AWS Support Enterpriseプラン / Terraform
hacomonoに入社 〜 現在 2021 - 08 2021 - 11 2022
- 01 現 在 J o i n 🎉 3 ヶ 月 ぐ ら い 研 修 し な が ら サ ー ビ ス の 改 善 ・ 運 用 業 務 中 心 独 り 立 ち 🏃 サ ー ビ ス が 不 安 定 な の を 課 題 / 解 決 に 取 り 組 む パ フ ォ ー マ ン ス チ ュ ー ニ ン グ / AutoScaling整 備 / 障 害 訓 練 マ ネ ー ジ ャ ー 転 向 🕺 チ ー ム で 成 果 を 出 す こ と を 評 価 さ れ マ ネ ー ジ ャ ー に 転 向 評 価 軸 は エ ン ジ ニ ア で は な い 非 機 能 要 求 の 整 備 🏢 大 手 の 案 件 を 獲 得 す る に は 非 機 能 要 求 が 重 要 他 部 署 も 巻 き 込 ん で 改 善 に 取 り 組 み 中
アジェンダ 今 日 の お は な し 1. 入
社 時 の 状 態 と シ ス テ ム で 改 善 し た こ と 2. チ ー ム で 安 定 稼 働 に 向 け て 活 動 し た こ と 4. 今 後 の 活 動 に つ い て 3. hacomono だ か ら 出 来 た こ と
入社時の状態とシステムで改善したこと 状 態 / 問 題 点 昼夜問わずどこかで頻繁にサーバダウンが発生する 特定のURLを踏むとサーバダウン サーバ増減させるのがインフラエンジニアじゃないと難しい
サーバダウンしても検知できないケースが多々ある
入社時の状態とシステムで改善したこと 対 応 方 法 昼夜問わずどこかで頻繁にサーバダウンが発生する 気づいたらサーバ再起動 特定のURLを踏むとサーバダウン 気づいたらサーバ再起動 サーバ増減させるのがインフラエンジニアじゃないと難しい
インフラエンジニアの負担増 / 突然の負荷増加に対応できない サーバダウンしても検知できないケースが多々ある お客様に指摘されてサーバ再起動
入社時の状態とシステムで改善したこと 改 善 方 法 昼夜問わずどこかで頻繁にサーバダウンが発生する サーバダウンの原因を特定する / Issue化する 特定のURLを踏むとサーバダウン
何故落ちるか?何がパフォーマンス劣化させてるか調査・改善 サーバ増減させるのがインフラエンジニアじゃないと難しい 複雑な手順をシンプル化 / 数字の増減だけでサーバ台数変更可能 サーバダウンしても検知できないケースが多々ある 落ちる時のメトリクスの傾向調査 / 事前検知してアラート化
入社時の状態とシステムで改善したこと 課 題 の 本 質 サーバが落ちること自体は仕方がない 原因特定できてないことが問題 コントロールができていない状態 いつ落ちるかわからない
簡単に直せる事象で被害が大きいものまで放置されてしまっている 改修コスト 障害時間 ココ
入社時の状態とシステムで改善したこと SREの基本を忠実に データを収集・可視化・分析・アラート化 影響が少ない事象は改善を後回し 改修コストに見合わないものは諦める
入社時の状態とシステムで改善したこと 何故できてなかったか? インフラエンジニアが少数で負担が大きい 運用コストが大きいため原因特定・改善に取り組めない 私がJoinすることでようやく手が空き始めた 正のサイクルが回り始めた
入社時の状態とシステムで改善したこと Next Action 肝心なことを忘れていないか? 🤔 諦めて改修しなかった事象はどうするのか? 改修コスト 障害時間 ココ
チームで安定稼働に向けて活動したこと 障害訓練を始めました
チームで安定稼働に向けて活動したこと 課 題 技術で簡単に改善できることはやりきった 残りの未改修は引き続き落ちることは変わってない 応急処置方法はあるけどインフラエンジニアしかできない
チームで安定稼働に向けて活動したこと 不 満 の 低 減 1. 少人数で対応するのは限界 対応できる人を教育・障害解消時間の短縮 2.
顧客への案内の高速化し混乱の低減 3. サーバダウン時の代替案の提示
入社時の状態とシステムで改善したこと 顧客の不満度の低減を重視する サービスのダウンは時間を短くできないものがある AWSがダウンした場合とかどうしようもない 顧客の行動コントロールし混乱を防ぐ サーバダウン時間の低減ではない リカバリープランを事前に検討する
入社時の状態とシステムで改善したこと 障害訓練を受けるのは誰? 顧客と連絡を取るのはサポートの方 顧客に言われて障害に気づくのは心象が悪い 顧客より先に行動できるようになる必要がある 障害通知に気づく・判断できたら先手を打てる
チームで安定稼働に向けて活動したこと 改 善 す る こ と 1. 障害を判断できる 2.
顧客への通知の高速化 3. 障害をエンジニアに早く気づいてもらう
チームで安定稼働に向けて活動したこと 改 善 す る こ と 1. 障害を判断できる 2.
顧客への通知の高速化 3. 障害をエンジニアに早く気づいてもらう コミュニケーションであったり事前の準備できることが多い
チームで安定稼働に向けて活動したこと 実 践 し て 判 明 1. 顧客に対して一斉に通知を行う方法がサッと出ない 2.
障害時の文言のテンプレートが存在しない 3. 障害報告を行える人が特定の人に偏ってる 事前準備でほとんど解決できる!
チームで安定稼働に向けて活動したこと 1時間Over… 30分前後 🥲 😲
チームで安定稼働に向けて活動したこと 開 発 者 版 の 効 果 1. 障害対応能力の向上・障害を通じて
AWSを覚える 2. 円滑な障害対応体制の構築 3. 対応方法のマニュアルにたどり着けるようになる 4. 認証情報自体を持ってない事案の解消
チームで安定稼働に向けて活動したこと 詳しくはTech Blogにて スタートアップ企業がゼロから始めた障害訓練 https://techblog.hacomono.jp/entry/2022/03/01/130000
hacomonoだから出来たこと 私 は 恵 ま れ て る 1. とりあえずやってみようでみんな動いてくれた
2. 事実をしっかり受け止めてくれた 3. 実際に改善を行って毎回速度を上げてきた 4. 事業部を超えて提案に共感し、ジブンゴト化してくれた
今後の活動について 課 題 は 山 盛 り 明確な課題がいくつも発覚して改善を行うフェーズ 見逃されてた非機能要件をひたすら改善 PDCAのサイクルはできているので後はひたすら
Try 苦しいけど楽しい課題がいっぱいある、仲間が欲しい 😉
ご清聴 ありがとうございました