Upgrade to Pro — share decks privately, control downloads, hide ads and more …

どうやればインシデント対応能力を鍛えられるのか? / SRE Kaigi 2025

Ryo Takaishi
January 25, 2025
4.4k

どうやればインシデント対応能力を鍛えられるのか? / SRE Kaigi 2025

Ryo Takaishi

January 25, 2025
Tweet

More Decks by Ryo Takaishi

Transcript

  1. 自己紹介 • 髙石 諒 / @r_takaishi • ソフトウェア エンジニア •

    現所属は株式会社フライル ◦ クラウドインフラ中心にいろいろ • 副業でスタートアップのクラウドインフラ・基盤整備 • CloudNative Daysのシステム開発
  2. インシデント対応歴 • ソフトウェアエンジニア歴:2012年〜 • オンコール歴:2016年〜 ◦ 結構曖昧 ◦ 合間合間にオンコールに入っていない期間もある •

    どういうシステムの対応をしていたか ◦ パブリッククラウド(AWS)上に構築したサービス ◦ プライベートクラウド(OpenStack)やその上に構築したサービス ◦ etc…
  3. 今日のスコープ • 前提条件 ◦ 主にWebサービスに関するインシデントを対象としています • 話すこと ◦ 「個人」がインシデント対応能力を得る、伸ばすためには何をするといいか •

    あまり話さないこと ◦ 「組織」がインシデント対応能力を得る、伸ばすためには何をするといいか ◦ ちょっと話します
  4. インシデント対応は総合競技 • 知識や経験、技能など様々な要素が求められる • いくつかの要素に分解できそう ◦ ハードスキル ◦ ソフトスキル ◦

    経験 ◦ システム理解 • これらの要素の掛け合わせによってインシデント能力を鍛えることができる ◦ (もちろん、チームで分担するのもアリ)
  5. ハードスキルとは • 個人が持つ知識・技術・技能・ノウハウなど ◦ プログラミング言語 ◦ データベース ◦ Linux ◦

    クラウドプラットフォーム全般 ◦ 各種ツール ◦ ターミナルオペレーション ◦ パフォーマンスチューニング
  6. 個人の意見による可搬性の高さ • データベース(MySQLやPostgreSQLなど) ◦ この先もかなり長く使えるのではないか • 広く使われる言語・フレームワーク • Linuxオペレーション ◦

    業務による。クラウドにより隠蔽されておりほぼ使わないケースもあるだろう ◦ 個人的な状況だと、サーバーにSSHしてオペレーションする機会はかなり減った • ターミナルオペレーション ◦ 様々なコマンドを組み合わせてログデータの加工を行ったりするような作業は今でもよくや る
  7. 障害対応訓練 • 開発環境やStaging環境で意図的に障害を発生させて対応の経験を積む ◦ 地震や火事の訓練、しますよね • 自社の環境で訓練するのでリアリティがある • 効果は高いが準備など含め高コスト 自社のDB破壊しCEOに身代金要求、freeeが本当にやったクラウド障害訓練の舞台裏 「従業員はトラウマに」(1/3

    ページ) - ITmedia NEWS https://www.itmedia.co.jp/news/articles/2203/17/news038.html freeeは2021年10月、標的型攻撃とランサムウェアを組み合わせたシナリオを基に全社的 な訓練を実施。AWS上のDBからデータを盗み出し、バックアップを消した上で、自社の CEOに社内SNSを通して身代金を要求したという。