Upgrade to Pro — share decks privately, control downloads, hide ads and more …

SREチームの立ち上げから5年間とこれから

 SREチームの立ち上げから5年間とこれから

「SRE立ち上げてどうなった?最新のコア技術とSRE事情 Lunch LT」の発表資料です。
https://findy.connpass.com/event/305677/

CyberAgent SGE Engineer

January 16, 2024
Tweet

More Decks by CyberAgent SGE Engineer

Other Decks in Technology

Transcript

  1. SREチームの立ち上げから5年間
    とこれから
    Senior Service Reliability Engineer
    吉岡 賢

    View full-size slide

  2. SREチームの立ち上げから5年間
    とこれから
    Senior Service Reliability Engineer
    吉岡 賢

    View full-size slide

  3. 会社紹介
    サムザップってどんな会社?

    View full-size slide

  4. ゲーム・エンターテイメント事業部(SGE)について
    子会社制をとっており、
    ゲーム・エンターテイメント事業に
    携わる10社の子会社が
    所属しています。
    ゲーム・エンターテイメント事業部(SGE)
    4

    View full-size slide

  5. Sumzapの代表的なタイトル
    会社紹介
    会社概要
    ・2009年5月設立
    ・スマホゲームアプリの企画 / 開発 / 運用
    5

    View full-size slide

  6. 吉岡 賢
    Yoshioka Suguru
    自己紹介
    2016年度 サイバーエージェント新卒入社。
    サムザップに出向し、主力サービスのオンプレミスか
    ら AWS への移設において設計、運用、開発に従事。
    エンジニア統括組織のメンバーやエンジニアの
    採用育成責任者などを歴任。
    現在は、Enabling SRE として運用改善と文化作りに
    力を入れている。
    好きなAWSサービスは Amazon Route53
    プライベートでは....
    • 妻と猫、日本酒をこよなく愛するクッキーモンスター
    • SRE NEXT 2023 ではコアスタッフしていました!
    6

    View full-size slide

  7. それぞれの時期における課題と成果など
    ● SREチーム立ち上げ以前
    ● SREチーム立ち上げ期
    ● SREチーム解散!
    ● SREチーム解散後(現状とこれから)
    今日のお話
    7

    View full-size slide

  8. SREチーム立ち上げ以前
    〜 2018年4月以前

    View full-size slide

  9. インフラチーム体制イメージ図
    9
    ・サービスインフラチームから各プロジェクトのインフラを担当する
    ・担当がおり、それぞれがプロジェクトを把握する

    View full-size slide

  10. 様々な思い
    10
    開発側にもインフラを把握してほしい 信頼性向上の対象を継続的に観測する方法と指標は?
    キャパシティプランニングの指標が欲しい
    ローカル環境の充実化
    運用タスクに忙殺されてしまう
    パブリッククラウド使いたい
    技術選定の理由や議論を知りたい
    共通ユーザなどセキュリティ面の見直ししたい
    オンボーディング強化したい
    インフラ予算を削減して他に投資したい
    タスクが属人化している気がする

    View full-size slide

  11. SREチームを立ち上げる目的
    11
    チームの役割に合わせて名称変更
     インフラチーム = サーバの保守など運用 というイメージが強い
     サービスの信頼性を向上させることが中心で、今後も継続して強化していくと
    いう意識を持つため
    社内の信頼性に関する意識を向上させる
     サムザップが提供するサービスの信頼性を向上するというチームの役割を
     周知、浸透させることで会社全体を巻き込みやすくする
    サービスの信頼性を向上する業務ならば、社内を巻き込みながらなんでも行
    うという能動的な業務スタイルを取るチームがサムザップに誕生しました!

    View full-size slide

  12. SREチーム立ち上げ
    2018年4月〜

    View full-size slide

  13. SREチーム体制イメージ図
    13
    ・SREチームから各プロジェクトへ入り、プロジェクトと一緒に進める
    ・プロジェクト間、グループ内での情報共有に努める

    View full-size slide

  14. 立ち上げてまずやったこと
    14
    1. チーム合宿
     チームの目標や行動指針、メンバーの相互理解のための時間を作った
    → お互いの考えや人間性などを知ることができ、メンバーの意外な一面を発見した
    → 良いところを再確認したりすることができた
    → 話しやすく、相談しやすい雰囲気とチームビルディングに絶大な効果
    2. 行動指針の制定
     チームで業務を行う際の行動指針を制定した

    View full-size slide

  15. SREチームの行動指針
    15
    UXファースト - 対ユーザ向けのサービスを運営していることを忘れずにシステム面でもユーザの体験を
    第一に考える(お問い合わせのシステムや、ゲームのレスポンスなど)
    オープンなチームであれ - クローズドなイメージが強いSREチームだからこそ情報は常にオープンに。
    プロジェクトに寄り添い、現場と融合するチームを目指す
    その技術はイケているか? - 最新の技術動向をとらえ、今あるシステムを常に見直し、導入コストや
    メリット・デメリットを考え抜く
    1人プレイ禁止 - SGEエンジニア行動指針である「エンジン」に準拠。1人で考え行動するのではなく、組
    織に所属して働いている意味を考える
    ムチャをしない - 行動を起こす前にスケジュールを立て、常に最悪の状態を想定し冷静であれ
    感謝されるチームであれ - 多くのチームと関わりシステマチックな解決に導く。また他チームの方に
    もチーム価値を正しく知ってもらうように努める

    View full-size slide

  16. 主力ゲームをオンプレミスからAWSへ
    16
    とあるSREチームの挑戦 6年目の大規模ゲームを
    AWS移設後に安定運用するための技術と今後の展望
    AWS Summit 2019 登壇資料

    View full-size slide

  17. 得られた成果
    17

    View full-size slide

  18. この頃に整備したもの
    技術および業務の標準化
     ドキュメントの場所、内容を規定
      → 技術選定に関するドキュメントなどを作成
      → 新しいプロジェクトで何を決めるか、何故選んだのか
     技術や業務の標準化
      → プロジェクトでいつ頃何が必要になるのか
      → 負荷試験、ログ管理、分析基盤に関するドキュメント
      → 構成管理、ツールの標準化
     
    18
    得意なメンバーが
    ガンガン進めてくれた

    View full-size slide

  19. SREチーム解散!
    2021年XX月〜

    View full-size slide

  20. SREチーム解散後体制イメージ図
    20
    ・各プロジェクトに所属して、SREを実践する中心メンバーとして活動する
    ・各プロジェクトの状況や課題を共有したり、相談するMTGや横軸活動を行う

    View full-size slide

  21. Embedded SRE
    21
    メリット
    • プロジェクトメンバーとの距離が近くなる
    • 課題の把握がしやすくなる
    • サービス開発とインフラ両方に深く関われる
    デメリット
    • SREs がやってくれるよねというよくない安心感
    ※ 巻き込みと情報共有がとても重要に

    View full-size slide

  22. 課題
    プロジェクト内に閉じこもりがち
    → 情報共有:社内でのSREs連携だけでなく、グループ内も
    → 課題、優先順位:プロジェクトと会社のバランス
    → 市場のSRE:
       どんなことをして何を課題に思っているのか
    22

    View full-size slide

  23. ゲーム・エンターテイメント事業部(SGE)
    23
    メディア事業部
    インターネット広告事
    業部
    その他
    情報収集

    View full-size slide

  24. CA SRE Technology Map
    https://www.cyberagent.co.jp/techinfo/info/detail/id=28998
    24
    サイバーエージェントは創業来、インターネット産業の拡大
    とともに事業成長を続けてきました。またそれと同時に、
    SRE領域へも注力してきました。SRE Technology Mapは、サ
    イバーエージェントのSREチームの取り組みを知ってもらう
    ことを期待して製作しています。

    View full-size slide

  25. 現状とこれから
    2024!!

    View full-size slide

  26. 課題① 文化の属人化
    文化が組織ではなく、人に依存してしまっている
    26
    • 中心となる人物や熱心な協力者が抜けると文化が後退
    • やり方や進め方で悩むとスピード感が落ちる
    • 優先順位の決め方が人に依存してしまう

    View full-size slide

  27. 課題② Observability
    Telemetryの標準化と柔軟なカスタマイズがしたい
    • メトリクス、ログ、トレースの集約
    • ベンダーへ依存しないTelemetryの実現
    • 人に依存しない Observability の実現
    27

    View full-size slide

  28. 取り組み①:オンボーディング強化
    ・文化の伝達と時間があればドキュメント化
    ・SREs 以外ができることをどんどん増やす
    28

    View full-size slide

  29. 取り組み②:オンコール対応改善
    ・対応できる特定のメンバーに負荷が偏っているので改善
    ・アラートメッセージや Runbook の改善
    ・SREs以外でも直感的に対応できるようにする
    29

    View full-size slide

  30. ・ポストモーテムを元に改善点がないか確認
    ・同じような現象であれば対応できる人数を増やす
    ・エンジニアが対応せずに済むようなオートヒーリング、
    オートリカバリの仕組み導入検討
    取り組み③:ポストモーテムの振り返り会
    30

    View full-size slide

  31. まとめ
    ・目標としていたSREチーム解散はできた
    ・組織内に信頼性向上の文化を作れた
    ・社内外の情報がとても役立っている
    ・人ではなく組織に根付かせて効率的に運用したい
    31

    View full-size slide

  32. ご清聴ありがとうございました!
    これからも
    「ユーザが安心して遊べるサービスを提供する」ために
    システムとしての信頼性の向上を進めていきます。
    32

    View full-size slide