Slide 1

Slide 1 text

SREチームの立ち上げから5年間 とこれから Senior Service Reliability Engineer 吉岡 賢

Slide 2

Slide 2 text

SREチームの立ち上げから5年間 とこれから Senior Service Reliability Engineer 吉岡 賢

Slide 3

Slide 3 text

会社紹介 サムザップってどんな会社?

Slide 4

Slide 4 text

ゲーム・エンターテイメント事業部(SGE)について 子会社制をとっており、 ゲーム・エンターテイメント事業に 携わる10社の子会社が 所属しています。 ゲーム・エンターテイメント事業部(SGE) 4

Slide 5

Slide 5 text

Sumzapの代表的なタイトル 会社紹介 会社概要 ・2009年5月設立 ・スマホゲームアプリの企画 / 開発 / 運用 5

Slide 6

Slide 6 text

吉岡 賢 Yoshioka Suguru 自己紹介 2016年度 サイバーエージェント新卒入社。 サムザップに出向し、主力サービスのオンプレミスか ら AWS への移設において設計、運用、開発に従事。 エンジニア統括組織のメンバーやエンジニアの 採用育成責任者などを歴任。 現在は、Enabling SRE として運用改善と文化作りに 力を入れている。 好きなAWSサービスは Amazon Route53 プライベートでは.... • 妻と猫、日本酒をこよなく愛するクッキーモンスター • SRE NEXT 2023 ではコアスタッフしていました! 6

Slide 7

Slide 7 text

それぞれの時期における課題と成果など ● SREチーム立ち上げ以前 ● SREチーム立ち上げ期 ● SREチーム解散! ● SREチーム解散後(現状とこれから) 今日のお話 7

Slide 8

Slide 8 text

SREチーム立ち上げ以前 〜 2018年4月以前

Slide 9

Slide 9 text

インフラチーム体制イメージ図 9 ・サービスインフラチームから各プロジェクトのインフラを担当する ・担当がおり、それぞれがプロジェクトを把握する

Slide 10

Slide 10 text

様々な思い 10 開発側にもインフラを把握してほしい 信頼性向上の対象を継続的に観測する方法と指標は? キャパシティプランニングの指標が欲しい ローカル環境の充実化 運用タスクに忙殺されてしまう パブリッククラウド使いたい 技術選定の理由や議論を知りたい 共通ユーザなどセキュリティ面の見直ししたい オンボーディング強化したい インフラ予算を削減して他に投資したい タスクが属人化している気がする

Slide 11

Slide 11 text

SREチームを立ち上げる目的 11 チームの役割に合わせて名称変更  インフラチーム = サーバの保守など運用 というイメージが強い  サービスの信頼性を向上させることが中心で、今後も継続して強化していくと いう意識を持つため 社内の信頼性に関する意識を向上させる  サムザップが提供するサービスの信頼性を向上するというチームの役割を  周知、浸透させることで会社全体を巻き込みやすくする サービスの信頼性を向上する業務ならば、社内を巻き込みながらなんでも行 うという能動的な業務スタイルを取るチームがサムザップに誕生しました!

Slide 12

Slide 12 text

SREチーム立ち上げ 2018年4月〜

Slide 13

Slide 13 text

SREチーム体制イメージ図 13 ・SREチームから各プロジェクトへ入り、プロジェクトと一緒に進める ・プロジェクト間、グループ内での情報共有に努める

Slide 14

Slide 14 text

立ち上げてまずやったこと 14 1. チーム合宿  チームの目標や行動指針、メンバーの相互理解のための時間を作った → お互いの考えや人間性などを知ることができ、メンバーの意外な一面を発見した → 良いところを再確認したりすることができた → 話しやすく、相談しやすい雰囲気とチームビルディングに絶大な効果 2. 行動指針の制定  チームで業務を行う際の行動指針を制定した

Slide 15

Slide 15 text

SREチームの行動指針 15 UXファースト - 対ユーザ向けのサービスを運営していることを忘れずにシステム面でもユーザの体験を 第一に考える(お問い合わせのシステムや、ゲームのレスポンスなど) オープンなチームであれ - クローズドなイメージが強いSREチームだからこそ情報は常にオープンに。 プロジェクトに寄り添い、現場と融合するチームを目指す その技術はイケているか? - 最新の技術動向をとらえ、今あるシステムを常に見直し、導入コストや メリット・デメリットを考え抜く 1人プレイ禁止 - SGEエンジニア行動指針である「エンジン」に準拠。1人で考え行動するのではなく、組 織に所属して働いている意味を考える ムチャをしない - 行動を起こす前にスケジュールを立て、常に最悪の状態を想定し冷静であれ 感謝されるチームであれ - 多くのチームと関わりシステマチックな解決に導く。また他チームの方に もチーム価値を正しく知ってもらうように努める

Slide 16

Slide 16 text

主力ゲームをオンプレミスからAWSへ 16 とあるSREチームの挑戦 6年目の大規模ゲームを AWS移設後に安定運用するための技術と今後の展望 AWS Summit 2019 登壇資料

Slide 17

Slide 17 text

得られた成果 17

Slide 18

Slide 18 text

この頃に整備したもの 技術および業務の標準化  ドキュメントの場所、内容を規定   → 技術選定に関するドキュメントなどを作成   → 新しいプロジェクトで何を決めるか、何故選んだのか  技術や業務の標準化   → プロジェクトでいつ頃何が必要になるのか   → 負荷試験、ログ管理、分析基盤に関するドキュメント   → 構成管理、ツールの標準化   18 得意なメンバーが ガンガン進めてくれた

Slide 19

Slide 19 text

SREチーム解散! 2021年XX月〜

Slide 20

Slide 20 text

SREチーム解散後体制イメージ図 20 ・各プロジェクトに所属して、SREを実践する中心メンバーとして活動する ・各プロジェクトの状況や課題を共有したり、相談するMTGや横軸活動を行う

Slide 21

Slide 21 text

Embedded SRE 21 メリット • プロジェクトメンバーとの距離が近くなる • 課題の把握がしやすくなる • サービス開発とインフラ両方に深く関われる デメリット • SREs がやってくれるよねというよくない安心感 ※ 巻き込みと情報共有がとても重要に

Slide 22

Slide 22 text

課題 プロジェクト内に閉じこもりがち → 情報共有:社内でのSREs連携だけでなく、グループ内も → 課題、優先順位:プロジェクトと会社のバランス → 市場のSRE:    どんなことをして何を課題に思っているのか 22

Slide 23

Slide 23 text

ゲーム・エンターテイメント事業部(SGE) 23 メディア事業部 インターネット広告事 業部 その他 情報収集

Slide 24

Slide 24 text

CA SRE Technology Map https://www.cyberagent.co.jp/techinfo/info/detail/id=28998 24 サイバーエージェントは創業来、インターネット産業の拡大 とともに事業成長を続けてきました。またそれと同時に、 SRE領域へも注力してきました。SRE Technology Mapは、サ イバーエージェントのSREチームの取り組みを知ってもらう ことを期待して製作しています。

Slide 25

Slide 25 text

現状とこれから 2024!!

Slide 26

Slide 26 text

課題① 文化の属人化 文化が組織ではなく、人に依存してしまっている 26 • 中心となる人物や熱心な協力者が抜けると文化が後退 • やり方や進め方で悩むとスピード感が落ちる • 優先順位の決め方が人に依存してしまう

Slide 27

Slide 27 text

課題② Observability Telemetryの標準化と柔軟なカスタマイズがしたい • メトリクス、ログ、トレースの集約 • ベンダーへ依存しないTelemetryの実現 • 人に依存しない Observability の実現 27

Slide 28

Slide 28 text

取り組み①:オンボーディング強化 ・文化の伝達と時間があればドキュメント化 ・SREs 以外ができることをどんどん増やす 28

Slide 29

Slide 29 text

取り組み②:オンコール対応改善 ・対応できる特定のメンバーに負荷が偏っているので改善 ・アラートメッセージや Runbook の改善 ・SREs以外でも直感的に対応できるようにする 29

Slide 30

Slide 30 text

・ポストモーテムを元に改善点がないか確認 ・同じような現象であれば対応できる人数を増やす ・エンジニアが対応せずに済むようなオートヒーリング、 オートリカバリの仕組み導入検討 取り組み③:ポストモーテムの振り返り会 30

Slide 31

Slide 31 text

まとめ ・目標としていたSREチーム解散はできた ・組織内に信頼性向上の文化を作れた ・社内外の情報がとても役立っている ・人ではなく組織に根付かせて効率的に運用したい 31

Slide 32

Slide 32 text

ご清聴ありがとうございました! これからも 「ユーザが安心して遊べるサービスを提供する」ために システムとしての信頼性の向上を進めていきます。 32