Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
SREチームの立ち上げから5年間とこれから
Search
CyberAgent SGE Engineer
January 16, 2024
Technology
0
1.6k
SREチームの立ち上げから5年間とこれから
「SRE立ち上げてどうなった?最新のコア技術とSRE事情 Lunch LT」の発表資料です。
https://findy.connpass.com/event/305677/
CyberAgent SGE Engineer
January 16, 2024
Tweet
Share
More Decks by CyberAgent SGE Engineer
See All by CyberAgent SGE Engineer
サムザップにおけるNotionの 活用事例とPHPでのNotionAPIを利用した仕組み構築の紹介
sgeengineer
0
1.8k
Laravel OctaneをどうしてもPharで運用したい話
sgeengineer
2
2.3k
大規模Unityゲーム開発の設計事例 〜ドメイン駆動設計とDIコンテナを導入した一年を振り返る〜 / cedec2021-ddd
sgeengineer
2
13k
ロボットを動かすビジュアルプログラミングでできることはPHPでもできる!
sgeengineer
0
1.5k
PHP8版!Swooleのフレームワークを比べてみた
sgeengineer
1
2.5k
「戦国炎舞 -KIZNA-」で行ったAWSのコスト最適化の話
sgeengineer
0
1.7k
AirtestとPocoとOpenSTFによるUnity製スマートフォン向けゲームの実機自動テスト環境構築とその利用方法
sgeengineer
0
4.8k
PHPでgRPCって どこまでいけるの?
sgeengineer
0
4.7k
エンジニアの文化の作り方 〜社内Podcastのススメ〜
sgeengineer
1
3.8k
Other Decks in Technology
See All in Technology
人はなぜISUCONに夢中になるのか
kakehashi
PRO
6
1.6k
Moved to https://speakerdeck.com/toshihue/presales-engineer-career-bridging-tech-biz-ja
toshihue
2
730
第13回 Data-Centric AI勉強会, 画像認識におけるData-centric AI
ksaito_osx
0
370
次世代KYC活動報告 / 20250219-BizDay17-KYC-nextgen
oidfj
0
240
RSNA2024振り返り
nanachi
0
560
Oracle Cloud Infrastructure:2025年2月度サービス・アップデート
oracle4engineer
PRO
1
190
滅・サービスクラス🔥 / Destruction Service Class
sinsoku
6
1.6k
リアルタイム分析データベースで実現する SQLベースのオブザーバビリティ
mikimatsumoto
0
1.3k
目の前の仕事と向き合うことで成長できる - 仕事とスキルを広げる / Every little bit counts
soudai
24
7k
Oracle Base Database Service 技術詳細
oracle4engineer
PRO
6
57k
インフラをつくるとはどういうことなのか、 あるいはPlatform Engineeringについて
nwiizo
5
2.5k
偶然 × 行動で人生の可能性を広げよう / Serendipity × Action: Discover Your Possibilities
ar_tama
1
1.1k
Featured
See All Featured
Measuring & Analyzing Core Web Vitals
bluesmoon
6
240
How To Stay Up To Date on Web Technology
chriscoyier
790
250k
Keith and Marios Guide to Fast Websites
keithpitt
411
22k
BBQ
matthewcrist
87
9.5k
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
46
2.3k
Fontdeck: Realign not Redesign
paulrobertlloyd
83
5.4k
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
30
2.2k
Dealing with People You Can't Stand - Big Design 2015
cassininazir
366
25k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
133
33k
Statistics for Hackers
jakevdp
797
220k
Designing for humans not robots
tammielis
250
25k
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
10
1.3k
Transcript
SREチームの立ち上げから5年間 とこれから Senior Service Reliability Engineer 吉岡 賢
SREチームの立ち上げから5年間 とこれから Senior Service Reliability Engineer 吉岡 賢
会社紹介 サムザップってどんな会社?
ゲーム・エンターテイメント事業部(SGE)について 子会社制をとっており、 ゲーム・エンターテイメント事業に 携わる10社の子会社が 所属しています。 ゲーム・エンターテイメント事業部(SGE) 4
Sumzapの代表的なタイトル 会社紹介 会社概要 ・2009年5月設立 ・スマホゲームアプリの企画 / 開発 / 運用 5
吉岡 賢 Yoshioka Suguru 自己紹介 2016年度 サイバーエージェント新卒入社。 サムザップに出向し、主力サービスのオンプレミスか ら AWS
への移設において設計、運用、開発に従事。 エンジニア統括組織のメンバーやエンジニアの 採用育成責任者などを歴任。 現在は、Enabling SRE として運用改善と文化作りに 力を入れている。 好きなAWSサービスは Amazon Route53 プライベートでは.... • 妻と猫、日本酒をこよなく愛するクッキーモンスター • SRE NEXT 2023 ではコアスタッフしていました! 6
それぞれの時期における課題と成果など • SREチーム立ち上げ以前 • SREチーム立ち上げ期 • SREチーム解散! • SREチーム解散後(現状とこれから) 今日のお話
7
SREチーム立ち上げ以前 〜 2018年4月以前
インフラチーム体制イメージ図 9 ・サービスインフラチームから各プロジェクトのインフラを担当する ・担当がおり、それぞれがプロジェクトを把握する
様々な思い 10 開発側にもインフラを把握してほしい 信頼性向上の対象を継続的に観測する方法と指標は? キャパシティプランニングの指標が欲しい ローカル環境の充実化 運用タスクに忙殺されてしまう パブリッククラウド使いたい 技術選定の理由や議論を知りたい 共通ユーザなどセキュリティ面の見直ししたい
オンボーディング強化したい インフラ予算を削減して他に投資したい タスクが属人化している気がする
SREチームを立ち上げる目的 11 チームの役割に合わせて名称変更 インフラチーム = サーバの保守など運用 というイメージが強い サービスの信頼性を向上させることが中心で、今後も継続して強化していくと いう意識を持つため 社内の信頼性に関する意識を向上させる
サムザップが提供するサービスの信頼性を向上するというチームの役割を 周知、浸透させることで会社全体を巻き込みやすくする サービスの信頼性を向上する業務ならば、社内を巻き込みながらなんでも行 うという能動的な業務スタイルを取るチームがサムザップに誕生しました!
SREチーム立ち上げ 2018年4月〜
SREチーム体制イメージ図 13 ・SREチームから各プロジェクトへ入り、プロジェクトと一緒に進める ・プロジェクト間、グループ内での情報共有に努める
立ち上げてまずやったこと 14 1. チーム合宿 チームの目標や行動指針、メンバーの相互理解のための時間を作った → お互いの考えや人間性などを知ることができ、メンバーの意外な一面を発見した → 良いところを再確認したりすることができた →
話しやすく、相談しやすい雰囲気とチームビルディングに絶大な効果 2. 行動指針の制定 チームで業務を行う際の行動指針を制定した
SREチームの行動指針 15 UXファースト - 対ユーザ向けのサービスを運営していることを忘れずにシステム面でもユーザの体験を 第一に考える(お問い合わせのシステムや、ゲームのレスポンスなど) オープンなチームであれ - クローズドなイメージが強いSREチームだからこそ情報は常にオープンに。 プロジェクトに寄り添い、現場と融合するチームを目指す
その技術はイケているか? - 最新の技術動向をとらえ、今あるシステムを常に見直し、導入コストや メリット・デメリットを考え抜く 1人プレイ禁止 - SGEエンジニア行動指針である「エンジン」に準拠。1人で考え行動するのではなく、組 織に所属して働いている意味を考える ムチャをしない - 行動を起こす前にスケジュールを立て、常に最悪の状態を想定し冷静であれ 感謝されるチームであれ - 多くのチームと関わりシステマチックな解決に導く。また他チームの方に もチーム価値を正しく知ってもらうように努める
主力ゲームをオンプレミスからAWSへ 16 とあるSREチームの挑戦 6年目の大規模ゲームを AWS移設後に安定運用するための技術と今後の展望 AWS Summit 2019 登壇資料
得られた成果 17
この頃に整備したもの 技術および業務の標準化 ドキュメントの場所、内容を規定 → 技術選定に関するドキュメントなどを作成 → 新しいプロジェクトで何を決めるか、何故選んだのか 技術や業務の標準化 → プロジェクトでいつ頃何が必要になるのか
→ 負荷試験、ログ管理、分析基盤に関するドキュメント → 構成管理、ツールの標準化 18 得意なメンバーが ガンガン進めてくれた
SREチーム解散! 2021年XX月〜
SREチーム解散後体制イメージ図 20 ・各プロジェクトに所属して、SREを実践する中心メンバーとして活動する ・各プロジェクトの状況や課題を共有したり、相談するMTGや横軸活動を行う
Embedded SRE 21 メリット • プロジェクトメンバーとの距離が近くなる • 課題の把握がしやすくなる • サービス開発とインフラ両方に深く関われる
デメリット • SREs がやってくれるよねというよくない安心感 ※ 巻き込みと情報共有がとても重要に
課題 プロジェクト内に閉じこもりがち → 情報共有:社内でのSREs連携だけでなく、グループ内も → 課題、優先順位:プロジェクトと会社のバランス → 市場のSRE: どんなことをして何を課題に思っているのか
22
ゲーム・エンターテイメント事業部(SGE) 23 メディア事業部 インターネット広告事 業部 その他 情報収集
CA SRE Technology Map https://www.cyberagent.co.jp/techinfo/info/detail/id=28998 24 サイバーエージェントは創業来、インターネット産業の拡大 とともに事業成長を続けてきました。またそれと同時に、 SRE領域へも注力してきました。SRE Technology
Mapは、サ イバーエージェントのSREチームの取り組みを知ってもらう ことを期待して製作しています。
現状とこれから 2024!!
課題① 文化の属人化 文化が組織ではなく、人に依存してしまっている 26 • 中心となる人物や熱心な協力者が抜けると文化が後退 • やり方や進め方で悩むとスピード感が落ちる • 優先順位の決め方が人に依存してしまう
課題② Observability Telemetryの標準化と柔軟なカスタマイズがしたい • メトリクス、ログ、トレースの集約 • ベンダーへ依存しないTelemetryの実現 • 人に依存しない Observability
の実現 27
取り組み①:オンボーディング強化 ・文化の伝達と時間があればドキュメント化 ・SREs 以外ができることをどんどん増やす 28
取り組み②:オンコール対応改善 ・対応できる特定のメンバーに負荷が偏っているので改善 ・アラートメッセージや Runbook の改善 ・SREs以外でも直感的に対応できるようにする 29
・ポストモーテムを元に改善点がないか確認 ・同じような現象であれば対応できる人数を増やす ・エンジニアが対応せずに済むようなオートヒーリング、 オートリカバリの仕組み導入検討 取り組み③:ポストモーテムの振り返り会 30
まとめ ・目標としていたSREチーム解散はできた ・組織内に信頼性向上の文化を作れた ・社内外の情報がとても役立っている ・人ではなく組織に根付かせて効率的に運用したい 31
ご清聴ありがとうございました! これからも 「ユーザが安心して遊べるサービスを提供する」ために システムとしての信頼性の向上を進めていきます。 32