Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
GMO Research Tech Conference 2023
Search
Naomichi Yamakita
November 01, 2023
0
17
GMO Research Tech Conference 2023
Naomichi Yamakita
November 01, 2023
Tweet
Share
More Decks by Naomichi Yamakita
See All by Naomichi Yamakita
失敗から始まるリアーキテクト: SREの実践例で見る改善の道筋
naomichi
0
110
プロダクト横断で可視化する ダッシュボードの開発
naomichi
0
260
第一回ライブラリ開発について考える会
naomichi
0
76
Serverless Application Repositoryでトイルを削減する
naomichi
0
290
SRE的観点から日常を振り返る
naomichi
0
870
Deep dive into cloud design
naomichi
0
22
インフラを横断して可視化するダッシュボードの開発
naomichi
0
16
SREってどんな仕事___メタップスがSREチームを立ち上げたキッカケとこれから_.pptx.pdf
naomichi
0
11
SRE Innovation in Metaps
naomichi
0
290
Featured
See All Featured
Visualization
eitanlees
146
15k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
280
13k
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
2
290
Git: the NoSQL Database
bkeepers
PRO
427
64k
How To Stay Up To Date on Web Technology
chriscoyier
789
250k
Keith and Marios Guide to Fast Websites
keithpitt
410
22k
A better future with KSS
kneath
238
17k
YesSQL, Process and Tooling at Scale
rocio
169
14k
Navigating Team Friction
lara
183
15k
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
28
900
Facilitating Awesome Meetings
lara
50
6.1k
Building Applications with DynamoDB
mza
91
6.1k
Transcript
1 SREチームを立ち上げてインフラ 基盤プラットフォームを構築した話 株式会社メタップスホールディングス 2023年11月1日 © Metaps Holdings, Inc.
2 © Metaps Holdings, Inc. ベトナム・ハノイでのオフショア事業立ち上げからキャリアをスタートし、アプリケーション 開発からマネジメントまでを経験 2015年に株式会社メタップスに参画。徐々にクラウドインフラにも携わり、現在は同社で 横断的なテックリードやSREチーフエンジニアとして従事 2022年からはSREのための分散型プラットフォーム「SRE:shine」のプロダクトオーナー
を兼務 AWS Dev Day Tokyo https://pages.awscloud.com/rs/112-TZM-766/images/G-1.pdf メタップスにおけるECSデプロイ戦略 https://aws.amazon.com/jp/blogs/news/ecs-deployment-strategy-at-metaps/ メタップスが取り組むシステム運用状況を可視化するダッシュボード開発 https://aws.amazon.com/jp/builders-flash/202210/metaps-monitoring-dashboard-development/ Platform strategy SRE Chief engineer Naomichi YAMAKITA プラットフォーム戦略部 SREチーフエンジニア 山北 尚道 プロフィール
3 © Metaps Holdings, Inc. • SREはSite Reliability Engineeringを実現するエンジニアリング手法 •
システムを俯瞰的に捉え、インフラ設計・運用の自動化・障害対応・アプリケー ションのパフォーマンス最適化といった観点から可用性を担保し、システムの信 頼性を向上させることを目的とする SREとは?
4 © Metaps Holdings, Inc. SREの責務
5 © Metaps Holdings, Inc. 数値で見るSRE • SWE: 40人 •
SRE: 5人 • 運用プロダクト: 13 • 機能改善: 385件/1,600日 (1ヶ月辺り7.2件のアップデートを実施 ) • アラート通知: 224回/月 • オンコール: 4回/月 • ポストモーテム: 1回/2ヶ月
6 © Metaps Holdings, Inc. 以前まで開発体制
7 © Metaps Holdings, Inc. SREチーム発足後の体制
8 © Metaps Holdings, Inc. メタップスHDにおけるSREのミッション • インフラ運用におけるスペシャリストとして活動し、堅牢で信頼性の高いプラット フォームを設計・構築する •
運用の効率化を図る自動化の実装、緊急時のオンコール対応、クラウドネイティ ブな技術を利用したアプリケーション開発の支援、そしてセキュリティの強化を行 なう
9 © Metaps Holdings, Inc. SREチームの立ち上げ (2018年) • きっかけは「SREサイトリライアビリティエンジニアリング」 •
インフラコード化 (IaC) への挑戦 ◦ 当時、周囲にもSREに関する知見はほとんどなく、情報が限られていた ◦ 初めの試みとして、インフラの構成を深く理解し、それをコードとして表現する作業に着手した ▪ このアプローチはインフラ管理の透明性を高め、変更管理を スムーズに行なう土台を作ることができた • 続発する課題への取り組み ◦ デプロイを自動化したい ◦ ログの分析基盤が欲しい ◦ 負荷対策でオートスケーリングしたい
10 © Metaps Holdings, Inc. インフラ基盤の安定化と継続的な改善 (2019〜2020年) • 安定したインフラ基盤の提供 ◦
インフラ監視基盤の導入、オンコール体制の整備、サーバーレス構成 (マイクロサービスアーキ テクチャ) への移行など • インフラ基盤を多数のプロダクトに水平展開できる体制に ◦ 様々なプロダクトに対してインフラ基盤をスムーズに展開できるプラットフォームを構築 ◦ 各プロダクトは月に数本の機能アップデートを実施し、システムの効率性や安定性を向上させ、 同時にコストの最適化を実現できた
11 © Metaps Holdings, Inc. 基本的なインフラアーキテクチャ
12 © Metaps Holdings, Inc. • 調査プロセスをプレイブック、運用に関する手順をランブックの形でドキュメント 化。障害発生時にトラブルシュートを提案する仕組みを実装 • オンコールはSREメンバー全員が参加し、障害対応の属人化を防ぐ
オンコール体制
13 © Metaps Holdings, Inc. チームを編成 (2021年) • Platform SREs
◦ プロダクト開発に参加し、開発チームと連携してシステムの安定運用・サイトの信頼性向上に取 り組む • Embedded SREs ◦ インフラ基盤の構築や開発体験の向上をミッションとし、横断的に利用可能なプラットフォーム の設計・開発を推進する
14 © Metaps Holdings, Inc. • 運用するプロダクトが増えるにつれSREの負荷が上がる ◦ アラートの取りこぼしや早期検知が困難に •
各種イベントログを集約したダッシュボード「SRE:shine」をSREチーム主導で開 発 ◦ イベントログの可視化 ◦ アラートの通知 ◦ トイルを削減するアプリケーションの提供 インフラの可視化 (2022年〜)
15 © Metaps Holdings, Inc. • 大変だったこと ◦ 知見がない中、試行錯誤でチームを成長させた •
良かったこと ◦ 開発チームがドメインロジックに専念できる環境を整備できた ◦ プロダクト横断型のチームとして、安定性の高いインフラ基盤を実現できた ◦ SREチームメンバーはダッシュボード開発への関与を通じ、開発スキルを身につけることができ た • 今後の取り組み ◦ ダッシュボードのリリース SREチーム発足から5年経過して