Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
GMO Research Tech Conference 2023
Search
Naomichi Yamakita
November 01, 2023
0
16
GMO Research Tech Conference 2023
Naomichi Yamakita
November 01, 2023
Tweet
Share
More Decks by Naomichi Yamakita
See All by Naomichi Yamakita
プロダクト横断で可視化する ダッシュボードの開発
naomichi
0
240
第一回ライブラリ開発について考える会
naomichi
0
72
Serverless Application Repositoryでトイルを削減する
naomichi
0
290
SRE的観点から日常を振り返る
naomichi
0
850
Deep dive into cloud design
naomichi
0
19
インフラを横断して可視化するダッシュボードの開発
naomichi
0
12
SREってどんな仕事___メタップスがSREチームを立ち上げたキッカケとこれから_.pptx.pdf
naomichi
0
10
SRE Innovation in Metaps
naomichi
0
280
マイクロサービスを支えるインフラアーキテクチャ/microservice-infra-architecture
naomichi
1
3.6k
Featured
See All Featured
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
27
4.3k
Documentation Writing (for coders)
carmenintech
65
4.4k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
109
49k
Designing the Hi-DPI Web
ddemaree
280
34k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
31
2.7k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
42
9.2k
Gamification - CAS2011
davidbonilla
80
5k
Fireside Chat
paigeccino
34
3k
Ruby is Unlike a Banana
tanoku
97
11k
RailsConf 2023
tenderlove
29
900
How to train your dragon (web standard)
notwaldorf
88
5.7k
Embracing the Ebb and Flow
colly
84
4.5k
Transcript
1 SREチームを立ち上げてインフラ 基盤プラットフォームを構築した話 株式会社メタップスホールディングス 2023年11月1日 © Metaps Holdings, Inc.
2 © Metaps Holdings, Inc. ベトナム・ハノイでのオフショア事業立ち上げからキャリアをスタートし、アプリケーション 開発からマネジメントまでを経験 2015年に株式会社メタップスに参画。徐々にクラウドインフラにも携わり、現在は同社で 横断的なテックリードやSREチーフエンジニアとして従事 2022年からはSREのための分散型プラットフォーム「SRE:shine」のプロダクトオーナー
を兼務 AWS Dev Day Tokyo https://pages.awscloud.com/rs/112-TZM-766/images/G-1.pdf メタップスにおけるECSデプロイ戦略 https://aws.amazon.com/jp/blogs/news/ecs-deployment-strategy-at-metaps/ メタップスが取り組むシステム運用状況を可視化するダッシュボード開発 https://aws.amazon.com/jp/builders-flash/202210/metaps-monitoring-dashboard-development/ Platform strategy SRE Chief engineer Naomichi YAMAKITA プラットフォーム戦略部 SREチーフエンジニア 山北 尚道 プロフィール
3 © Metaps Holdings, Inc. • SREはSite Reliability Engineeringを実現するエンジニアリング手法 •
システムを俯瞰的に捉え、インフラ設計・運用の自動化・障害対応・アプリケー ションのパフォーマンス最適化といった観点から可用性を担保し、システムの信 頼性を向上させることを目的とする SREとは?
4 © Metaps Holdings, Inc. SREの責務
5 © Metaps Holdings, Inc. 数値で見るSRE • SWE: 40人 •
SRE: 5人 • 運用プロダクト: 13 • 機能改善: 385件/1,600日 (1ヶ月辺り7.2件のアップデートを実施 ) • アラート通知: 224回/月 • オンコール: 4回/月 • ポストモーテム: 1回/2ヶ月
6 © Metaps Holdings, Inc. 以前まで開発体制
7 © Metaps Holdings, Inc. SREチーム発足後の体制
8 © Metaps Holdings, Inc. メタップスHDにおけるSREのミッション • インフラ運用におけるスペシャリストとして活動し、堅牢で信頼性の高いプラット フォームを設計・構築する •
運用の効率化を図る自動化の実装、緊急時のオンコール対応、クラウドネイティ ブな技術を利用したアプリケーション開発の支援、そしてセキュリティの強化を行 なう
9 © Metaps Holdings, Inc. SREチームの立ち上げ (2018年) • きっかけは「SREサイトリライアビリティエンジニアリング」 •
インフラコード化 (IaC) への挑戦 ◦ 当時、周囲にもSREに関する知見はほとんどなく、情報が限られていた ◦ 初めの試みとして、インフラの構成を深く理解し、それをコードとして表現する作業に着手した ▪ このアプローチはインフラ管理の透明性を高め、変更管理を スムーズに行なう土台を作ることができた • 続発する課題への取り組み ◦ デプロイを自動化したい ◦ ログの分析基盤が欲しい ◦ 負荷対策でオートスケーリングしたい
10 © Metaps Holdings, Inc. インフラ基盤の安定化と継続的な改善 (2019〜2020年) • 安定したインフラ基盤の提供 ◦
インフラ監視基盤の導入、オンコール体制の整備、サーバーレス構成 (マイクロサービスアーキ テクチャ) への移行など • インフラ基盤を多数のプロダクトに水平展開できる体制に ◦ 様々なプロダクトに対してインフラ基盤をスムーズに展開できるプラットフォームを構築 ◦ 各プロダクトは月に数本の機能アップデートを実施し、システムの効率性や安定性を向上させ、 同時にコストの最適化を実現できた
11 © Metaps Holdings, Inc. 基本的なインフラアーキテクチャ
12 © Metaps Holdings, Inc. • 調査プロセスをプレイブック、運用に関する手順をランブックの形でドキュメント 化。障害発生時にトラブルシュートを提案する仕組みを実装 • オンコールはSREメンバー全員が参加し、障害対応の属人化を防ぐ
オンコール体制
13 © Metaps Holdings, Inc. チームを編成 (2021年) • Platform SREs
◦ プロダクト開発に参加し、開発チームと連携してシステムの安定運用・サイトの信頼性向上に取 り組む • Embedded SREs ◦ インフラ基盤の構築や開発体験の向上をミッションとし、横断的に利用可能なプラットフォーム の設計・開発を推進する
14 © Metaps Holdings, Inc. • 運用するプロダクトが増えるにつれSREの負荷が上がる ◦ アラートの取りこぼしや早期検知が困難に •
各種イベントログを集約したダッシュボード「SRE:shine」をSREチーム主導で開 発 ◦ イベントログの可視化 ◦ アラートの通知 ◦ トイルを削減するアプリケーションの提供 インフラの可視化 (2022年〜)
15 © Metaps Holdings, Inc. • 大変だったこと ◦ 知見がない中、試行錯誤でチームを成長させた •
良かったこと ◦ 開発チームがドメインロジックに専念できる環境を整備できた ◦ プロダクト横断型のチームとして、安定性の高いインフラ基盤を実現できた ◦ SREチームメンバーはダッシュボード開発への関与を通じ、開発スキルを身につけることができ た • 今後の取り組み ◦ ダッシュボードのリリース SREチーム発足から5年経過して