Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
GMO Research Tech Conference 2023
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Naomichi Yamakita
November 01, 2023
54
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
GMO Research Tech Conference 2023
Naomichi Yamakita
November 01, 2023
More Decks by Naomichi Yamakita
See All by Naomichi Yamakita
現場で試したAI駆動開発
naomichi
0
28
ClickHouse活用によるパフォーマンス改善について
naomichi
0
160
SRE が駆動するプロダクト品質と アーキテクチャ進化の仕組み
naomichi
0
210
今こそ聞きたい!ガバメントクラウド
naomichi
0
62
AWSにおける横断的なログ分析と コストの管理
naomichi
1
7k
失敗から始まるリアーキテクト: SREの実践例で見る改善の道筋
naomichi
0
890
プロダクト横断で可視化する ダッシュボードの開発
naomichi
0
410
第一回ライブラリ開発について考える会
naomichi
0
140
Serverless Application Repositoryでトイルを削減する
naomichi
0
360
Featured
See All Featured
SEO in 2025: How to Prepare for the Future of Search
ipullrank
3
3.5k
SEO Brein meetup: CTRL+C is not how to scale international SEO
lindahogenes
1
2.7k
GraphQLとの向き合い方2022年版
quramy
50
15k
Measuring Dark Social's Impact On Conversion and Attribution
stephenakadiri
2
220
Balancing Empowerment & Direction
lara
6
1.2k
Ruling the World: When Life Gets Gamed
codingconduct
0
250
Build The Right Thing And Hit Your Dates
maggiecrowley
39
3.2k
Organizational Design Perspectives: An Ontology of Organizational Design Elements
kimpetersen
PRO
1
720
Pawsitive SEO: Lessons from My Dog (and Many Mistakes) on Thriving as a Consultant in the Age of AI
davidcarrasco
0
160
Heart Work Chapter 1 - Part 1
lfama
PRO
7
36k
Mozcon NYC 2025: Stop Losing SEO Traffic
samtorres
1
250
Why Your Marketing Sucks and What You Can Do About It - Sophie Logan
marketingsoph
0
170
Transcript
1 SREチームを立ち上げてインフラ 基盤プラットフォームを構築した話 株式会社メタップスホールディングス 2023年11月1日 © Metaps Holdings, Inc.
2 © Metaps Holdings, Inc. ベトナム・ハノイでのオフショア事業立ち上げからキャリアをスタートし、アプリケーション 開発からマネジメントまでを経験 2015年に株式会社メタップスに参画。徐々にクラウドインフラにも携わり、現在は同社で 横断的なテックリードやSREチーフエンジニアとして従事 2022年からはSREのための分散型プラットフォーム「SRE:shine」のプロダクトオーナー
を兼務 AWS Dev Day Tokyo https://pages.awscloud.com/rs/112-TZM-766/images/G-1.pdf メタップスにおけるECSデプロイ戦略 https://aws.amazon.com/jp/blogs/news/ecs-deployment-strategy-at-metaps/ メタップスが取り組むシステム運用状況を可視化するダッシュボード開発 https://aws.amazon.com/jp/builders-flash/202210/metaps-monitoring-dashboard-development/ Platform strategy SRE Chief engineer Naomichi YAMAKITA プラットフォーム戦略部 SREチーフエンジニア 山北 尚道 プロフィール
3 © Metaps Holdings, Inc. • SREはSite Reliability Engineeringを実現するエンジニアリング手法 •
システムを俯瞰的に捉え、インフラ設計・運用の自動化・障害対応・アプリケー ションのパフォーマンス最適化といった観点から可用性を担保し、システムの信 頼性を向上させることを目的とする SREとは?
4 © Metaps Holdings, Inc. SREの責務
5 © Metaps Holdings, Inc. 数値で見るSRE • SWE: 40人 •
SRE: 5人 • 運用プロダクト: 13 • 機能改善: 385件/1,600日 (1ヶ月辺り7.2件のアップデートを実施 ) • アラート通知: 224回/月 • オンコール: 4回/月 • ポストモーテム: 1回/2ヶ月
6 © Metaps Holdings, Inc. 以前まで開発体制
7 © Metaps Holdings, Inc. SREチーム発足後の体制
8 © Metaps Holdings, Inc. メタップスHDにおけるSREのミッション • インフラ運用におけるスペシャリストとして活動し、堅牢で信頼性の高いプラット フォームを設計・構築する •
運用の効率化を図る自動化の実装、緊急時のオンコール対応、クラウドネイティ ブな技術を利用したアプリケーション開発の支援、そしてセキュリティの強化を行 なう
9 © Metaps Holdings, Inc. SREチームの立ち上げ (2018年) • きっかけは「SREサイトリライアビリティエンジニアリング」 •
インフラコード化 (IaC) への挑戦 ◦ 当時、周囲にもSREに関する知見はほとんどなく、情報が限られていた ◦ 初めの試みとして、インフラの構成を深く理解し、それをコードとして表現する作業に着手した ▪ このアプローチはインフラ管理の透明性を高め、変更管理を スムーズに行なう土台を作ることができた • 続発する課題への取り組み ◦ デプロイを自動化したい ◦ ログの分析基盤が欲しい ◦ 負荷対策でオートスケーリングしたい
10 © Metaps Holdings, Inc. インフラ基盤の安定化と継続的な改善 (2019〜2020年) • 安定したインフラ基盤の提供 ◦
インフラ監視基盤の導入、オンコール体制の整備、サーバーレス構成 (マイクロサービスアーキ テクチャ) への移行など • インフラ基盤を多数のプロダクトに水平展開できる体制に ◦ 様々なプロダクトに対してインフラ基盤をスムーズに展開できるプラットフォームを構築 ◦ 各プロダクトは月に数本の機能アップデートを実施し、システムの効率性や安定性を向上させ、 同時にコストの最適化を実現できた
11 © Metaps Holdings, Inc. 基本的なインフラアーキテクチャ
12 © Metaps Holdings, Inc. • 調査プロセスをプレイブック、運用に関する手順をランブックの形でドキュメント 化。障害発生時にトラブルシュートを提案する仕組みを実装 • オンコールはSREメンバー全員が参加し、障害対応の属人化を防ぐ
オンコール体制
13 © Metaps Holdings, Inc. チームを編成 (2021年) • Platform SREs
◦ プロダクト開発に参加し、開発チームと連携してシステムの安定運用・サイトの信頼性向上に取 り組む • Embedded SREs ◦ インフラ基盤の構築や開発体験の向上をミッションとし、横断的に利用可能なプラットフォーム の設計・開発を推進する
14 © Metaps Holdings, Inc. • 運用するプロダクトが増えるにつれSREの負荷が上がる ◦ アラートの取りこぼしや早期検知が困難に •
各種イベントログを集約したダッシュボード「SRE:shine」をSREチーム主導で開 発 ◦ イベントログの可視化 ◦ アラートの通知 ◦ トイルを削減するアプリケーションの提供 インフラの可視化 (2022年〜)
15 © Metaps Holdings, Inc. • 大変だったこと ◦ 知見がない中、試行錯誤でチームを成長させた •
良かったこと ◦ 開発チームがドメインロジックに専念できる環境を整備できた ◦ プロダクト横断型のチームとして、安定性の高いインフラ基盤を実現できた ◦ SREチームメンバーはダッシュボード開発への関与を通じ、開発スキルを身につけることができ た • 今後の取り組み ◦ ダッシュボードのリリース SREチーム発足から5年経過して