Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
SRE Innovation in Metaps
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Naomichi Yamakita
August 04, 2021
Technology
370
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
SRE Innovation in Metaps
組織にSREを取り入れたことで起きた変革
Naomichi Yamakita
August 04, 2021
More Decks by Naomichi Yamakita
See All by Naomichi Yamakita
現場で試したAI駆動開発
naomichi
0
37
ClickHouse活用によるパフォーマンス改善について
naomichi
0
170
SRE が駆動するプロダクト品質と アーキテクチャ進化の仕組み
naomichi
0
210
今こそ聞きたい!ガバメントクラウド
naomichi
0
62
AWSにおける横断的なログ分析と コストの管理
naomichi
1
7k
失敗から始まるリアーキテクト: SREの実践例で見る改善の道筋
naomichi
0
890
プロダクト横断で可視化する ダッシュボードの開発
naomichi
0
410
第一回ライブラリ開発について考える会
naomichi
0
150
Serverless Application Repositoryでトイルを削減する
naomichi
0
360
Other Decks in Technology
See All in Technology
IaC コードを資産へ:AWS CDK 社内ライブラリと横断展開 / aws-summit-japan-2026
gotok365
10
1.5k
Kiroで書いた 設計書 が AI レビューの 採点基準 になる
ezaki
0
140
40代で“やっとエンジニアになれた”――閉じた学びを開き、空の青さを知る / 20260628 Naoki Takahashi
shift_evolve
PRO
4
530
コミュニティの有益性 ~JAWS Days 2026 での体験を通して~ / The Benefits of a Community ~Through My Experience at JAWS Days 2026~
seike460
PRO
0
260
脱SaaS!FDEを支えるプロビジョニングと分離設計
knih
0
260
白金鉱業Meetup_Vol.24_「AIエージェントは分けるほど良い」は本当か? / Is it true that “the more you divide AI agents, the better”?
brainpadpr
1
430
コミットの「なぜ」を読む
ota1022
0
110
GitHub Copilot 最新アップデート – 「一歩先」の実践活用術
moulongzhang
5
1.6k
感情と身体を置き去りにしない、エンジニアの生きのこり方 ──いまから、ここから「自分の状態」を扱うという選択
saorimurooka
0
200
WebGIS AI Agentの紹介
_shimizu
0
340
【2026年版】 ベクトル検索とEmbedding最前線
mocobeta
23
7k
アジャイルな経理と Claude Code と経営の未来
kawaguti
PRO
3
180
Featured
See All Featured
The Art of Programming - Codeland 2020
erikaheidi
57
14k
Building Adaptive Systems
keathley
44
3.1k
Scaling GitHub
holman
464
140k
GitHub's CSS Performance
jonrohan
1033
470k
A brief & incomplete history of UX Design for the World Wide Web: 1989–2019
jct
2
400
We Analyzed 250 Million AI Search Results: Here's What I Found
joshbly
1
1.4k
Imperfection Machines: The Place of Print at Facebook
scottboms
270
14k
So, you think you're a good person
axbom
PRO
2
2.1k
Documentation Writing (for coders)
carmenintech
77
5.4k
Fireside Chat
paigeccino
42
4k
Music & Morning Musume
bryan
47
7.2k
Agile that works and the tools we love
rasmusluckow
331
22k
Transcript
SRE Innovation in Metaps 組織にSREを取り入れたことで起きた変革
Who are you? Naomichi Yamakita Metaps SRE Manager / Tech
Lead naomichi-y
メタップスの概要
従来の開発体制
SREチーム編成後の開発体制
メタップスのSREに求められる役割 インフラ設計・構築 開発支援 ・要件ヒアリング ・技術選定 ・設計 ・SLI / SLOの策定 ・環境構築
・クラウドネイティブに適した設計のサポート ・インテグレーション ・パフォーマンス分析 ・開発支援ツールの開発 インフラ運用 ・サービスの監視 ・オンコール対応 ・ポストモーテム ・システムの信頼性向上 ・スケーラビリティの改善 ・構成管理のアップデート ・運用の自動化 ・各種ミドルウェアのチューニング ・コスト最適化 ・セキュリティ改善 ・監査対応 ・ランブック / プレイブックの作成
SREのミッション • メタップスグループにおけるインフラ運用のエキスパート ◦ インフラ基盤となるプラットフォームの設計・構築をはじめ、運用の自動化、オンコール対応、クラウ ドネイティブな視点からのアプリケーション開発支援、セキュリティ対策といった幅広いスキル・知見 が求められる • 運用フレームワークの各社展開 ◦
インフラ運用の要となるフレームワークを各社展開すると共に、 SREがインフラ運用やアプリケー ション開発を支援。各社で培ったノウハウを取り入れつつ、フレームワークの強化・定常的な構成管 理のアップデートを目指す
アプリケーション基盤
SREチームによるインフラ基盤の提供 IaC Terraform GitHub / AWS / Datadog / PagerDuty
インフラ監視 Datadog Infrastructure / Datadog Synthetics インフラ・SLO・不正ログの監視 クラウド基盤 Amazon ECS / AWS Fargate AWS Well-Architectedをベースとした設計 インシデント管理 PagerDuty / Growi DatadogやSentryと連携し、障害発生時に 電話やPush通知を介してオンコール担当者 に連絡を行う CI CircleCI ログ収集基盤 Fluentd ログの整形・アラート通知・配送 デプロイ genova Slackから対話形式によるECS / Fargateへのデ プロイ、GitHub連携の自動デプロイをサポート ログ分析基盤 Kibana / Athena / Datadog Logs / Google BigQuery APM Datadog APM & Continuous Profiler アプリケーションのパフォーマンス分析 IPS / IDS Trend Micro Cloud One Workload Security エラー監視 Sentry BI Metabase / Google Data Portal
• 月に10〜20のアップデートを実施。各プロダクトへの展開を行う • 先月実施したタスクの例 ◦ ECS Execの有効化 ◦ Terraform 1.0へのアップグレード
◦ IAMアカウントのMFA必須化 インフラ構成のアップデート
インフラ構成をアップデートするメリット • インフラは「作って終わり」ではない • インフラ基盤となるSaaSやツールは日々機能アップデートが行われている • インフラ構成を最新の状態にアップデートすることで、システムの自動化や安定性 の向上、コストの削減などが見込まれる
• Embedded SRE + On-Call SRE ◦ SREメンバーは全てのプロダクトを対象にオンコール ローテーションで組み込まれる •
障害対応は全てのSREエンジニアが対応可能 ◦ 障害対応を属人化させない オンコール体制
サービスの信頼性を可視化 • DatadogでSLI / SLOを定義 • 一定の閾値を下がったプロダクトはアラートを通知
Metaps GameDayの実施 • 目的 ◦ システムに故意に障害を発生させ、復旧手順のトラブルシュートを学習する • シナリオ ◦ AWSのAZ障害が発生し、サービスサイトへの接続が不安定となった
• ゴール ◦ サービスへの接続が安定すること • ルール ◦ 事前に復旧手順をまとめたランブックを作成 (事前まで非公開) • 結果 ◦ https://qiita.com/organizations/metaps
組織にSREを取り入れたことで起きた変革 • 責任分界点の分離により、SREはインフラ、開発チームは開発に集中することでお 互いのパフォーマンスが向上 • クラウドネイティブに適した設計手法や運用、セキュリティといった知見が集まり、会 社全体を通してプロダクトごとの課題を可視化
SRE Meet up