Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
「家族アルバム みてね」を支える SREのこれまでとこれから
Search
MIXI ENGINEERS
PRO
August 29, 2023
Technology
2
1k
「家族アルバム みてね」を支える SREのこれまでとこれから
ゆるSRE勉強会 #1 でお話させていただいた、みてねSREの伊東(@_nihi)の登壇資料です。
https://yuru-sre.connpass.com/event/292063/
MIXI ENGINEERS
PRO
August 29, 2023
Tweet
Share
More Decks by MIXI ENGINEERS
See All by MIXI ENGINEERS
TIPSTARを支えるCloud Spanner
mixi_engineers
PRO
0
27
モンストを支えるインフラ技術
mixi_engineers
PRO
1
680
ルールベースからMLへ みてね写真プリント自動提案の活用事例
mixi_engineers
PRO
1
110
SoccerNet GSRの紹介と技術応用:選手視点映像を提供するサッカー作戦盤ツール
mixi_engineers
PRO
1
270
2つのフロントエンドと状態管理
mixi_engineers
PRO
4
280
月間4億メディアの画像解析を救え!みてね発・オンデバイスMLで挑む圧倒的コストカット作戦
mixi_engineers
PRO
2
310
Google Agentspaceを実際に導入した効果と今後の展望
mixi_engineers
PRO
4
1.8k
プロジェクトマネジメント実践論|現役エンジニアが語る!~チームでモノづくりをする時のコツとは?~
mixi_engineers
PRO
5
530
セキュリティ研修【MIXI 25新卒技術研修】
mixi_engineers
PRO
4
2.5k
Other Decks in Technology
See All in Technology
Claude Code 10連ガチャ
uhyo
3
650
プログラミング言語を書く前に日本語を書く── AI 時代に求められる「言葉で考える」力/登壇資料(井田 献一朗)
hacobu
PRO
0
150
Logik: A Free and Open-source FPGA Toolchain
omasanori
0
280
なぜインフラコードのモジュール化は難しいのか - アプリケーションコードとの本質的な違いから考える
mizzy
35
10k
LINE公式アカウントの技術スタックと開発の裏側
lycorptech_jp
PRO
0
340
Pythonで構築する全国市町村ナレッジグラフ: GraphRAGを用いた意味的地域検索への応用
negi111111
8
3.4k
Redux → Recoil → Zustand → useSyncExternalStore: 状態管理の10年とReact本来の姿
zozotech
PRO
1
220
これからアウトプットする人たちへ - アウトプットを支える技術 / that support output
soudai
PRO
16
5.1k
ユーザーストーリー x AI / User Stories x AI
oomatomo
0
170
今、MySQLのバックアップを作り直すとしたら何がどう良いのかを考える旅
yoku0825
0
130
Design and implementation of "Markdown to Google Slides" / phpconfuk 2025
k1low
1
390
re:Invent完全攻略ガイド
junjikoide
1
260
Featured
See All Featured
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
12
1.3k
Why You Should Never Use an ORM
jnunemaker
PRO
60
9.6k
YesSQL, Process and Tooling at Scale
rocio
174
15k
StorybookのUI Testing Handbookを読んだ
zakiyama
31
6.3k
GitHub's CSS Performance
jonrohan
1032
470k
We Have a Design System, Now What?
morganepeng
54
7.9k
Designing for Performance
lara
610
69k
How GitHub (no longer) Works
holman
315
140k
GraphQLとの向き合い方2022年版
quramy
49
14k
Faster Mobile Websites
deanohume
310
31k
jQuery: Nuts, Bolts and Bling
dougneiner
65
8k
Making the Leap to Tech Lead
cromwellryan
135
9.6k
Transcript
「家族アルバム みてね」を支える SREのこれまでとこれから ゆるSRE勉強会 #1
MIXI, Inc. 自己紹介 株式会社MIXI Vantageスタジオ みてねプロダクト開発部 基盤開発グループ SREチーム
伊東 宏起 https://hekki.info
MIXI, Inc. 家族アルバム みてねの紹介 写真プリント フォトブック スマホで撮影した子どもの写真や動画を家族と共有し、 コミュニケーションして楽しむ家族アルバムサービスで す。
MIXI, Inc. 家族アルバム みてねの紹介 利用者数1,800万人を突破(2023年5月時点) ※ iOS・Android™ アプリ登録者数、ブラウザ版登録者数の合計 7言語・175の国と地域でサービスを提供
MIXI, Inc. 本日お話する内容 - みてねでのSREチームの立ち上げ - 立ち上げ移行のこれまでの振り返り -
これからの展望 - まとめ
MIXI, Inc. みてねでのSREチームの立ち上げ - サービス開始は2015年4月 - 当時インフラを専任で担当するメンバーはおらず、インフラ上の問題は開発者が都度対応 - 次第にユーザー体験や開発者体験に悪影響が出始める
- そこでサービス開始から約3年後の2018年2月、SRE組織を立ち上げることになる
MIXI, Inc. みてねでのSREチームの立ち上げ - サービス初期からの開発メンバー・別の部署のSREチーム・別の部署のアプリ開発者の3名でスタート - 当初のSRE組織を立ち上げた目標 -
ユーザーがより良いサービス体験を得られるようにする - 開発者が開発に集中し、ユーザーへの価値提供を最速・最大化するための下支えをする
MIXI, Inc. みてねSREチームのこれまで(チーム規模 3〜4名) - ユーザーと開発者の体験向上 - メディアのアップロード・ダウンロードの高速化 -
Terraformを導入し、IaCの考え方を取り入れる - ログ分析基盤の構築 - インフラコストの削減 - S3のストレージクラスやライフサイクルルールの最適化 - セキュリティ向上 - AWSアカウントの分離やGuardDutyの活用 - OS/ミドルウェア/フレームワーク等のアップデート - Grafanaの導入 - オブザーバビリティの改善と同時に、平常時の様子が分かるようになった
MIXI, Inc. - 開発者が新機能開発に集中できるように、それ以外の課題をSREが巻き取るというポリシーで運用 - インフラコストの削減には継続してチャレンジ - ユーザーへの動画配信にHLS(HTTP
Live Streaming)を活用 - 詳細は「みてねの動画再生にHLSを導入した話」をご覧ください - AWS OpsWorksからAmazon EKSへの移行 - 前述したTerraformの導入やAWSアカウントの分割もこの前準備 - 詳細は「4年間のEKS移行の取り組みを振り返って」をご覧ください - オンコール当番制度の導入 - 夜間や休日など業務時間外もサービスの品質を低下させないために、オンコール当番制度を導入 - 制度設計を丁寧にしないと破綻するので要注意 - 詳細は「『家族アルバム みてね』を支えるオンコールエンジニア制度」をご覧ください みてねSREチームのこれまで(チーム規模 4〜5名)
MIXI, Inc. - サービスの拡大と共に組織も大きくなり、組織のスケーラビリティという課題に直面 - 「新規開発以外の課題をSREが巻き取る」というポリシーに限界が見え始める - そこで開発者自身で問題の発見・解決ができる環境をSREが提供するポリシーに変化 -
海外ユーザーの体験向上 - サービスの海外展開に注力し始めた一方、それまでインフラは全て日本国内に構築 - 海外ユーザーにも快適にサービスを利用していただくために、インフラをマルチリージョン化 - 詳細は「みてね マルチリージョン」で検索 - オブザーバビリティ改善 - 「開発者自身で問題の発見・解決ができる環境」を目標とした取り組み - Grafana Lokiを使ったリアルタイムなログ検索基盤の構築 - APM(Application Performance Monitoring)の普及やトレーニング みてねSREチームのこれまで(チーム規模 5〜6名)
MIXI, Inc. - まだまだ課題は山積み - SLI/SLOの運用 - ユーザー数の増加に伴いアプリケーション開発の難易度も格段にアップ -
開発スピードの低下や、リリース後に問題が顕在化するといった課題が発生 - さらなるオブザーバビリティ改善、大規模なデータ・アクセスを開発環境上で再現するといった、複数の施策で 対策予定 - DBの負荷増大 - コンテンツの大量生成・大量配信など、特定期間にDBへのクエリが集中 - スケールアップにも限度があるので、マルチDBやシャーディングなど負荷分散にチャレンジ - 開発チームがスケールしても破綻しないSRE組織作り - 引き続き開発チームが自走できるための支援に注力 これからの展望
MIXI, Inc. - サービスの規模・フェーズや目標に合わせてSREチームも柔軟に目標を変化させてきました - はじめから完璧なSRE組織を作って運用するのではなく、スモールスタートで取り組むことが大切 - SREチーム発足から5年以上経過した今でも、完璧にGoogleが提唱するSREのプラクティスを実践できているとはいえ
ません - SREのプラクティスを組織全体に浸透させていくことが大切 - 究極的にはSREチームが必要となくなる(=開発チームが自走してSREのプラクティスを実践できるようになる)ことを 目指す - これからSREに挑戦する方々の参考になれば幸いです! まとめ
MIXI, Inc.