Upgrade to Pro — share decks privately, control downloads, hide ads and more …

SREチームを立ち上げてインフラ 基盤プラットフォームを構築した話

metaps
November 23, 2023
320

SREチームを立ち上げてインフラ 基盤プラットフォームを構築した話

2023年11月にWeWork渋谷スクランブルスクエアにて行われたLT会資料です

metaps

November 23, 2023
Tweet

Transcript

  1. 1
    SREチームを立ち上げてインフラ
    基盤プラットフォームを構築した話
    株式会社メタップスホールディングス
    2023年11月22日

    © Metaps Holdings, Inc.

    View full-size slide

  2. 2
    © Metaps Holdings, Inc.
    ベトナム・ハノイでのオフショア事業立ち上げからキャリアをスタートし、アプリケーション
    開発からマネジメントまでを経験
    2015年に株式会社メタップスに参画。徐々にクラウドインフラにも携わり、現在は同社で
    横断的なテックリードやSREチーフエンジニアとして従事
    2022年からはSREのための分散型プラットフォーム「SRE:shine」のプロダクトオーナー
    を兼務
    AWS Dev Day Tokyo
    https://pages.awscloud.com/rs/112-TZM-766/images/G-1.pdf
    メタップスにおけるECSデプロイ戦略
    https://aws.amazon.com/jp/blogs/news/ecs-deployment-strategy-at-metaps/
    メタップスが取り組むシステム運用状況を可視化するダッシュボード開発
    https://aws.amazon.com/jp/builders-flash/202210/metaps-monitoring-dashboard-development/
    Platform strategy
    SRE Chief engineer
    Naomichi YAMAKITA
    プラットフォーム戦略部
    SREチーフエンジニア
    山北 尚道 
    プロフィール

    View full-size slide

  3. 3
    © Metaps Holdings, Inc.
    ● SREはSite Reliability Engineeringを実現するエンジニアリング手法
    ● システムを俯瞰的に捉え、インフラ設計・運用の自動化・障害対応・アプリケー
    ションのパフォーマンス最適化といった観点から可用性を担保し、システムの信
    頼性を向上させることを目的とする
    SREとは?

    View full-size slide

  4. 4
    © Metaps Holdings, Inc.
    SREの責務

    View full-size slide

  5. 5
    © Metaps Holdings, Inc.
    数値で見るSRE
    ● SWE: 40人
    ● SRE: 5人
    ● 運用プロダクト: 13
    ● 機能改善: 385件/1,600日 (1ヶ月辺り7.2件のアップデートを実施 )
    ● アラート通知: 224回/月
    ● オンコール: 4回/月
    ● ポストモーテム: 1回/3ヶ月

    View full-size slide

  6. 6
    © Metaps Holdings, Inc.
    以前まで開発体制

    View full-size slide

  7. 7
    © Metaps Holdings, Inc.
    SREチーム発足後の体制

    View full-size slide

  8. 8
    © Metaps Holdings, Inc.
    メタップスHDにおけるSREのミッション
    ● インフラ運用におけるスペシャリストとして活動し、堅牢で信頼性の高いプラット
    フォームを設計・構築する
    ● 運用の効率化を図る自動化の実装、緊急時のオンコール対応、クラウドネイティ
    ブな技術を利用したアプリケーション開発の支援、そしてセキュリティの強化を行
    なう

    View full-size slide

  9. 9
    © Metaps Holdings, Inc.
    SREチーム発足から5年経過して
    ● 大変だったこと
    ○ 知見がない中、試行錯誤でチームを成長させた
    ● 良かったこと
    ○ 開発チームがドメインロジックに専念できる環境を整備できた
    ○ プロダクト横断型のチームとして、安定性の高いインフラ基盤を実現できた
    ● SREの運用や困っている方がいましたら話しましょう!

    View full-size slide