Upgrade to Pro — share decks privately, control downloads, hide ads and more …

SREってどんな仕事___メタップスがSREチームを立ち上げたキッカケとこれから_.p...

Naomichi Yamakita
July 21, 2022
11

 SREってどんな仕事___メタップスがSREチームを立ち上げたキッカケとこれから_.pptx.pdf

Naomichi Yamakita

July 21, 2022
Tweet

Transcript

  1. metapsについて ファイナンス
 マーケティング
 DX支援/その他
 決済サービスの提供を軸に、 
 お金×テクノロジーに関わる事業を 
 総合的に展開 


    広告配信、販促最適化まで 
 デジタルマーケティングを 
 ワンストップで支援 
 企業のDXを支援するSaaSや 
 開発チームのマッチングサービスを 
 提供

  2. What is SRE? • Site reliability engineering(サイト信頼性エンジニア) ◦ class SRE

    implements DevOps • システムを俯瞰的に捉え、インフラ設計・運用の自動化・障害対応・アプリケーションのパフォーマ ンス最適化といった観点から可用性を担保し、システムの信頼性を向上させることを目的とする。 • SREに関する意識調査の結果 ◦ あなたの会社では、 SREを必要としていますか ▪ 「かなり必要としている」が 22.3%、「やや必要としている」が 45.3% ◦ SREの採用を考えたことがあるにも関わらず、現状 SREが在籍していない理由 ▪ 「転職市場にSRE人材が少ない」が73.1%、「採用コストが高い」が 46.2%、 「現状システム担当者や外注で賄えている」が 34.6%
  3. • タスクの一例 (2022年6月実施) ◦ ECRプルスルーキャッシュの有効化 ◦ Datadog "aws.applicationelb.httpcode_elb_4xx" モニターは監視対象外に変更 ◦

    インフラリポジトリをモノレポ化 • AWSを始め、毎月3〜5つほどのアップデートを各プロダクトに順次適用 Infrastructure configuration updates
  4. Modernization of Observability • アジリティの低下 ◦ SREチームがサポートするプロダクトが増 えるにつれ、システムアラートを見逃す ケースが増加傾向にある。 ◦

    マイクロサービスが増えるにつれ、障害発 生時にどのサービスが原因で問題が起き ているのか特定が難しくなってきた。 • オブザーバビリティの実現 ◦ AWSやDatadogから通知されるイベントロ グを収集する仕組みを構築。 ◦ SRE / 開発メンバーはダッシュボードを確 認することで、システムのどこで問題が起 きているか把握することができる。