Upgrade to Pro — share decks privately, control downloads, hide ads and more …

カンファレンスから見る SRE トレンド 2024 / SRE Trends from Conferences in 2024 #SRE_Findy

rrreeeyyy
January 16, 2024

カンファレンスから見る SRE トレンド 2024 / SRE Trends from Conferences in 2024 #SRE_Findy

「SRE立ち上げてどうなった?最新のコア技術とSRE事情 Lunch LT 」で「カンファレンスから見る SRE トレンド」という題で発表しました

rrreeeyyy

January 16, 2024
Tweet

More Decks by rrreeeyyy

Other Decks in Technology

Transcript

  1. カンファレンスから見る
    SRE トレンド
    Ryota Yoshikawa ( @rrreeeyyy )
    1
    1
    SRE立ち上げてどうなった?最新のコア技術とSRE事情 Lunch LT | Ryota Yoshikawa ( @rrreeeyyy )
    SRE立ち上げてどうなった?最新のコア技術とSRE事情 Lunch LT | Ryota Yoshikawa ( @rrreeeyyy )

    View full-size slide

  2. Me
    株式会社 Topotal CTO/SRE
    (2021/06 〜)
    SRE as a Service®
    いろいろな会社さんの SRE
    導入・改善のお手伝いをさせ
    てもらっています
    https://topotal.com/servi
    ces/sre-as-a-service
    Waroom®
    インシデント対応を楽にする
    ためのインシデントマネジメ
    ント SaaS を作っています
    https://waroom.com/
    2
    2

    View full-size slide

  3. カンファレンスから見る SRE トレンド
    海外では 2014 年頃, 日本では 2015 年頃から SRE の動きが出てきた
    自分は大体 2017 年の頭ぐらいから SRE というロールをしている
    SRE に関する新しい情報収集・「最新のコア技術」・トレンドを考える
    自分はだいたい大きめのカンファレンスをザッと見ることが多い
    日本では 「SRE NEXT」, 海外では 「SRECon」が SRE 界隈では有名
    SRE NEXT: https://sre-next.dev/
    SRECon: https://www.usenix.org/srecon
    (SRE NEXT は全て参加, SRECon は 16 からほぼ全て見ている)
    他にも USENIX のカンファレンスは面白いしトレンドも分かるのでオススメ
    https://www.usenix.org/conferences
    SRECon 以外だと ATC, OSDI などをよく見ています
    直近の SRE NEXT, SRECon から全体の傾向・個人的に面白かったセッションを紹介
    3
    3
    SRE立ち上げてどうなった?最新のコア技術とSRE事情 Lunch LT | Ryota Yoshikawa ( @rrreeeyyy )
    SRE立ち上げてどうなった?最新のコア技術とSRE事情 Lunch LT | Ryota Yoshikawa ( @rrreeeyyy )

    View full-size slide

  4. SRE NEXT 2022
    https://sre-next.dev/2022/schedule/
    テーマが「多様性」ということで色々な組織での SRE の事例が多かったと感じる
    発展的な SLI/SLO の事例や発表が多かったと感じる
    KaaS桶狭間の戦い 〜Yahoo! JAPANのSLI/SLOを用いた統合監視〜
    Who owns the Service Level?
    SLO決定のためのArt of SLO
    よりUXに近いSLI・SLOの運用による可用性の再設計
    SRE NEXT 2020 では基本的な SLI/SLO の事例が多かった(個人の感想)
    SRE NEXT 2022 で 2 年間での国内の SLI/SLO 事例の発展を感じた
    Incident Response に関する発展的な発表が印象的
    Sensible Incident Management for Software Startups
    最近 Incident Response Meetup #1 が開催予定で盛り上がりを感じる
    4
    4
    SRE立ち上げてどうなった?最新のコア技術とSRE事情 Lunch LT | Ryota Yoshikawa ( @rrreeeyyy )
    SRE立ち上げてどうなった?最新のコア技術とSRE事情 Lunch LT | Ryota Yoshikawa ( @rrreeeyyy )

    View full-size slide

  5. SRE NEXT 2023
    https://sre-next.dev/2023/schedule/
    Observability 関連の発表が増えたように感じる
    勘に頼らず原因を見つけるためのオブザーバビリティ
    プロダクトオーナーの視座から見た信頼性とオブザーバビリティ
    ブルームバーグのセントラル・テレメトリー・システムが業務にもたらす価値
    SLI/SLO の事例は昨年同様発展的なものが多かった
    プロダクトオーナーとしてSLOに向き合う。Mackerelチームの事例
    電動マイクロモビリティのシェアサービス「LUUP」におけるEnabling SLOの実践
    SLOを組織文化にするための挑戦〜Biz/Dev/SREが一丸で進めるSLOジャーニー 〜
    エラーバジェット運用までの取り組み-信頼性の低下に対するアクションを定義しよう
    2023 は特に SLI/SLO を意思決定に使うという話が多かったように感じる
    テーマの「Empathy」にも即していたと感じる
    SRE チーム内に閉じず複数組織や意思決定者を跨いで利用する事例もあった
    生成 AI の話題や活用を行っているセッションも見られた
    5
    5
    SRE立ち上げてどうなった?最新のコア技術とSRE事情 Lunch LT | Ryota Yoshikawa ( @rrreeeyyy )
    SRE立ち上げてどうなった?最新のコア技術とSRE事情 Lunch LT | Ryota Yoshikawa ( @rrreeeyyy )

    View full-size slide

  6. SRECon America 2022 - 1
    https://www.usenix.org/conference/srecon22americas/program
    面白いのは教育・面接のようなセッションが意外と多いこと
    Building and Running a Diversity-focused Pre-internship Program for SRE
    A Postmortem of SRE Interviewing
    Building a Path to the Future: Mentoring New SREs
    パンデミックの関係もあってオンラインのトラフィックの急増を扱ったテーマも多い
    The Pandemic and The Classroom—Enabling Education for Millions
    How We Survived (and Thrived) During The Pandemic and Helped Millions
    of Students Learn Remotely
    SRECon に限らず海外カンファレンスでは意外と他業種から学ぶ話も多い
    Taking the 737 to the Max
    SRE stands for...Skydiving Resilience Engineer
    Datadog の How the Metrics Backend Works at Datadog は面白かった
    6
    6
    SRE立ち上げてどうなった?最新のコア技術とSRE事情 Lunch LT | Ryota Yoshikawa ( @rrreeeyyy )
    SRE立ち上げてどうなった?最新のコア技術とSRE事情 Lunch LT | Ryota Yoshikawa ( @rrreeeyyy )

    View full-size slide

  7. SRECon America 2022 - 2
    eBPF のセッションが複数あった
    eBPF: The Next Power Tool of SREs
    Triaging Real-time Security Threats with eBPF-powered Observability
    Securing Your Software Delivery Chain with Process Auditing
    Observability に関連する発表が多かったと感じる
    Dark Sky Camping: Reducing Alert Pollution with Modern Observability Practices
    Beyond Distributed Tracing
    Using Serverless Functions for Real-time Observability
    Improving How We Observe Our Observability Data: Techniques for SREs
    DO, RE, Me: Measuring the Effectiveness of Site Reliability Engineering
    DORA の DevOps と SRE の関係に関する発表
    Tales from the VOID: The Scary Truth about Incident Metrics
    VOID(インシデントのオープンデータベース)からの分析
    7
    7
    SRE立ち上げてどうなった?最新のコア技術とSRE事情 Lunch LT | Ryota Yoshikawa ( @rrreeeyyy )
    SRE立ち上げてどうなった?最新のコア技術とSRE事情 Lunch LT | Ryota Yoshikawa ( @rrreeeyyy )

    View full-size slide

  8. SRECon Americas 2023 - 1
    https://www.usenix.org/conference/srecon23americas/program
    SRECon23 ではかなり Incident Response にフォーカスした発表が増えている
    SRECon22 -> SRECon23 で Observability 関連の発表はやや少なくなった
    一番最初のセッションが "The Endgame of SRE" なのは少し面白かった
    内容としては様々な(よく聞く)SRE の問題について例とどうすべきかの話
    他にも The Best SREs Seem to Be the Ones without an SRE Title—And What
    We Can Do about It? という未来予測のセッションもあった
    2022 にもあった教育や他業種などから学ぶ話も引き続きある
    Building a Diverse SRE Talent Pipeline
    Epic Incidents of History: The 1979 NORAD Nuclear Near Miss
    Chaos Engineering を主題にしたセッションが 2 つ
    Tired Reacting to Certificate Outages? Build Certificate Resilient Distributed
    Systems Using Chaos Engineering Practices
    Chaos-Driven Development: TDD for Distributed Systems
    8
    8
    SRE立ち上げてどうなった?最新のコア技術とSRE事情 Lunch LT | Ryota Yoshikawa ( @rrreeeyyy )
    SRE立ち上げてどうなった?最新のコア技術とSRE事情 Lunch LT | Ryota Yoshikawa ( @rrreeeyyy )

    View full-size slide

  9. SRECon Americas 2023 - 2
    Incident を主題にしたセッションが多い
    Human Observability of Incident Response
    Far from the Shallows: The Value of Deeper Incident Analysis
    Incident Commanders to Incident Analysts: How We Got Here
    If I Can Do It on an Ambulance, You Can Do It in an Office: Scalable Incident
    Response Using ICS
    An Organizational Response to Incidents: Designing for Smooth Coordination in
    High Tempo, Large Scale Software Incident Response
    Incident Archeology
    Observability を主題にしたセッションは減った一方 OpenTelemetry などで引き続き
    OpenTelemetry Metrics 101
    Building an APM with OpenTelemetry and OpenSource
    Financial Resiliency Engineering: Taming Cloud Costs
    Scaling Telemetry Systems with Streaming
    We're Still Down: A Metastable Failure Tale
    9
    9
    SRE立ち上げてどうなった?最新のコア技術とSRE事情 Lunch LT | Ryota Yoshikawa ( @rrreeeyyy )
    SRE立ち上げてどうなった?最新のコア技術とSRE事情 Lunch LT | Ryota Yoshikawa ( @rrreeeyyy )

    View full-size slide

  10. まとめ
    SRE に関する新しい情報収集・「最新のコア技術」・トレンドを考える
    自分のやり方の一つである国内外カンファレンスの紹介をしました
    SRE NEXT / SRECon の傾向や特に面白かったセッションを紹介しました
    それぞれの年や場所ごとに特色があって面白いです
    SRE NEXT は各社の事例やプラクティカルな発表が多いような気がします
    SRECon はプラクティカルな発表だけでなくメタな発表も数がある気がします
    一方で特定の要素技術に着目して深堀りしたようなセッションもある
    e.g. eBPF, Observability, Chaos Engineering, ...
    国外でのトレンドが国内でのトレンドになったりする可能性も高いと思います
    他にも自分はこの発表が面白いと感じた・好きなどあれば是非教えて下さい
    今日のハッシュタグ #SRE_findy や @rrreeeyyy まで
    10
    10
    SRE立ち上げてどうなった?最新のコア技術とSRE事情 Lunch LT | Ryota Yoshikawa ( @rrreeeyyy )
    SRE立ち上げてどうなった?最新のコア技術とSRE事情 Lunch LT | Ryota Yoshikawa ( @rrreeeyyy )

    View full-size slide