$30 off During Our Annual Pro Sale. View Details »

Cookpad Lounge #4 SRE 座談会 SLI/SLO

Cookpad Lounge #4 SRE 座談会 SLI/SLO

https://cookpad.connpass.com/event/215427/ でお話した、クックパッドにおける SLI/SLO に関する取り組みについての資料です。

Okumura Takahiro

June 17, 2021
Tweet

More Decks by Okumura Takahiro

Other Decks in Technology

Transcript

  1. Cookpad Lounge #4
    SLI/SLO

    View Slide

  2. 本日のテーマ: SLI/SLO を導入した話
    クックパッドマート(以降、マート)というサービスで SLI/SLO を用
    いた信頼性のトラッキングを始めています。
    クックパッド(以降、レシピサービス)への導入は現在進行中で
    す。
    マートで感じた課題は何か、どのように導入してどう運用してい
    るのか、現状の所感などを話します。

    View Slide

  3. その前に...2020年クックパッドの SLI/SLO
    2つの課題:
    1. SRE チームが信頼性指標を確立・追跡できていない
    2. 開発・SRE 間で信頼性の共通認識(合意形成)が曖昧
    まず 1 のために、各サービスに一律で SLI/SLO (ALB のリクエ
    スト成功率と p90 レスポンスタイム) を設定した。

    View Slide

  4. SLI/SLO の追跡
    hako-console という内製の Web アプリケーションコンソールが
    あり、そこから SLI/SLO の Grafana ダッシュボードがリンクされ
    ている
    > Web アプリケーションを把握するためのコンソール
    > https://techlife.cookpad.com/entry/2018/04/02/140846

    View Slide

  5. hako-console

    View Slide

  6. SLI/SLO dashboard for each service

    View Slide

  7. SLI/SLO services list

    View Slide

  8. 一方その頃マートでは(導入動機)
    2020年、急成長するマート側からの要請もあり、@hfm は
    embedded SRE としてマート中心に活動していた。
    急成長に伴い、障害やアラートが目立つようになり、サービスの
    信頼性に関する共通認識の曖昧さに課題を感じた。
    「マートはいま大丈夫なの?やばいの?」を測るモノサシとして
    SLI/SLO が使えると思い、導入を進めた。

    View Slide

  9. playback: 2020年のクックパッドの SLI/SLO
    2つの課題:
    1. SRE チームが信頼性指標を確立・追跡できていない
    2. 開発・SRE 間で信頼性の共通認識(合意形成)が曖昧
    結果的に 2 をマートで先行していくことになった。

    View Slide

  10. SLI/SLO の提案、議論、策定
    Google Docs に SLI/SLO の草案を作り、開発リーダーや事業
    責任者にレビューしてもらい、合意を得た。
    トラッキングすべき SLI/SLO の策定や、エラーバジェットポリ
    シー、障害ポリシー、エスカレーションポリシーなど継続的な運
    用をするためのポリシーも提案に含まれる。
    ● https://sre.google/workbook/slo-document/
    ● https://sre.google/workbook/error-budget-policy/

    View Slide

  11. 提案ドキュメント

    View Slide

  12. マートの SLI/SLO ダッシュボード

    View Slide

  13. マートにおける SLI/SLO の運用
    定期的な SLI/SLO の確認は SRE チームでも行っている。
    また、マートチームでも自分たちで定期的に確認しており、また
    違反時における信頼性の回復活動も自分たちで行えている。

    View Slide

  14. ここまでのまとめと所感
    マートの急成長に伴い、信頼性の共通認識を構築する必要を
    感じたことから、SLI/SLO を提案・導入し、信頼性のトラッキング
    を始めた。
    数値 (SLI/SLO) に加え、運用に関する各種ポリシーに大きな価
    値を感じている。「SLO 違反時に、誰がいつ何をすべきか」をあ
    らかじめ取り決めることで、SRE チームからスケールアウトして
    運用が続けられている。

    View Slide

  15. 展望:レシピサービスへの SLI/SLO 導入
    現在、レシピサービスでも信頼性に対する課題が生じており、
    SLI/SLO の導入を進めている。大きなサービスなので巻き込む
    べき人も多く、大変だがやりがいは大きい。
    また、アラーティングが整備しきれておらず、もっといい感じに
    SLI/SLO をトラッキングできる環境を用意して、開発側に提供し
    ていきたい。

    View Slide

  16. We are hiring
    https://cookpad.jobs

    View Slide