$30 off During Our Annual Pro Sale. View Details »

”信頼性”の使い方

grimoh
August 23, 2023

 ”信頼性”の使い方

grimoh

August 23, 2023
Tweet

More Decks by grimoh

Other Decks in Technology

Transcript

  1. “信頼性”の使い方
    2023年8月23日 すごい広島535 with Unity & IT系の濃ゆい話をする会 LT
    Wataru Tsuda / gr1m0h

    View Slide

  2. whoami
    Wataru Tsuda / gr1m0h
    SRE @ Luup,inc.
    SRE Lounge / SRE NEXT 運営メンバー
    Platform Engineering Meetup 運営メンバー
    SRE NEXT 2023 Chair

    View Slide

  3. “信頼性”とは
    「[システムが]求められる機能を、定められた条件の下で、定められた期間
    にわたり、障害を起こすことなく実行する確率」
    P.O’Connor and A.Kleyner, Practical Reliability Engineering, 5th edition: Wiley, 2012.
    https://sre.google/sre-book/preface/#id-gA2u2Iyh4
    システムが予期した機能を提供し、約束された条件で動作すること
    システムが安全なデータ保管方法を使用し、データ漏洩のリスクを最小限に
    抑えていること

    View Slide

  4. “信頼性”とは
    人を選ぶ時は“信頼”が必要
    サービスを選ぶ時も”信頼”が必要(信頼性)
    信頼できるかは”期待に応えられるか”がある
    期待値

    View Slide

  5. “信頼性”の辛さ
    ● コストがかかる
    ○ 100%に近づけるためにコストがどんどん跳ね上がる
    ○ 直線ではなく急な曲線を描いて増加していく
    ● 100%は不可能
    ○ 世の中に完全なものはない....よく言われるやつ
    ○ (実際100%は不要です)
    ● 「非機能」「守り」的アプローチなので「機能」開発と反する
    ○ 機能開発してリリースしてユーザーに価値を届けたい by 開発者vs 機
    能開発のスピードを落として障害を起こさないようにしたい by 運用者

    View Slide

  6. “信頼性”の辛さ
    ● コストがかかる
    ○ 100%に近づけるためにコストがどんどん跳ね上がる
    ○ 直線ではなく急な曲線を描いて増加していく
    ● 100%は不可能
    ○ 世の中に完全なものはない....よく言われるやつ
    ○ (実際100%は不要です)
    ● 「非機能」「守り」的アプローチなので「機能」開発と反する
    ○ 機能開発してリリースしてユーザーに価値を届けたい by 開発者vs 機
    能開発のスピードを落として障害を起こさないようにしたい by 運用者
    ”信頼性”をコントロールする必要がある!

    View Slide

  7. “信頼性工学”を実践する!
    信頼性工学 = SRE:Site Reliability Enginnering
    SREとは?
    ● 本番環境を信頼性高く開発/運用していくための一連の手法/考え方
    ● class SRE implements DevOps
    信頼性のコントロールのためにSREが必要
    = 開発チームが信頼性という観点を獲得するためにSREが必要

    View Slide

  8. “信頼性工学”を実践する!
    信頼性工学 = SRE:Site Reliability Enginnering
    SREとは?
    ● 本番環境を信頼性高く開発/運用していくための一連の手法/考え方
    ● class SRE implements DevOps
    信頼性のコントロールのためにSREが必要
    = 開発チームが信頼性という観点を獲得するためにSREが必要
    ”SRE”をどうやって活用すれば、
    信頼性をコントロールできるのか?

    View Slide

  9. “信頼性指標”を使う!
    信頼性指標 = SLI:Service Level Indicator
    SLIとは?
    ● 信頼性をメトリクスにできる形で測定する
    ● 数値にすることで意思決定が容易になる
    ○ 目標を設定してそれを達成しているかどうか(よくやるやつ
    SLIの目標値(SLO)

    View Slide

  10. SLI/SLOを使うことで....
    ● “サービスがユーザーの期待値に答えているか” を測定し、定量的な判断を
    可能にする
    ● 監視をSLI/SLOベースにすると、アラートを常にアクショナブルなものにできる
    ● SLI/SLOを組織全体の意思決定指標として活用することができる

    View Slide

  11. さいごに

    View Slide

  12. whoami
    Wataru Tsuda / gr1m0h
    SRE @ Luup,inc.
    SRE Lounge / SRE NEXT 運営メンバー
    Platform Engineering Meetup 運営メンバー
    SRE NEXT 2023 Chair

    View Slide

  13. whoami
    Wataru Tsuda / gr1m0h
    SRE @ Luup,inc.
    SRE Lounge / SRE NEXT 運営メンバー
    Platform Engineering Meetup 運営メンバー
    SRE NEXT 2023 Chair
    ロール(役割)としてのSREは信頼性工学の専門家という立場
    SREを実践、活用していくのは開発組織全体!会社全体!

    View Slide