Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥

SRE study group 3rd slide

SRE study group 3rd slide

Avatar for Korenaga Makoto

Korenaga Makoto

May 01, 2020
Tweet

More Decks by Korenaga Makoto

Other Decks in Technology

Transcript

  1. ゚ラヌバゞェットの掻甚‚ ゚ラヌバゞェットの圢成‚ ゚ラヌバゞェットずぱラヌに察する予算のこず SLO(Service Level Objective)に基づく四半期の゚ラヌバゞェットを芏定 ‹ • PdMがSLOを芏定 =

    四半期内に期埅されるサヌビスの皌働時間蚭定 ‹ • 実皌働時間は、䞭立な第䞉者であるモニタリングシステムによっお蚈枬 ‹ • 䞊蚘2぀の差異が、その四半期内の損倱可胜な信頌性ずいう予算残分ずなる ‹ • 蚈枬された皌働時間がSLOを超えおいる(゚ラヌバゞェットが残っおいる)なら新しいリリヌスをプッシュ できる‚
  2. サヌビスレベルに関する甚語‚ • サヌビスレベルアグリヌメント(Service Level Agreements,SLA)‹ ナヌザヌずの間で結ぶ明瀺的あるいは暗黙の契玄 ‹ SLOを満たせなかった堎合は払い戻しやペナルティなど ‹ •

    サヌビスレベル目暙(Service Level Objectives,SLO)‹ SLI ≀ タヌゲット もしくは 例限 ≀ SLI ≀ 侊限‹ • サヌビスレベル指暙(Service Level Indicators,SLI)‹ リク゚ストのレむテンシヌ、゚ラヌ率、システムスルヌプット、可甚性 ‹
  3. 指暙の実際‚ • 暙準化‚ 䟋‚ ◩ 集蚈のむンタヌバル: 「集蚈時間は1分ずする」 ‹ ◩ 集蚈の察象領域:

    「クラスタ内のすべおのタスク」 ‹ ◩ 蚈枬の頻床: 「10秒ごず」 ‹ ◩ 察象ずなるリク゚スト: 「ブラックボックスモニタリングゞョブからのHTTP GET」 ‹ ◩ デヌタの取埗方法: 「モニタリングシステムを通じお、サヌバヌで蚈枬」 ‹ ◩ デヌタアクセスのレむテンシヌ: 「最埌のバむトたでの時間」 ‹
  4. 目暙の実際‚ • 定矩‚ 蚈枬方法ず蚈枬倀が適性である条件を指定するべき ‹ 䟋GETリク゚スト呌び出しの 99%が100ミリ秒以䞋で完了するこず ‹ • タヌゲットの遞択‚

    ◩ 珟圚のパフォヌマンスに基づいおタヌゲットを遞択しおはならない ‹ ◩ シンプルさを保぀‚ ◩ 「絶察」は避ける‚ ◩ SLOは最小限にずどめる ‹ ◩ 最初から完璧でなくおもよい ‹
  5. 目暙の実際‚ • 蚈枬倀のコントロヌル‚ ◩ システムのSLIモニタリングず蚈枬を行う ‹ ◩ SLOに察しおSLIを比范し、アクションが必芁か刀断する ‹ ◩

    アクションが必芁な堎合、 改善点を明らかにし改善行動を取る ‹ • SLOによる期埅の蚭定‚ ◩ 安党マヌゞンを確保する ‹ 公開しおいるSLOより内郚的なSLOを厳しくしおおく ‹ ◩ 過剰達成を避ける‚ 高可甚性に䟝存した蚭蚈ずなり過床に䟝存されるこずを避ける為 ‹ ‹
  6. ゚ンゞニアリングであるための条件‚ 兞型的なSREの掻動 • ゜フトりェア゚ンゞニアリング • システム゚ンゞニアリング • トむル • オヌバヌヘッド

    四半期あるいは1幎を通しお平均で50%以䞊゚ンゞニアリングの䜜業に圓おられな かった堎合は䜕が問題なのか把握し改善が必芁
  7. 定矩‚ • アラヌト 人間に読たれるこずを意図した通知。 チケット、メヌルアラヌト、ペヌゞに分類。 • 根本原因 ゜フトりェアの欠陥やヒュヌマン゚ラヌで、修正されれば同じこずが同様に発生しないず確信できるも のを指す。 •

    ノヌドずマシン 物理サヌバヌ、仮想マシン、コンテナ内で動䜜しおいるカヌネルの 1぀のむンスタンスを瀺す。 • プッシュ サヌビス動䜜䞭の゜フトりェア、あるいはその蚭定に察する倉曎。
  8. モニタリングの必芁性‚ • 長期的なトレンドの分析 デヌタベヌスの䜙裕や DAUの増加ペヌスなど • 時間や実隓グルヌプ間での比范 どちらのク゚リの高速か、 memcacheのヒット率はなど •

    アラヌト • ダッシュボヌドの構築 • アドホックな振り返り分析の進行デバッギングなど レむテンシヌが急䞊昇したが、他に䜕か同時期に生じおいるこずがないか
  9. モニタリングやアラヌトでの確認点‚ • ルヌルが怜出する状況は、 そのルヌルなしで怜出されない 状況で、緊急察応が可胜で珟時点あるい は近い将来にナヌザヌに圱響を及がすか • そのアラヌトが無害なものだず刀断しお察応せずにできるものか (どのような時に、どのような理由で無芖できるか )

    • そのアラヌトが間違いなくナヌザヌに悪圱響を及がしおいるか (トラフィックのドレむン枈やテスト甚のデプロむなど陀倖すべきケヌスは ) • そのアラヌトに察応しおアクションが取れるか そのアクションは緊急か、翌朝たで埅぀こずができるか 安党に自動化できないかそのアクションの修正効果は短期的か長期的か • その問題でペヌゞを受ける人は他にもいるかその堎合少なくずもペヌゞの 1぀が䞍芁ではないか