About Resilience2018.12.xx社内勉強会@nakamura_244
View Slide
”基本的に個人的な見解なのでその辺りはよろしくお願いします2
Resilienceという言葉が出てくる前1▹ クラウドが出てくる前、データセンターでのサーバ運用がメイン▹ そこでの運用思想は、ダウンタイム自体をなるべく発生させない▹ 安定して一瞬でも落とさずに長時間運用するかが指標▸ 冗長回線、冗長電源、。。。。とにかく冗長化が大好き▸ 今でも冗長化は出てくるけどね。ざっくり理解ですよ
Publicクラウドがメインになると2▹ クラウドベースになってもインフラ側の障害は致し方なく起きるし、少なからず影響を受ける▹ クラウドベンダー(=プロフェッショナル)が設計・運用しても障害はなくならない -> おそらく自社(中小規模)で設計運用しても障害はなくならない▹ だったら受けれてた設計をしよう!
Resilience3▹ 直訳すると回復性▹ 昨今のシステムでいうと障害からいち早く回復して稼働する▹ 逆にいうと障害はある程度致し方ない▹ 障害はありうるという事を受け入れた上でダウンタイムをいかに短くできるかという所がポイント▹ SLAで定めた稼働時間とかは逆に1ヶ月のうち何分は落としても良いという解釈の仕方▹ だからといって障害を回避する努力は怠ってはいけないよ。当然
対比4Failure-resilient … 障害耐性Failure-resistant … 故障耐性
”ちなみに私がResilienceを知った経緯7
私がResilienceという言葉との出会いは5▹ 2016年にやった社内勉強会でSREcon の内容をレポートしたのがきっかけ▹ PinterestのSERのセッションを聞いて知った