Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
20200319-ssmjp_ResilienceEngineering
Search
w4yh
March 19, 2020
Technology
1.3k
5
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
20200319-ssmjp_ResilienceEngineering
w4yh
March 19, 2020
More Decks by w4yh
See All by w4yh
中(小)規模事業者のNTP運用担当としての悩みと成功体験 / 20230407 NTP Meeting LT2
w4yh
0
360
StackStormによるCloudSlang対応とはなにだったのか
w4yh
0
650
JKD18.12-2T2_Pharosでk8s環境を楽して割り切って作る / JKD1812_2T2_Pharos
w4yh
0
1.1k
20160913-IrecommendStackStormtoyou-w4yh
w4yh
3
3.1k
StackStorm
w4yh
1
540
StackStorm-qpstudy201604
w4yh
0
160
ChangeManagement
w4yh
0
170
Zohoを褒めたり叱ったり.pdf
w4yh
0
110
Other Decks in Technology
See All in Technology
Socrates × Looker 〜セマンティックレイヤーで進化するデータ分析エージェント〜
hanon52_
3
2.4k
Disciplined Vibes: Scaling AI-Assisted Engineering
sheharyar
0
150
Kiroで書いた 設計書 が AI レビューの 採点基準 になる
ezaki
0
110
On-behalf-of Token exchange with AgentCore Identity
hironobuiga
2
220
日本 Fintech 未来予測レポート 2027〜2028年(オリジナル版)
8maki
0
2.2k
AGENTS.mdとSkillsで始めるAIエージェント活用
sonoda_mj
3
220
2026 TECHFRESH 畢業分享會 - AI-Native 重塑軟體工程與虛擬講師
line_developers_tw
PRO
0
1.1k
中期計画、2回作ってみた ~業務委託と正社員、両方の視点から~
demaecan
1
890
2026TECHFRESH畢業分享會 - Lightning Talk - 資料也要 CI/CD? 用 Airbyte 自動化資料同步
line_developers_tw
PRO
0
1.1k
SONiCの統計情報を取得したい
sonic
0
180
日本 Fintech 未来予測レポート 2027〜2028年(手動編集版)
8maki
0
2.3k
AWS Security Agent といっしょに脅威モデリングをやってみよう
amarelo_n24
0
100
Featured
See All Featured
The Invisible Side of Design
smashingmag
302
52k
Improving Core Web Vitals using Speculation Rules API
sergeychernyshev
21
1.5k
Future Trends and Review - Lecture 12 - Web Technologies (1019888BNR)
signer
PRO
0
3.6k
Building Experiences: Design Systems, User Experience, and Full Site Editing
marktimemedia
0
530
Marketing to machines
jonoalderson
1
5.4k
Accessibility Awareness
sabderemane
1
140
DevOps and Value Stream Thinking: Enabling flow, efficiency and business value
helenjbeal
1
240
How to Think Like a Performance Engineer
csswizardry
28
2.7k
A Modern Web Designer's Workflow
chriscoyier
698
190k
Optimizing for Happiness
mojombo
378
71k
Data-driven link building: lessons from a $708K investment (BrightonSEO talk)
szymonslowik
1
1.1k
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
234
17k
Transcript
レジリエンス エンジニアリング を学んでいるが... ssmjp 202003 (2020/03/19) #ssmjp
Who am I? @w4yh 運用系インフラエンジニア よく使うツール: StackStorm / HabbleStack /
Kondate(itamae) / Expect / Zoho 資料は speakerdeck.com/w4yh/
TABLE OF CONTENTS 01. Safety-Ⅱ 02. レジリエンスエンジニアリング 03. 過去の記憶 04.
今の理解と新たな疑問
ACKNOWLEDGEMENT 今日話さない事 レジリエンスに関する以下のようなふわっと表現 「Kubernetesでmicroservicesやってるからレジリエント」 「松のような剛の強さではなく竹のような柔のしなやかな強さ」 おことわり 論説や出典は Elik Hollagel先生の書籍や論文に強く依拠 例えば“Seeking
SRE”にもResilienceに言及している章があるがご了承
背景 概念: Safety-Ⅱ 実践: レジリエンスエンジニアリング ツール/手法: RAG(レジリエンス評価グリッド)、 FRAM(機能共鳴解析手法) 実装: ?
ここまで到達したいというお気持ち
Safety-II Safety-Ⅱとは 「変化の激しい世の中に対応した安全管理」 IT業界で言えば仮想化,クラウド,コンテナの時に言ったであろう "ビジネスの変化に対応できるアジリティを備える“ 実践は”レジリエンス エンジニアリング” 状況が絶えず変化する環境において「完璧な手順書」は作成できない 出典: 「ヒューマンエラーと新しい安全マネージメント」
NHK視点・論点 2016/11/09放送分 (立教大学 芳賀教授(当時)) http://www.nhk.or.jp/kaisetsu-blog/400/256906.html
Safety-IとII Safety-Ⅰ(従来の考え方)との比較 Safety-Ⅰ Safety-Ⅱ 失敗に注目して要因をつぶす 成功に注目して成功を増やす 受動的な安全管理を不具合発覚 時に行う 先行的な対応で継続的に発展さ せる
パフォーマンスの変動は有害な ものでありできる限り防ぐ パフォーマンスの変動は必然で あり有用である。モニタリング して管理活用されるべき 出典: 「ヒューマンエラーと新しい安全マネージメント」 NHK視点・論点 2016/11/09放送分 (立教大学 芳賀教授(当時))
Safety-II システムと人の位置付け Safety-Ⅰ Safety-Ⅱ 人間の失敗がシステムを危険な 状態にする 人間の柔軟性が危険なシステム を安全に機能させている 事故の80-90%の原因は人間に ある
成功のほとんどにも人間が関与 している 出典: 「ヒューマンエラーと新しい安全マネージメント」 NHK視点・論点 2016/11/09放送分 (立教大学 芳賀教授(当時))
Safety-II Safety-Ⅱと自動化 Safety-Ⅱ Safety-Ⅰ 置き換えるものではなく Safety-Ⅰでカバーできない 領域をカバーするのが Safety-Ⅱ “人はミスをするから自動化” はSafety-Ⅰのみの視点
出典: 「ヒューマンエラーと新しい安全マネージメント」 NHK視点・論点 2016/11/09放送分 (立教大学 芳賀教授(当時))
レジリエンスエンジニアリング 実践: レジリエンスエンジニアリング 概念は分かってきたので実装につながるような実践の指針を会得したい 考え方: ・システムは本質的に危険なもの ・人間と組織の柔軟性(レジリエンス)がシステムを安全に機能させている ・失敗事例より成功事例 (日常の業務実態)に注意を向けるべし ・レジリエンスを高める方策が安全確保に重要
出典: 「ヒューマンエラーと新しい安全マネージメント」 NHK視点・論点 2016/11/09放送分 (立教大学 芳賀教授(当時))
レジリエンスエンジニアリング レジリエンスの評価軸 ・対処するポテンシャル ・監視するポテンシャル ・学習するポテンシャル ・予見するポテンシャル 出典: 「Safety-IIの実践」第4章 (海文堂 2019)
レジリエンスエンジニアリング 備えるべき特性 予見 注意 対処 何を予測 すべきか 知ってい る 何を監視
すべきか 知ってい る 何を するべきか 知っている 学習 更新 知識 技量 リソース 時間 出典: 「レジリエンスエンジニアリング」 p342 図E.1 (予見) (注意) (合理的対応) ダイナミックな進展 システム
レジリエンス この特性には見覚えがある
Clustering? 備えるべき特性 ・注意 ・予見 ・対処 クラスタリングソフトウェア ・定期的なヘルスチェック ・エラーにつながる メトリクスの傾向計測 ・切替処理スクリプト
“ レジリエンスエンジニアリングとは クラスタリングソフトウェアの カスタマイズ・チューニングのことである - w4yh
Clustering? ^H^H そんなまさか 「きちんと切り替わらなかった」 「スプリットブレインになった」 みたいなトラウマにまた遭遇しなければならないのか?
どこで間違えたのか “対処” クラスタリングソフトは基本的にActive/Standbyを入れ替えて 元と同じ状況へ復帰する固定的な対応 停止だけでなく劣化などにも対応して成功し続けるためのプロアク ティブな仕組みとは言えない..
どこで間違えたのか “予見” 既知を実装済にする -- リアクティブ(ex. 監視項目の追加) 未知を予見可能にする -- プロアクティブ(ex. 傾向分析)
リソース不足などに起因する劣化の場合、 切り替えるだけでは改善は見込めない..
どこで間違えたのか 「レジリエントなシステム」? “安全はシステムや組織が有しているものではなく、 システムや組織が実現するものである” “レジリエンスエンジニアリング” p339 (cf. 「ほとんどすべての設計というものは、設計しているシステムのあらゆる挙動 について、相対的に無知の状態で行われるものである。」 ”社会技術システムの安全分析”
海文堂 2013 / (“Design Paradigms” Cambridge University Press 1994) )
イマココ 現時点の仮説 監視やメトリクス計測によるシステムへの理解と洞察を深める ことが大事 Observability & Controllability Continuous Observability &
Feedback for Flexible Controllability
新たな疑問 ログ? 最近K8sのログ 管理に活気があ る印象。メトリ クスに加えてロ グもフィードバ ックに必要? 宣言的? 変化し続ける状
況へ対応する上 で”宣言的”な仕 組みの相性は良 いのか? カオス? 次スライドのツ イート
新たな疑問 QConLondon 2020 Day3 (2020/03/04) “Chaos and Resilience: Architecting for
Success”セッション “未知を既知にする” →カオスエンジニアリング! と思ったら牽制されたので これから勉強します...
レジリエンスを 学んでいるが 奥が深すぎる
まとめ “レジリエンスエンジニアリングと それを支える概念であるSafety-II について学んで理解を深めた” “レジリエンスを注意, 予見, 学習, 対処という4つの特性から視ること を学んだ。ちょっと勘違いもした” “瞬間や固定的なものではなく継続
的な学習フィードバックを伴う取り 組みで実現していくものではないか とレジリエンスを捉えるに至った”
CREDITS: This presentation template was created by Slidesgo, including icons
by Flaticon, and infographics & images by Freepik. Do you have any questions? @w4yh THANKS! Please keep this slide for attribution.
参考資料 書籍: • “レジリエンスエンジニアリング 概念と指針” 日科技連 2012 • "Safety-IIの実践 レジリエンスポテンシャルを強化す
る” 海文堂 2019 • "Safety-I & Safety-II 安全マネジメントの過去と未来” 海文堂 2015 • “社会技術システムの安全分析 -FRAMガイドブック“ 海 文堂 2013 Web: • NHK視点・論点 2016/11/09放送分「ヒューマンエラー と新しい安全マネージメント」 http://www.nhk.or.jp/kaisetsu-blog/400/256906.html • “本当は恐ろしい分散システムの話” https://www.slideshare.net/kumagi/ss-81368169 • ”分散システムについて語らせてくれ” https://www.slideshare.net/kumagi/ss-78765920 • nora_js さんのツイート https://twitter.com/nora_js/status/123521801765255 1683