Slide 1

Slide 1 text

信頼性工学とは? ~磯野カツオを題材に~ @ShuShuShuBOOOx

Slide 2

Slide 2 text

自己紹介 名前:Shuma @ShuShuShuBOOOx 現職 ● 自社開発企業でインフラエンジニア (開発も兼務) キャリア変遷 ● 飲食店店長 → スポーツバーでアルバイト → インフラエンジニア  IT業界では二社目 ○ 情シス、インフラ基盤、開発など担当 技術スタック ● クラウド: AWS, Google Cloud Platform ● 言語:PHP, (Laravel)Python ● その他:Infrastructure as Code(Terraformの勉強中) ※障害対応や監視周りや原因調査がスキです。 一言:Genki.dev初参戦です。お手柔らかにお願いします。 


Slide 3

Slide 3 text

アジェンダ 1.信頼性工学とは? 2.磯野カツオとは? 3.カツオを題材に信頼性を考える 4.まとめ

Slide 4

Slide 4 text

信頼性工学 とは?            (公式wikiから引用) 製品やシステムが、与えられた条件下で、 
 ある一定期間、要求された機能を正常に果たす確率 を定量的に評価 し、
 その信頼性を高めるための学問分野です。
 
 ※JIS規格やISO規格の信頼性試験でも用いられる


Slide 5

Slide 5 text

なぜ信頼性工学が必要なのか? 
 ● 製品の品質向上: 製品が故障しにくいことで、顧客満足度向上やブランドイメージの向上につなが ります。
 ● コスト削減: 故障による修理や交換にかかるコストを削減できます。 
 ● 安全性の確保: 特に航空機や医療機器など、安全性が重要な製品では、人命に関わるため信頼 性の確保が不可欠です。 
 ● システムの安定稼働: 大規模なシステムでは、一部の部品が故障しても全体が停止しないような 冗長性を確保する必要があります。 


Slide 6

Slide 6 text

カツオとは? 波平とフネの息子で、磯野家の長男。 主人公・フグ田サザエの弟、ワカメの兄。 マスオからは義弟、タラオからは叔父にあたる。 いたずらと遊びが大好きな好奇心旺盛の腕白少年で、しばしば父・波平にカミナリを落とされている磯野家一のトラブルメーカー 。 引用元:アニヲタWiki(仮) https://w.atwiki.jp/aniwotawiki/pages/54709.html#:~:text

Slide 7

Slide 7 text

カツオの「信頼性」とは? カツオの信頼性問題 ● 予測不可能な行動:突然のいたずら、予想外の行動 ● 失敗の繰り返し:宿題を忘れる、サザエに怒られる ● 復旧力:素早く切り抜ける能力(サザエからの逃げ足) 工学的に見たカツオ ● MTBF(平均故障間隔):カツオが問題を起こすまでの間隔 ● MTTR(平均修復時間):怒られてから仲直りするまでの時間 ※MTBF (平均故障間隔 ) は技術製品の修理可能な故障間の平均時間 ※MTTR(平均修復時間) 問題が発生(問題を最初に検知)した後、システムが再稼働し平常運用を再開するまでに要する時間の平均値

Slide 8

Slide 8 text

カツオの「故障モード」 カツオの"故障"パターン 1. 初期不良 ○ 宿題を忘れる(計画の欠如) ○ サザエの命令を無視(指示違反) 2. 経時劣化 ○ いたずらがエスカレート(コントロール不可能) ○ 親に怒られる回数増加(信頼度低下)

Slide 9

Slide 9 text

カツオの信頼性評価 信頼性の指標 ● いたずら頻度 :一定期間内の問題行動の回数 ● 宿題の完了率 :期限内に宿題を終わらせる確率 ● 逃げ足の速さ :サザエに見つかってから逃げるまでの速度 データに基づく評価 ● 故障予測:カツオが次に失敗するタイミングを予測 ● 復旧力:失敗した後、どれだけ早く立ち直るか

Slide 10

Slide 10 text

信頼性設計 〜カツオの失敗を減らすには?〜 予防保全 ● 時間管理の徹底 :宿題をやる時間をカレンダーに登録 ● 目標設定:カツオに宿題の達成目標を設定する ● 行動モニタリング :いたずらを事前に察知し、対処 冗長化設計 ● タラちゃんに監視を任せる :カツオが問題行動を起こさないよう、監視役を配置 ● サザエの早期介入 :問題が起きる前に、サザエが未然に防ぐ

Slide 11

Slide 11 text

カツオの信頼性モニタリング 重要なメトリクス ● サザエさんの怒る頻度 :怒られる回数を定量的に記録 ● 宿題の提出率 :宿題を忘れた回数を追跡 ● いたずら検出 :カツオがいたずらを開始する兆候を分析 モニタリング手法 ● リアルタイムの監視 :カツオの行動パターンを分析し、問題が起こる前にアラート を出す ● トレンド分析 :過去のデータをもとに、カツオの行動のトレンドを分析

Slide 12

Slide 12 text

信頼性向上策 〜カツオの改善策〜 技術的対策 ● アラートシステム :カツオの問題行動を早期発見するための警告システム ● 定期的なレビュー :カツオの宿題や行動を波平が週ごとに評価 社会的対策 ● 家族全体での対応 :サザエや波平、フネやタラちゃんでのチーム連携 ● 従業員(カツオ)の教育 :失敗から学ばせ、いたずらを減らすための教育

Slide 13

Slide 13 text

KRE(カツオ信頼性エンジニアリング)の応用 信頼性目標( SLI/SLO) ● SLO設定:カツオのいたずらを月に3回以内に制限 ● エラーバジェット :カツオが失敗できる余地を与え、適度に自由にさせる 自動化による信頼性向上 ● 宿題リマインダーシステム :カツオに毎日宿題をリマインドするアプリ ● 行動記録アプリ :カツオの行動パターンを記録し、次の問題行動を予測

Slide 14

Slide 14 text

まとめ:サザエさんのカツオと信頼性工学 重要な3要素 1. 予防的品質管理 :カツオが問題を起こさないよう、予防策を導入 2. データに基づく管理 :カツオの行動をデータでモニタリングし、失敗を防ぐ 3. システム的アプローチ :カツオの信頼性を家族全体でサポートし、問題を 未然に防ぐ

Slide 15

Slide 15 text

本当のまとめ 最近、よくSREとかのミートアップやカンファレンスに行くのですが、 SREやDBREや信頼性に関してのロールとかがあったり 最近ではCREという言葉を聞いたりします。 ですが、その根底あるのが信頼性工学が根底にあります。

Slide 16

Slide 16 text

参考文献 工学としてのSRE再訪 / Revisiting SRE as Engineering - Speaker Deck これからSREになる人と、これからもSREをやっていく人へ - Speaker Deck 信頼性工学 - Wikipedia ブログ | sreake.com | 株式会社スリーシェイク