Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
信頼性工学とは? ~カツオを題材に~
Search
Shuma
February 15, 2025
Technology
0
34
信頼性工学とは? ~カツオを題材に~
2025年2月15日(土)IT勉強会での発表LT
Shuma
February 15, 2025
Tweet
Share
More Decks by Shuma
See All by Shuma
バージョン管理と人生設計の類似点ver2 -リポジトリから学ぶ生きるヒント-
shubox
0
84
バージョン管理と人生設計の類似点
shubox
0
74
今年を振り返り、来年の抱負
shubox
0
140
インフラエンジニアが活きる組織、活きない組織って?
shubox
0
64
少し早いけど、今年を振り返ります。。
shubox
0
71
「それいけ!アンパンマン vs APIリクエスト:技術的勝利への道」
shubox
0
180
日本のうどん文化とチェーン店比較
shubox
0
140
カウンター越しの知識 ~HackBarで得た知見~
shubox
0
120
水戸黄門で学ぶカリー=ハワード同型対応
shubox
1
230
Other Decks in Technology
See All in Technology
CZII - CryoET Object Identification 参加振り返り・解法共有
tattaka
0
340
『衛星データ利用の方々にとって近いようで触れる機会のなさそうな小話 ~ 衛星搭載ソフトウェアと衛星運用ソフトウェア (実物) を動かしながらわいわいする編 ~』 @日本衛星データコミニティ勉強会
meltingrabbit
0
140
OpenID Connect for Identity Assurance の概要と翻訳版のご紹介 / 20250219-BizDay17-OIDC4IDA-Intro
oidfj
0
260
SA Night #2 FinatextのSA思想/SA Night #2 Finatext session
satoshiimai
1
140
2024.02.19 W&B AIエージェントLT会 / AIエージェントが業務を代行するための計画と実行 / Algomatic 宮脇
smiyawaki0820
12
2.9k
白金鉱業Meetup Vol.17_あるデータサイエンティストのデータマネジメントとの向き合い方
brainpadpr
5
600
Nekko Cloud、 これまでとこれから ~学生サークルが作る、 小さなクラウド
logica0419
2
950
一度 Expo の採用を断念したけど、 再度 Expo の導入を検討している話
ichiki1023
1
160
現場で役立つAPIデザイン
nagix
32
12k
データ資産をシームレスに伝達するためのイベント駆動型アーキテクチャ
kakehashi
PRO
2
510
【Developers Summit 2025】プロダクトエンジニアから学ぶ、 ユーザーにより高い価値を届ける技術
niwatakeru
2
1.3k
Classmethod AI Talks(CATs) #16 司会進行スライド(2025.02.12) / classmethod-ai-talks-aka-cats_moderator-slides_vol16_2025-02-12
shinyaa31
0
100
Featured
See All Featured
GraphQLとの向き合い方2022年版
quramy
44
13k
How STYLIGHT went responsive
nonsquared
98
5.4k
Writing Fast Ruby
sferik
628
61k
What’s in a name? Adding method to the madness
productmarketing
PRO
22
3.3k
We Have a Design System, Now What?
morganepeng
51
7.4k
The Straight Up "How To Draw Better" Workshop
denniskardys
232
140k
Visualization
eitanlees
146
15k
Embracing the Ebb and Flow
colly
84
4.6k
How to train your dragon (web standard)
notwaldorf
91
5.8k
Gamification - CAS2011
davidbonilla
80
5.1k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
45
9.4k
Into the Great Unknown - MozCon
thekraken
35
1.6k
Transcript
信頼性工学とは? ~磯野カツオを題材に~ @ShuShuShuBOOOx
自己紹介 名前:Shuma @ShuShuShuBOOOx 現職 • 自社開発企業でインフラエンジニア (開発も兼務) キャリア変遷 • 飲食店店長
→ スポーツバーでアルバイト → インフラエンジニア IT業界では二社目 ◦ 情シス、インフラ基盤、開発など担当 技術スタック • クラウド: AWS, Google Cloud Platform • 言語:PHP, (Laravel)Python • その他:Infrastructure as Code(Terraformの勉強中) ※障害対応や監視周りや原因調査がスキです。 一言:Genki.dev初参戦です。お手柔らかにお願いします。
アジェンダ 1.信頼性工学とは? 2.磯野カツオとは? 3.カツオを題材に信頼性を考える 4.まとめ
信頼性工学 とは? (公式wikiから引用) 製品やシステムが、与えられた条件下で、 ある一定期間、要求された機能を正常に果たす確率 を定量的に評価 し、 その信頼性を高めるための学問分野です。 ※JIS規格やISO規格の信頼性試験でも用いられる
なぜ信頼性工学が必要なのか? • 製品の品質向上: 製品が故障しにくいことで、顧客満足度向上やブランドイメージの向上につなが ります。 • コスト削減: 故障による修理や交換にかかるコストを削減できます。
• 安全性の確保: 特に航空機や医療機器など、安全性が重要な製品では、人命に関わるため信頼 性の確保が不可欠です。 • システムの安定稼働: 大規模なシステムでは、一部の部品が故障しても全体が停止しないような 冗長性を確保する必要があります。
カツオとは? 波平とフネの息子で、磯野家の長男。 主人公・フグ田サザエの弟、ワカメの兄。 マスオからは義弟、タラオからは叔父にあたる。 いたずらと遊びが大好きな好奇心旺盛の腕白少年で、しばしば父・波平にカミナリを落とされている磯野家一のトラブルメーカー 。 引用元:アニヲタWiki(仮) https://w.atwiki.jp/aniwotawiki/pages/54709.html#:~:text
カツオの「信頼性」とは? カツオの信頼性問題 • 予測不可能な行動:突然のいたずら、予想外の行動 • 失敗の繰り返し:宿題を忘れる、サザエに怒られる • 復旧力:素早く切り抜ける能力(サザエからの逃げ足) 工学的に見たカツオ •
MTBF(平均故障間隔):カツオが問題を起こすまでの間隔 • MTTR(平均修復時間):怒られてから仲直りするまでの時間 ※MTBF (平均故障間隔 ) は技術製品の修理可能な故障間の平均時間 ※MTTR(平均修復時間) 問題が発生(問題を最初に検知)した後、システムが再稼働し平常運用を再開するまでに要する時間の平均値
カツオの「故障モード」 カツオの"故障"パターン 1. 初期不良 ◦ 宿題を忘れる(計画の欠如) ◦ サザエの命令を無視(指示違反) 2. 経時劣化
◦ いたずらがエスカレート(コントロール不可能) ◦ 親に怒られる回数増加(信頼度低下)
カツオの信頼性評価 信頼性の指標 • いたずら頻度 :一定期間内の問題行動の回数 • 宿題の完了率 :期限内に宿題を終わらせる確率 • 逃げ足の速さ
:サザエに見つかってから逃げるまでの速度 データに基づく評価 • 故障予測:カツオが次に失敗するタイミングを予測 • 復旧力:失敗した後、どれだけ早く立ち直るか
信頼性設計 〜カツオの失敗を減らすには?〜 予防保全 • 時間管理の徹底 :宿題をやる時間をカレンダーに登録 • 目標設定:カツオに宿題の達成目標を設定する • 行動モニタリング
:いたずらを事前に察知し、対処 冗長化設計 • タラちゃんに監視を任せる :カツオが問題行動を起こさないよう、監視役を配置 • サザエの早期介入 :問題が起きる前に、サザエが未然に防ぐ
カツオの信頼性モニタリング 重要なメトリクス • サザエさんの怒る頻度 :怒られる回数を定量的に記録 • 宿題の提出率 :宿題を忘れた回数を追跡 • いたずら検出
:カツオがいたずらを開始する兆候を分析 モニタリング手法 • リアルタイムの監視 :カツオの行動パターンを分析し、問題が起こる前にアラート を出す • トレンド分析 :過去のデータをもとに、カツオの行動のトレンドを分析
信頼性向上策 〜カツオの改善策〜 技術的対策 • アラートシステム :カツオの問題行動を早期発見するための警告システム • 定期的なレビュー :カツオの宿題や行動を波平が週ごとに評価 社会的対策
• 家族全体での対応 :サザエや波平、フネやタラちゃんでのチーム連携 • 従業員(カツオ)の教育 :失敗から学ばせ、いたずらを減らすための教育
KRE(カツオ信頼性エンジニアリング)の応用 信頼性目標( SLI/SLO) • SLO設定:カツオのいたずらを月に3回以内に制限 • エラーバジェット :カツオが失敗できる余地を与え、適度に自由にさせる 自動化による信頼性向上 •
宿題リマインダーシステム :カツオに毎日宿題をリマインドするアプリ • 行動記録アプリ :カツオの行動パターンを記録し、次の問題行動を予測
まとめ:サザエさんのカツオと信頼性工学 重要な3要素 1. 予防的品質管理 :カツオが問題を起こさないよう、予防策を導入 2. データに基づく管理 :カツオの行動をデータでモニタリングし、失敗を防ぐ 3. システム的アプローチ
:カツオの信頼性を家族全体でサポートし、問題を 未然に防ぐ
本当のまとめ 最近、よくSREとかのミートアップやカンファレンスに行くのですが、 SREやDBREや信頼性に関してのロールとかがあったり 最近ではCREという言葉を聞いたりします。 ですが、その根底あるのが信頼性工学が根底にあります。
参考文献 工学としてのSRE再訪 / Revisiting SRE as Engineering - Speaker Deck
これからSREになる人と、これからもSREをやっていく人へ - Speaker Deck 信頼性工学 - Wikipedia ブログ | sreake.com | 株式会社スリーシェイク