Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
信頼性工学とは? ~カツオを題材に~
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Shuma
February 15, 2025
Technology
130
0
Share
信頼性工学とは? ~カツオを題材に~
2025年2月15日(土)IT勉強会での発表LT
Shuma
February 15, 2025
More Decks by Shuma
See All by Shuma
AIの権限設定に悩んでいる話
shubox
0
36
インフラ深掘りLT
shubox
0
42
飲食店長から_SREになった話
shubox
0
27
Ansible で Vector を導入し Slack 通知とログレベル色分けまでした話
shubox
0
48
阿部寛のホームページをSRE観点で改善出来るか考えてみた。
shubox
0
130
一日の終わりに、晩酌しながら眺めたいシステムログの世界
shubox
0
120
プロダクトがクローズした話
shubox
0
120
今も熱いもの!魂を揺さぶる戦士の儀式:マオリ族のハカ
shubox
0
290
バージョン管理と人生設計の類似点ver2 -リポジトリから学ぶ生きるヒント-
shubox
0
310
Other Decks in Technology
See All in Technology
Gaussian Splattingの実用化 - 映像制作への展開
gpuunite_official
0
210
ECSのTerraformモジュールにコントリビュートした話
harukasakihara
0
260
TSKaigi 2026 - 型プラグインシステムの実装に使われるテクニック
teamlab
PRO
0
120
AI全盛の今だからこそ、あえてもう一度振り返るAPIの基礎
smt7174
3
140
Oracle AI Database@Google Cloud:サービス概要のご紹介
oracle4engineer
PRO
6
1.4k
10サービス以上のメール到達率改善を地道に継続的に進めている話 / Continue to improve email delivery rates across multiple services
yamaguchitk333
6
2.3k
続 運用改善、不都合な真実 〜 物理制約のない運用改善はほとんど無価値 / 20260518-ssmjp-kaizen-no-value-without-physical-constraints
opelab
2
280
最新技術を"今は選ばない"という技術選定
leveragestech
PRO
0
330
社内RAGの導入で気を付けたポイント
yakumo
1
130
AI-Assisted Contributions and Maintainer Load - PyCon US 2026
pauloxnet
1
190
AIコーディングエージェントの活用で、コードは静かに肥大化した
yosukeshinoda
0
120
AI Agent に“攻略本”を渡したら、150フォームの移行が回り始めた話/登壇資料(高橋 悟生)
hacobu
PRO
0
230
Featured
See All Featured
So, you think you're a good person
axbom
PRO
2
2k
DevOps and Value Stream Thinking: Enabling flow, efficiency and business value
helenjbeal
1
190
AI in Enterprises - Java and Open Source to the Rescue
ivargrimstad
0
1.3k
Writing Fast Ruby
sferik
630
63k
Lightning talk: Run Django tests with GitHub Actions
sabderemane
0
180
Mind Mapping
helmedeiros
PRO
1
190
It's Worth the Effort
3n
188
29k
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
234
17k
The SEO Collaboration Effect
kristinabergwall1
1
450
More Than Pixels: Becoming A User Experience Designer
marktimemedia
3
410
Fireside Chat
paigeccino
42
3.9k
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
32
3.1k
Transcript
信頼性工学とは? ~磯野カツオを題材に~ @ShuShuShuBOOOx
自己紹介 名前:Shuma @ShuShuShuBOOOx 現職 • 自社開発企業でインフラエンジニア (開発も兼務) キャリア変遷 • 飲食店店長
→ スポーツバーでアルバイト → インフラエンジニア IT業界では二社目 ◦ 情シス、インフラ基盤、開発など担当 技術スタック • クラウド: AWS, Google Cloud Platform • 言語:PHP, (Laravel)Python • その他:Infrastructure as Code(Terraformの勉強中) ※障害対応や監視周りや原因調査がスキです。 一言:Genki.dev初参戦です。お手柔らかにお願いします。
アジェンダ 1.信頼性工学とは? 2.磯野カツオとは? 3.カツオを題材に信頼性を考える 4.まとめ
信頼性工学 とは? (公式wikiから引用) 製品やシステムが、与えられた条件下で、 ある一定期間、要求された機能を正常に果たす確率 を定量的に評価 し、 その信頼性を高めるための学問分野です。 ※JIS規格やISO規格の信頼性試験でも用いられる
なぜ信頼性工学が必要なのか? • 製品の品質向上: 製品が故障しにくいことで、顧客満足度向上やブランドイメージの向上につなが ります。 • コスト削減: 故障による修理や交換にかかるコストを削減できます。
• 安全性の確保: 特に航空機や医療機器など、安全性が重要な製品では、人命に関わるため信頼 性の確保が不可欠です。 • システムの安定稼働: 大規模なシステムでは、一部の部品が故障しても全体が停止しないような 冗長性を確保する必要があります。
カツオとは? 波平とフネの息子で、磯野家の長男。 主人公・フグ田サザエの弟、ワカメの兄。 マスオからは義弟、タラオからは叔父にあたる。 いたずらと遊びが大好きな好奇心旺盛の腕白少年で、しばしば父・波平にカミナリを落とされている磯野家一のトラブルメーカー 。 引用元:アニヲタWiki(仮) https://w.atwiki.jp/aniwotawiki/pages/54709.html#:~:text
カツオの「信頼性」とは? カツオの信頼性問題 • 予測不可能な行動:突然のいたずら、予想外の行動 • 失敗の繰り返し:宿題を忘れる、サザエに怒られる • 復旧力:素早く切り抜ける能力(サザエからの逃げ足) 工学的に見たカツオ •
MTBF(平均故障間隔):カツオが問題を起こすまでの間隔 • MTTR(平均修復時間):怒られてから仲直りするまでの時間 ※MTBF (平均故障間隔 ) は技術製品の修理可能な故障間の平均時間 ※MTTR(平均修復時間) 問題が発生(問題を最初に検知)した後、システムが再稼働し平常運用を再開するまでに要する時間の平均値
カツオの「故障モード」 カツオの"故障"パターン 1. 初期不良 ◦ 宿題を忘れる(計画の欠如) ◦ サザエの命令を無視(指示違反) 2. 経時劣化
◦ いたずらがエスカレート(コントロール不可能) ◦ 親に怒られる回数増加(信頼度低下)
カツオの信頼性評価 信頼性の指標 • いたずら頻度 :一定期間内の問題行動の回数 • 宿題の完了率 :期限内に宿題を終わらせる確率 • 逃げ足の速さ
:サザエに見つかってから逃げるまでの速度 データに基づく評価 • 故障予測:カツオが次に失敗するタイミングを予測 • 復旧力:失敗した後、どれだけ早く立ち直るか
信頼性設計 〜カツオの失敗を減らすには?〜 予防保全 • 時間管理の徹底 :宿題をやる時間をカレンダーに登録 • 目標設定:カツオに宿題の達成目標を設定する • 行動モニタリング
:いたずらを事前に察知し、対処 冗長化設計 • タラちゃんに監視を任せる :カツオが問題行動を起こさないよう、監視役を配置 • サザエの早期介入 :問題が起きる前に、サザエが未然に防ぐ
カツオの信頼性モニタリング 重要なメトリクス • サザエさんの怒る頻度 :怒られる回数を定量的に記録 • 宿題の提出率 :宿題を忘れた回数を追跡 • いたずら検出
:カツオがいたずらを開始する兆候を分析 モニタリング手法 • リアルタイムの監視 :カツオの行動パターンを分析し、問題が起こる前にアラート を出す • トレンド分析 :過去のデータをもとに、カツオの行動のトレンドを分析
信頼性向上策 〜カツオの改善策〜 技術的対策 • アラートシステム :カツオの問題行動を早期発見するための警告システム • 定期的なレビュー :カツオの宿題や行動を波平が週ごとに評価 社会的対策
• 家族全体での対応 :サザエや波平、フネやタラちゃんでのチーム連携 • 従業員(カツオ)の教育 :失敗から学ばせ、いたずらを減らすための教育
KRE(カツオ信頼性エンジニアリング)の応用 信頼性目標( SLI/SLO) • SLO設定:カツオのいたずらを月に3回以内に制限 • エラーバジェット :カツオが失敗できる余地を与え、適度に自由にさせる 自動化による信頼性向上 •
宿題リマインダーシステム :カツオに毎日宿題をリマインドするアプリ • 行動記録アプリ :カツオの行動パターンを記録し、次の問題行動を予測
まとめ:サザエさんのカツオと信頼性工学 重要な3要素 1. 予防的品質管理 :カツオが問題を起こさないよう、予防策を導入 2. データに基づく管理 :カツオの行動をデータでモニタリングし、失敗を防ぐ 3. システム的アプローチ
:カツオの信頼性を家族全体でサポートし、問題を 未然に防ぐ
本当のまとめ 最近、よくSREとかのミートアップやカンファレンスに行くのですが、 SREやDBREや信頼性に関してのロールとかがあったり 最近ではCREという言葉を聞いたりします。 ですが、その根底あるのが信頼性工学が根底にあります。
参考文献 工学としてのSRE再訪 / Revisiting SRE as Engineering - Speaker Deck
これからSREになる人と、これからもSREをやっていく人へ - Speaker Deck 信頼性工学 - Wikipedia ブログ | sreake.com | 株式会社スリーシェイク