Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
解消したはずが…技術と人間のエラーが交錯する恐怖体験
Search
Lamaglama39
July 29, 2025
Technology
370
0
Share
解消したはずが…技術と人間のエラーが交錯する恐怖体験
Lamaglama39
July 29, 2025
More Decks by Lamaglama39
See All by Lamaglama39
LT中にAWS Interconnect – multicloudでAWSとGoogle Cloudを繋げる
lamaglama39
0
280
「Managed Instances」と「durable functions」で広がるAWS Lambdaのユースケース
lamaglama39
0
740
AI × クラウドで シイタケの収穫時期を判定してみた
lamaglama39
1
740
Proxmox × HCP Terraformで始めるお家プライベートクラウド
lamaglama39
1
390
物体検出モデルでシイタケの収穫時期を自動判定してみた。 #devio2025
lamaglama39
0
480
Other Decks in Technology
See All in Technology
ハーネスエンジニアリングの概要と設計思想
sergicalsix
9
4.8k
インターネットの技術 / Internet technology
ks91
PRO
0
200
AI時代のガードレールとしてのAPIガバナンス
nagix
0
250
ぼくがかんがえたさいきょうのあうとぷっと
yama3133
0
190
AgentCore×VPCでの設計パターンn選と勘所
har1101
3
270
EarthCopilotに学ぶマルチエージェントオーケストレーション
nakasho
0
290
最初の一歩を踏み出せなかった私が、誰かの背中を押したいと思うようになるまで / give someone a push
mii3king
0
160
JEDAI in Osaka 2026イントロ
taka_aki
0
320
Bill One 開発エンジニア 紹介資料
sansan33
PRO
6
18k
Introduction to Sansan, inc / Sansan Global Development Center, Inc.
sansan33
PRO
0
3k
Contract One Engineering Unit 紹介資料
sansan33
PRO
0
16k
みんなの「データ活用」を支えるストレージ担当から持ち込むAWS活用/コミュニティー設計TIPS 10選~「作れる」より、「続けられる」設計へ~
yoshiki0705
0
240
Featured
See All Featured
Thoughts on Productivity
jonyablonski
76
5.1k
Building Adaptive Systems
keathley
44
3k
Conquering PDFs: document understanding beyond plain text
inesmontani
PRO
4
2.6k
State of Search Keynote: SEO is Dead Long Live SEO
ryanjones
0
180
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
31
3.2k
Public Speaking Without Barfing On Your Shoes - THAT 2023
reverentgeek
1
370
YesSQL, Process and Tooling at Scale
rocio
174
15k
The AI Revolution Will Not Be Monopolized: How open-source beats economies of scale, even for LLMs
inesmontani
PRO
3
3.4k
A Modern Web Designer's Workflow
chriscoyier
698
190k
Reflections from 52 weeks, 52 projects
jeffersonlam
356
21k
The Art of Programming - Codeland 2020
erikaheidi
57
14k
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
31
2.8k
Transcript
画像は Gemini 2.5 Flash で作成した サーバーのお化けです。
自己紹介 赤池 悠 (あかいけ はるか) 1998/07/29生まれ 所属:クラスメソッド株式会社 クラウド事業本部コンサルティング部 ブログ:https://dev.classmethod.jp/author/akaike/ Twitter:@lamaglama39
最近怖かった出来事: 自宅のProxmoxクラスターが突然めっちゃ不安定になっ て、私の心も不安定になりました。 (再起動したら直りました)
これは前職で私が 実際に経験したお話しです…。
私が担当していたシステム、および環境 • Direct Connectでの オンプレミス ↔ AWS 接続 • 複数システム共通VPC
+ AWSサービス別サブネット
その日私がやっていた作業 • 新規システム用のDirect Connect + AWSリソースの作成作業 • 人生初Direct Connectに胸を躍らせる
起きた事件。
それは唐突に起きました。 私が作業を完了させてから約 1時間後に既存のDirectConnectが突如ダウンし、 オンプレから既存システムへの通信がすべてダウン …。
それは唐突に起きました。 • 障害状況 ◦ 既存DirectConnectのステータスがダウン ◦ オンプレから既存システムへの疎通NG • 騒然とする現場 ◦
大量の障害検知に対応する運用部門 ◦ 各システムのアプリ担当者からの問い合わせ ◦ いつになく殺気立つPM (普段は仏) • 調査に駆り出される私 ◦ 直前でDirectConnectに関連する作業を実施していたため、逃れられない (別回線の作業だから俺は絶対関係ないだろ… と思いながら調査したのはここだけの秘密です。) ◦ AWSサポートにて電話しながらの調査実施
第1の障害原因 AWS Direct Connect ロケーション
第1の障害原因はなんだったのか。 「AWS Direct Connect ロケーション側の問題」により障害が発生していた。
無事解消するまでの話。 • AWSサポートとのやり取り ◦ 「AWS側での障害は確認していない」との回答 ◦ AWS上でそれらしい障害原因が見つからないため、 それ以上調査が進まない… • 回線事業者への問い合わせと連絡
◦ マネージャー陣によって別途回線事業者へ問い合わせ ◦ AWS Direct Connect ロケーション側で問題が発生していたことが判明 ◦ しばらくした後、Direct Connectのステータスがアップし、 回線事業者からも復旧の連絡があった ◦ オンプレから各システムへの疎通もOK
すべて解消した! そう思われていたが…。
障害はまだまだ終わらない…。 なぜか特定のサブネット上のリソースだけ、疎通が通らない …。
障害はまだまだ終わらない…。 • 障害状況 ◦ オンプレミスから特定のサブネットへの疎通だけ通らない ◦ それ以外のサブネットへは、正常に疎通できる • 疲弊し始める現場 ◦
ほっと一息ついた10分後には、おかわり障害対応 ◦ 困惑するPM • 引き続き調査に駆り出される私 ◦ これにより、ほぼまるまる1日の障害対応が確定 ◦ とりあえずネットワーク周りの設定から調査し始めた
第2の障害原因 ヒューマンエラー
第1の障害の裏側で起きていたこと。 エンジニア〇〇さんが、 新規システム向けにサブネットなどのリソースを作成していた。 (マネジメントコンソールから手動作業)
第1の障害の裏側で起きていたこと。 オンプレミス向けのRoute Tableは各サブネット共通で利用しており、 新規サブネットに関連づける際に、誤って既存のサブネットの関連付けを解除してしまった。
無事解消するまでの話。 • 調査方法 ◦ 問題のサブネットにルートテーブルが関連づけられていないことを確認 ◦ CloudTrail + Configにて、 該当のサブネットとルートテーブルの設定履歴を確認
• 解消方法 ◦ サブネットにルートテーブルを関連付け ◦ 無事疎通が通るようになり、障害解消
結論 人間が一番の単一障害点
どう対策するべきか。 • 作業プロセスの改善 ◦ 事前準備の強化 ▪ 作業前にシステム全体の依存関係を図式化し、影響範囲を明確化 ◦ 作業手順の標準化 ▪
チェックリスト形式の作業手順書を作成し、確認すべき項目を明文化 ▪ 重要な設定変更は、作業前後の状態を必ず記録
どう対策するべきか。 • 監視・検知体制の構築 ◦ 疎通確認の自動化 ▪ 各サブネットからオンプレミスへの疎通を定期的に自動チェック (スクリプト、Network Synthetic Monitorなど)
• 作業体制の見直し ◦ 複数人での相互確認 ▪ 重要なインフラ作業は必ず複数人でレビュー ▪ 設定変更前後の状態を相互確認する体制を作る ◦ 段階的作業とロールバック準備 ▪ 作業を小さな単位に分割し、各段階で動作確認を実施 ▪ 即座に元の状態に戻せるよう、作業前の設定を必ず保存
どう対策するべきか。 • 技術的な対策 ◦ Infrastructure as Code(IaC)の活用 ▪ TerraformなどのIaCを使用して設定を管理し、 手動での設定ミスを防止
▪ 変更履歴も自動的に管理 ◦ 作業時の権限の最小化 ▪ 作業に必要最小限の権限のみを付与 ▪ 重要な設定変更には承認フローを組み込む
ありがとうございました。 作業ミスに気をつけて、 用法用量を守って正しくAWSを利用しましょ う。