Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
OpsJAWS Meetup21 システム運用アンチパターンのすすめ
Search
Ryo Yoshii
June 21, 2022
Technology
0
3.1k
OpsJAWS Meetup21 システム運用アンチパターンのすすめ
2022年6月21日 開催 Ops JAWS Meetup#21 で登壇した資料を公開します
Ryo Yoshii
June 21, 2022
Tweet
Share
More Decks by Ryo Yoshii
See All by Ryo Yoshii
Amazon Bedrock Agents と Chatbot で無敵のOpsになる
yoshiiryo1
1
100
組織横断型であるがゆえの楽しみと苦しみ
yoshiiryo1
4
1.1k
EC2 の運用と監視の基本をおさらい 「監視、バックアップ、操作」
yoshiiryo1
0
440
re:Invent2023 現地レポ& Cloud Operation サービス Update
yoshiiryo1
0
160
Amazon CloudWatch Application Signals(Preview) 徹底解説
yoshiiryo1
0
1.4k
増え続ける公開アプリケーションへの悪意あるアクセス_多層防御を取り入れるSRE活動_.pdf
yoshiiryo1
2
2.3k
OpsJAWS MEETUP25_みんなが幸せなインシデント管理
yoshiiryo1
0
1.1k
AWS Systems Manager Incident Manager で実現するインシデント管理
yoshiiryo1
0
1.6k
インシデント対応の成熟度とベストプラクティス
yoshiiryo1
0
1.7k
Other Decks in Technology
See All in Technology
統計データで2024年の クラウド・インフラ動向を眺める
ysknsid25
2
850
Fanstaの1年を大解剖! 一人SREはどこまでできるのか!?
syossan27
2
170
10個のフィルタをAXI4-Streamでつなげてみた
marsee101
0
170
プロダクト開発を加速させるためのQA文化の築き方 / How to build QA culture to accelerate product development
mii3king
1
270
How to be an AWS Community Builder | 君もAWS Community Builderになろう!〜2024 冬 CB募集直前対策編?!〜
coosuke
PRO
2
2.8k
Opcodeを読んでいたら何故かphp-srcを読んでいた話
murashotaro
0
270
継続的にアウトカムを生み出し ビジネスにつなげる、 戦略と運営に対するタイミーのQUEST(探求)
zigorou
0
590
NW-JAWS #14 re:Invent 2024(予選落ち含)で 発表された推しアップデートについて
nagisa53
0
270
第3回Snowflake女子会_LT登壇資料(合成データ)_Taro_CCCMK
tarotaro0129
0
200
DevFest 2024 Incheon / Songdo - Compose UI 조합 심화
wisemuji
0
110
Wantedly での Datadog 活用事例
bgpat
1
520
どちらを使う?GitHub or Azure DevOps Ver. 24H2
kkamegawa
0
850
Featured
See All Featured
Testing 201, or: Great Expectations
jmmastey
40
7.1k
Building Flexible Design Systems
yeseniaperezcruz
327
38k
The Cost Of JavaScript in 2023
addyosmani
45
7k
No one is an island. Learnings from fostering a developers community.
thoeni
19
3k
Reflections from 52 weeks, 52 projects
jeffersonlam
347
20k
ReactJS: Keep Simple. Everything can be a component!
pedronauck
665
120k
Building an army of robots
kneath
302
44k
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
28
4.4k
Site-Speed That Sticks
csswizardry
2
190
Java REST API Framework Comparison - PWX 2021
mraible
28
8.3k
Music & Morning Musume
bryan
46
6.2k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
247
1.3M
Transcript
OpsJAWS Meetup#21 システム運用アンチパターン のすすめ 2022-06-21 吉井 亮 1
自己紹介 吉井 亮 (Yoshii Ryo) 経歴: HWエンジニア → 中小SIer →
ERPコンサル → 現職(AWSパートナー) Twitter: @YoshiiRyo1 好きな言葉: no human labor is no human error 2
おすすめしたい システム運用アンチパターン ――エンジニアがDevOpsで解決する組織・自動化・コミュニケーション Jeffery D. Smith 著、田中 裕一 訳 2022年04月 発行 352ページ
https://www.oreilly.co.jp/books/9784873119847/ 3
本日の内容 『システム運用アンチパターン』を 紹介・抜粋しながら運用アンチパターンを 回避する策を考察します (Opsがメイン) 4
Let’s tweet #opsjaws #jawsug を付けながら 「あるある」「うちではこうだった」と つぶやいてもらえれば嬉しいです 5
『システム運用アンチパターン』対象読者 • 技術チームの運用担当 • 技術チームの開発担当 • これらのチームリーダーや一般エンジニア • 限られた権限しか持たない人を前提 6
『システム運用アンチパターン』の目次 1. DevOps を構成するもの 2. パターナリスト症候群 3. 盲目状態での運用 4. 情報ではなくデータ
5. 最後の味付けとしての品質 6. アラート疲れ 7 7. 空の道具箱 8. 業務時間外のデプロイ 9. せっかくのインシデント無駄に する 10. 情報のため込み 11. 命じられた文化 12. 多すぎる尺度
ベースとなる考え (CAMS) DevOps 文 化 自 動 化 メ ト
リ ク ス 共 有 8
ゲートキーパー 9
パターナリスト症候群 親子関係のように、強い立場にある者が 弱い立場に対して介入することを指す 例) 運用グループがシステム変更に対して 広範なレビュープロセスを実施する ❌ アンチパターン 10
パターナリスト症候群が進むと何がおきるか • 安全装置のはずの承認が障壁になる • 特定の人(達) だけが実行や承認をする → ゲートキーパー • ゲートキーパーと仕事するようになる
• 摩擦がおきる ❌ アンチパターン 11
自動化によりパターナリスト症候群の解消 手動プロセスをテクノロジーで自動化 🙅 承認は人間がするもの 🙅 12
承認の目的を把握 自動化するが承認の目的は果たす • 作業を継続するのに適切な状態である • 作業が発生していることを知らせる • アクションの衝突がない • 変更のリスクが許容できる範囲である
13
運用の自動化 14
自動化による改善 • 待ち時間 • 実行時間 • 実行頻度 • 実行のばらつき 15
自動化する • 自動化を文化とする • ツール開発運用をする人員の確保 • 手動での作業を良しとしない • 手動作業のコストを計算する •
自動化タスクに安全性を取り入れる 16
自動化に伴うリスクをプロット 低い 高い 高い [低リスク] 自動化 [中リスク] 処理の途中でユーザーに 確認を取るタイプの自動化 低い
[中リスク] 処理の途中でユーザーに 確認を取るタイプの自動化 [高リスク] 必要な情報は手動で 入力するタイプの自動化 間違えた場合の重大さ 自 信 の 度 合 い 17
デプロイの自動化 18
デプロイを日常的に行う • 正確な本番前環境 ◦ 違いが可能な限り少ない環境 ◦ コンテナ • 頻繁に行うことで恐怖心を減らす •
リスクを減らして恐怖心を減らす 19
デプロイ失敗への対応 • ロールバック可能なデプロイ ◦ Blue/Green, Canary, Rolling • アーティファクトの活用 •
破壊的変更は複数段階を経て 20
組織の文化 21
組織の文化 22 メインロビーに飾られているプレートではな く、具体的な形で存在しているべき 育て、発展させ、行動で示される
ピーター・ドラッカー 企業文化は戦略に勝る 23
文化とは あるグループの人々をほかのグループから 区別する、共有された価値観・習慣・信念 の集合体として定義される。 24
文化を根付かせるには? • 言葉による共有 • 物語による共有 • 習慣による共有 • 文化チーフ (文化的価値観を体現する人)
• 価値観を調べる • 文化に合った人材を見つける 25
開発・運用役割の変化 26
責任の変化 開発 → 自分たちが書いたコードが本番環境で どのように動くか詳細に理解 運用 → プロダクトの挙動を詳細に理解 27
AWS Well-Architected の話し 28 https://docs.aws.amazon.com/ja_jp/wellarchitected/latest/operational-excellence-pillar/fully-separated-operating-model.html
AWS Well-Architected の話し 29 https://docs.aws.amazon.com/ja_jp/wellarchitected/latest/operational-excellence-pillar/separated-aeo-and-ieo-with-centralized-governance-and-a-service-provider.html
ポストモーテム 30
インシデントの振り返りをしていますか? 31 • 責任のなすりあい • 自分は無実だと証明することに躍起 • 情報の壁 • 行動と人格
• トリプルチェックの導入 ❌ アンチパターン
良いポストモーテム • 非難のない文化 • システムの問題、プロセスの問題 • 24時間以内にポストモーテムを実施 • 今となっては明白でも同時はあいまい •
インシデントの全容解明が主目的 32
アクションアイテムの定義 • 可視化できていない箇所を可視化 • システムの可用性を向上させる • 誰がいつまでに何をするか ◦ 日常業務から離れることの理解 33
ポストモーテムのドキュメント化 • インシデントの詳細 • インシデントサマリー • インシデントウォークスルー • ポストモーテムの共有 34
アラートに疲れない 35
アラート基準 • Runbook を含める • 次の行動が可能である • タイムリー • 適切な優先順位付け
36
オンコールローテーション • 最初の連絡者(達)を定めたスケジュール • 1週間で交代 • アラートの重要度に合わせて通知手段を 変える (電話、Slack、メール等) 37
オンコールローテーションの配置 • 4人以上でローテーションを回す • プライマリ、セカンダリ • 精神的、肉体的負担への配慮 • 金銭的補償 •
代休 • 在宅対応 38
情報のため込み:ブレンドだけが知っている 39
情報のため込みを理解する 40 • 組織構造・インセンティブ・優先順位・ 価値観の組み合わせによって発生する • 意図的なためこみ • 意図しないためこみ
意図的なためこみ • ゲートキーパーになりたい 41
意図しないためこみ プロジェクトでは機能実装を優先した → ドキュメントは後回しになった → 落ち着いたと思ったら別プロジェクトへ 42
ドキュメント化 • 価値があるものはドキュメント化する • そうでなければ省略してもよい • 書くタイミング ◦ コード、インフラは陳腐化する •
抽象化 ◦ 要件、目的、他システム影響がある部分 43
ナレッジストアの構築 • ドキュメントを共有する • 検索しやすくする ◦ 階層化、タグ • 「ただ置く場所」にならないように •
習慣付け ◦ 学習~ドキュメント化~共有 44
情報のため込み方 • ストック ◦ ナレッジストア ◦ ブロク • フロー ◦
チャットツール ◦ SNS 45
最後に 46
おすすめしたい システム運用アンチパターン ――エンジニアがDevOpsで解決する組織・自動化・コミュニケーション Jeffery D. Smith 著、田中 裕一 訳 2022年04月 発行 352ページ
https://www.oreilly.co.jp/books/9784873119847/ 47
48 Thank you for your good ops.