「責任ある開発」を！フルサービスオーナーシップが変えるエンジニアリング文化

「責任ある開発」を！フルサービスオーナーシップが変えるエンジニアリング文化 PagerDuty - Product Evangelist Kazuto Kusama @jacopen

Kazuto Kusama @jacopen Product Evangelist @PagerDuty Japan Organizer @Platform Engineering
Meetup 代表理事 @一般社団法人クラウドネイティブイノベーターズ協会 Organizer @CloudNative Days

システムの安定稼働が至上命題にシステム障害＝ IT部門が対処すべき課題からシステム障害＝経営リスクへ出典：日経クロステック（
2024/5/13） https://xtech.nikkei.com/atcl/nxt/column/18/01157/050900110/ 出典：朝日新聞（ 2024/6/25） https://www.asahi.com/articles/ASS6T32FPS6TUCVL00TM.html 出典：ITmediaエンタープライズ（ 2024/4/8） https://www.itmedia.co.jp/enterprise/articles/2404/08/news046.html 社会的信頼の失墜利益の逸失取引先への影響 2024年に入り、大きなインシデントが立て続けに発表されていますね

1時間時間 $100K $250K インシデントがもたらす財務的影響一説によると1時間の計画外ダウンにより平均1600万円〜4000万円の損害が発生すると言われている

システム化の拡大と、テクノロジーの高度化により、問題解決に要する時間と対応コストが大幅に増大システム停止がビジネス収益の低下と、顧客からの信頼失墜に直結しかねないレガシーシステムや継ぎ足しで拡大してきた巨大システムが問題を複雑化
システム運用を取り巻く現状多くの組織が直面する運用課題：いかにシステム障害発生時のダウンタイムを削減するか（システム障害の件数を減らすことはできるが、ゼロにすることはできない）

フルサービスオーナーシップとは「コードを書いた者が、その責任を負う」 • 設計と実装の点から見て、テクノロジーに最も精通した人が製品開発ライフサイクル全体の責任を引き受ける運用モデル • 本番環境において自分が書いたコードの責任を負うよう、最もシンプルな形でエンジニアに権限を与える
• “You build it, you run it.” Werner Vogels - VP & CTO of Amazon フルサービスオーナーシップという言い回しは PagerDutyが好んで使っていますが、ほぼ同じ考えの “You build it, you run it”は他の場所でもよく聞きますね

製品開発ライフサイクル Build Test Ship Run Dev Ops かつてはライフサイクルの中で Devと Opsに分かれていました

製品開発ライフサイクル Build Test Ship Run Dev Ops 2009年にDevOpsが提唱されて以降、その境界は曖昧になっています。ですが、依然として Dev担当、Ops担当というチーム分けは残って
いる組織が多いです。

障害のほとんどはデプロイによって引き起こされる “障害のほとんどはデプロイによって引き起こされる。したがって、デプロイが増えると障害も増え、結果としてインシデント管理、軽減策、ポストモーテムが必要となる ” エレガントパズル　エンジニアのマネジメントという難問にあなたはどう立ち向かうのかより引用しかし、最近日本語版が出たこの本には、こんな一説がありました。

製品開発ライフサイクル Build Test Ship Run Dev Ops デプロイによって問題が起きるのであれば、その原因はDev側にあることが多いです。でも、問題を最初に検知するのは
Ops側。つまり、左側とコミュニケーションしながら対応にあたる必要がある。

フルサービスオーナーシップ Build Test Ship Run でもコミュニケーションは時間がかかる。であれば、特定の人が開発からデプロイまで全部コントロール出来るようになれば話が早い

真のDevOpsをやっていこうという話 Dev Ops Conﬁgure Verify Package Plan Monitor Release Create
Plan

“コードに責任を持つ ” メリット • 自分のコードに責任を持つ開発者は、エンドユーザーエクスペリエンスにより大きな影響を及ぼす • 開発者は自分の仕事が顧客だけでなく、ビジネスにも与える影響をよりよく知ることができる •
開発者にとってモチベーションを高めるだけでなく、修正やアップデートのスピードアップにもつながる。 • 二次情報やサポートチケットに頼るのではなく、自分自身で問題を確認できる

“コードに責任を持つ ” メリット • 品質管理のループが生まれる • 夜中3時に好んで叩き起こされたい人はいない • 本番環境での責任を果たすため、運用品質を向上させようというモチベーションに繋がる
• 組織構造ではなく、提供するものに集中できる • 責任者が誰なのかが明確となる • 組織の変化に対応していく仕組みが出来る

“コードに責任を持つ ” メリット • MTTR（平均修復時間）削減につながる • 開発者は不具合の修正に最も適した人材 • 不具合の際には、開発者がラインの先頭に立つ •
コードの責任者が明確なら、より少ないメンバーで問題のトラブルシューティングに対応できる • 300人規模のオンライン会議で、コードを最後に修正したのは誰かをトラブルシューティングするような状況から決別できる

理想現実これまでは理想について語ってきました

そんな簡単にできるものじゃない • 『作った本人が全部やった方が早い』 • それはそう • これだけだと、単に分業を否定しているだけになる • 「専門分野」を活かすことにメリットがあるから、分業が存在するここまでの話を単純に捉えると、分業はダメだから
1人で全部やろうぜって話に聞こえてしまうかも。でも、別に分業がダメと言ってるわけじゃないんです。分業には明確なメリットがある。分業を唱えた18世紀のアダム・スミスに物申したい訳ではない。

認知負荷オンコールここでフルサービスオーナーシップを実践するにあたって課題となりやすいこの二つについて説明します。

真のDevOps 開発者が、アプリをエンドツーエンドでデプロイし、実行するただし、多くの組織にとって現実的ではない Kubernetes Buildkit Helm Dockerﬁle Grafana Prometheus GitHub
Actions React Next.js Security Node.js Terraform ArgoCD APM Compliance 認知負荷が高すぎるこれをやり切れる人材は少ない

認知負荷の増大 https://www.infoq.com/articles/platform-engineering-primer/ より引用 2014年にクラウドネイティブ技術が登場して以降、開発者の認知負荷は右肩上がりです。

よくあるアンチパターン https://web.devopstopologies.com/#anti-types より引用 Ops Embedded in Dev Team DevとOpsのサイロ化を防ごうとした結果、 Devチームの中
にOpsを担う人材を抱えるようになる多くの場合、幅広い知見を持つ、チームの中でもっとも価値のあるエンジニアがシャドーオペレーションを行う形になる結果として、チームの能力を最大限に発揮することができなくなる

DevとOpsというチーム分け Build Test Ship Run Dev Ops そもそものDevとOpsというチーム分け自体を考え直す必要がありそうです。

Team Topologies 価値のあるソフトウェアを素早く届けられるようにするための組織設計。 4タイプのチーム定義と、3つのインタラクションモードが定義されている。そこで是非読んで欲しいのが Team Topologies

Team Topologies Stream-aligned team 価値のある単一の仕事のストリームに沿って働くチーム ※ストリーム=ビジネスドメインや組織の能力に沿った仕事の継続的な流れ “サービスチーム(内部での呼称)は職能横断型で、サービスの管理、仕様決定、設計、開発、テスト、運用 (インフラストラク
チャーのプロビジョニング、顧客サーポートを含む )を自分で行える能力を持っていなければいけない。必要な能力は個人に割り当てられるわけではなく、チーム全体として必要な能力を備えていればよい。それぞれのチームメンバーに専門分野があるが、専門分野以外でもチームに貢献する。 ” チームトポロジー　価値あるソフトウェアをすばやく届ける適応型組織設計　より引用このStream-aligned teamは、フルサービスオーナーシップ

Team Topologies ストリームアラインドチームが自律的に仕事を届けられるようにするチーム。プラットフォームチームが提供するゴールデンパスに沿ってもらうことで、認知負荷を軽減し生産性を高める。 “ストリームアラインドチームは本番環境のアプリケーションの開発、運用、修正を含む全体のオーナーシップを持つ。プラットフォームチームは、内部サービスを提供することで、ストリームアラインドチームが下位のサービスを開発する必要性をなくし、認知負荷を下げる
” チームトポロジー　価値あるソフトウェアをすばやく届ける適応型組織設計　より引用 Platform Team

Internal Developer Platform プラットフォームチームによって構築される、開発者のセルフサービスによる利用を可能にする基盤。さまざまな技術やツールによって構成され、コンテキストや基礎となる技術を抽象化することなく、開発者の認知負荷を軽減していく Kubernetes Buildkit Helm
Dockerﬁle Grafana Prometheus GitHub Actions Security Terraform ArgoCD APM Compliance IDP Developer Platform Team self service

認知負荷を低く、生産性を高めるプラットフォーム • クラウドネイティブな自動化基盤作りを、開発者自身が担うことによる認知負荷の高まりが問題になりつつある • 仕組み作りを担うPlatform Teamと協力し、認知負荷を高めずにクラウドネイティブ技術を取り込んでいく • Platform
Engineeringという分野が発展中

抽象化した機能の提供 Platform Engineering https://tag-app-delivery.cncf.io/whitepapers/platforms/ より和訳ストリームアラインドチームプラットフォームチームインターフェース提供機能ドキュメント
GUI (ポータル) プロジェクトテンプレート APIとCLI 環境とリソースの提供インフラリソースデータ保管メッセージング ID管理と認証 CI/CD サービス連携成果物管理セキュリティ可観測性

Team TopologiesとPlatform Engineeringを知るなら 7/9に開催したPlatform Engineering Kaigiというカンファレンスで、Team Topologiesの著者であるManuel Pais氏を招聘し、語ってもらいました。
YouTubeでアーカイブ視聴可能です。 “Platform Engineering Kaigi 2024” で検索して探すか、@jacopen のXをチェック

オンコール

オンコール • 運用で緊急を要する事態が発生した際、すぐに対応ができるように待機する勤務形態 • PagerDutyを導入している場合、PagerDutyによって呼び出される • フルサービスオーナーシップの場合、開発者もオンコールのローテーションに入る開発者が運用にも携わるとい
うことは、オンコールにも関与するということになる

オンコール必要なアラートだけに絞り込み電話やSMS、プッシュ通知、Slack など、人それぞれ適した通知一次対応者 (応答がなければ) 二次対応者オンコールのローテーション

エスカレーションポリシー • 3-tierのエスカレーションポリシーが標準的 • 1st level サービスに責任を持つチームの誰か • 2nd level
1st levelで受け取れなかった通知をキャッチ • 3rd level チームリーダー、EM、プロダクトオーナーなど

疑問: 開発者がオンコールに入ると生産性が落ちるのでは ? • 少なからず影響はある • 大事なのは、個人としてではなくチームとしてサービスに責任を持つこと •
チームとして見たときに生産性が悪化しないオンコールの体制作りが大事 • 適切なローテーション • 燃え尽きを防ぐ体制作り • インシデントを減らす学びの体制作り

「開発者に運用もやらせる」ではなく「ライフサイクルに責任を持たせる」 Build Test Ship Run これを回すこと自体に責任を持たせる

「開発者に運用もやらせる」ではなく「ライフサイクルに責任を持たせる」 Build Test Ship Run オンコールライフサイクルを回していく中で、オンコール対応が必要になることも当然ある

「開発者に運用もやらせる」ではなく「ライフサイクルに責任を持たせる」 Build Test Ship Run スケールアウトがしやすい実装 (コンテナオーケストレーターの自律復旧に委ねる) ビルドやパッケージングの自
動化素早いビルドの工夫実行パラメータの外部注入(環境依存の排除) トラブルシュートしやすいログの工夫インフラのコード化ただ、自分でオーナーシップを持っていれば、改善すべきポイントはたくさん見つかるはず。オンコールで消耗するなら、消耗しないように自分で変えていけば良い。

「開発者に運用もやらせる」ではなく「ライフサイクルに責任を持たせる」 Build Test Ship Run スケールアウトがしやすい実装 (コンテナオーケストレーターの自律復旧に委ねる) ビルドやパッケージングの自
動化素早いビルドの工夫実行パラメータの外部注入(環境依存の排除) トラブルシュートしやすいログの工夫インフラのコード化フィードバックループで改善を続け、呼び出しの頻度を減らす

+ Recent Changes 最近入った変更のサマライズデプロイで障害が発生すると言いましたが、PagerDutyを使うとインシデント前にどういう変更があったのかを示唆してくれます

+ Past Incidents 過去の類似インシデント一覧と、発生時期・回数のヒートマップを表示。 Related Incidents 他サービスで現在発生している、関連性の高いインシデントを表示。

GUI/CodeによるJob定義と管理 41 41 柔軟なJob起動⼿段認証 120を超えるインテグレーション PagerDuty GenAI によるJob作成⽀援
オンプレ環境にもセキュアにアクセス Enterprise Runner - Event-Driven - Human-in-the-Loop - スケジューリング Web GUI API CLI Webhook PagerDuty Runbook Automation

アラートに応じた自動化アラートを受信インシデントを起票切り分けのためのタスクを実行自動修復軽減策のタスクを実行

ポストモーテム SREのプラクティスでおなじみ • インシデントのインパクト • 緩和や解消のために行われたアクション • 根本原因 • インシデントの再発を避けるためのフォローアップ
きちんと纏めておくことで、組織としての成長に繋がる。

+ だと Postmortems ポストモーテムの作成を支援。受信したイベント、ステータスアップデート、インシデントノート、Slackの会話などからタイムラインを作成

フルサービスオーナーシップを実現するための 9つのベストプラクティス

9つのベストプラクティス • アジャイルはそのままに • アジャイル開発の手法はフルサービスオーナーシップ文化の導入に不可欠 • 細かくフィードバックループを回すことで開発・運用双方の改善を図れる • 最初は小規模に •
組織全体の変革には相当な労力と上層部の支援が必要 • 支援を得るためには、価値を証明することからはじめる • 影響が重大にならないサイズと重要度のサービスからはじめる

9つのベストプラクティス • プロジェクトの選択 • Greenfield projectとBrownfield project。レガシーの制約を受けず設計をできる Greenfieldのほうが一般的には簡単 •
しかしGreenfieldで成功しても、価値の証明にならないことがある。 • 達成可能なBrownfield projectを選択して、トランスフォーメーションに着手することを検討 • 非難しない • 間違いは必ず起こる。個人が間違った選択をした場合に非難されたり報復を恐れたりすることなく、意思決定や実験を行う権限を与えられる必要がある

9つのベストプラクティス • 練習と実践を重ねる • 実際の応用に必要な自信と信頼を生むためには、低リスク環境での繰り返し練習が必要 • 本番を想定したインシデント対応の訓練 • チームの規模を適切なものに •
Two-pizza rule - 2枚のピザで満たされるくらいのチーム - 5〜8人 • コミュニケーションに費やす時間を削減して、実務に充てられる時間を増やす

9つのベストプラクティス • サービスの定義を明確に • 問題の原因特定を容易にするため、サービスは詳細に設定する必要がある • 2つのマイクロサービスが強い依存関係にあり、片方の問題を修正することが他方の修正に繋がる場合は、
1つにまとめる • インシデントが見過ごされることがないように、依存関係を文書化する Service Graph機能で影響範囲の可視化

9つのベストプラクティス • モノリスに対する計画の立案 • モノリシックな巨大なアプリケーションがある場合は、オンコール担当の対応について検討 • モノリスを担当するチームには、その他のサービスを担当させない • 一般向けの平易なドキュメントを作成 •
ドキュメントの作成は、コードベースに関わる各エンジニアで責任を共有する • コードを書いた人が、ドキュメントを作成する • 相手サービスの担当者が、当該サービスを理解できるようにする • チームAPI

フルサービスオーナーシップに関する資料 PagerDuty自身の経験を元にしたガイド、「 Ops Guides」の一環として、フルサービスオーナーシップのドキュメントも公開中現在は英語のみですが将来的な日本語の計画もあり https://ownership.pagerduty.com/

まとめ • インシデントを減らし、価値を生み続けるソフトウェアの開発には、ライフサイクルすべてに責任をもつフルサービスオーナーシップが重要 • Team Topologiesの実践により、フルサービスオーナーシップを実現するチームが見えてくる • 敬遠されがちなオンコールも担うことで、開発から運用まで含めたライフサイ
クルの改善に繋げることができる • この一連のサイクルを実現するために、PagerDutyも貢献します

「責任ある開発」を！フルサービスオーナーシップが変えるエンジニアリング文化

「責任ある開発」を！フルサービスオーナーシップが変えるエンジニアリング文化

More Decks by Kazuto Kusama

Other Decks in Technology

Featured

Transcript