Upgrade to Pro — share decks privately, control downloads, hide ads and more …

DevIO2024_レガシー運用からの脱却 -クラウド活用の実践事例とベストプラクティス-

DevIO2024_レガシー運用からの脱却 -クラウド活用の実践事例とベストプラクティス-

プラットフォームエンジニアリングを1年半実践し、格闘した記録です。プラットフォームエンジニアリングが出てきた背景や、CCoEとSREの違いを整理しました。また、開発チームの認知的負荷をどう下げていくか、システムを横串で全体最適を試行錯誤しながら導入した内容をまとめました。プラットフォームチームの道は続く。

Jun Chiba

July 19, 2024
Tweet

More Decks by Jun Chiba

Other Decks in Technology

Transcript

  1. システムの複雑化 • ⼩さく始めたクラウド活⽤ ◦ 利⽤して何年? ◦ 利⽤製品の数は? ◦ AWSアカウント数は? ◦

    作ったシステムの数は? ◦ 関わった⼈間の数は? • 必要な知⾒や技術領域が複雑多岐、全体的な⾒通しが悪 くなってきている 10
  2. オンプレになかった運⽤ クラウド特有の運⽤ • コスト • セキュリィ(CSPM) • 機能アップデート追従 • アカウント発⾏

    • ルート管理 • and more… 責任共有モデルから⾒えない運⽤ 13 クラウドにしかない運⽤ → リフト&シフトで漏れがち AWS責任共有モデル
  3. カルチャーギャップ • SoE と SoR というシステム特性 • SoE(System of Engagement)

    ◦ 顧客中⼼とした顧客体験の向上 ◦ 顧客のフィードバックを迅速に取り⼊れ、改善を⾏う⽂化 ◦ 市場の変化に素早く対応し、新しい機能やサービスを短期間でリ リースする ◦ 新しい技術や⼿法を積極的に取り⼊れる⽂化やトライ&エラー⽂ 化 15
  4. カルチャーギャップ • SoR(System of Record) ◦ 企業の核⼼データを管理、信頼性と安定性を最優先 ◦ ダウンタイムやデータの消失は許容されないため、厳格な プロセスと⼿順が重視

    ◦ データの正確性がデータの⼊⼒、保存、管理に関する厳密 な規則とガイドラインが存在し⽅やコンプラを重視 ◦ 継続的な改善(Kaizen)の⽂化があり、⼩さな改善を積み 重ねる⽂化 カルチャーギャップによるチームごとの知識や運⽤のばらつき 16
  5. プラットフォームエンジニアリングとは 23 引⽤:ガートナー • プラットフォームとして情報を整備 ◦ 再利⽤可能なコンポーネント(例:ライ ブラリ) ◦ ツール(例:最適チェックツール/デプ

    ロイツール) ◦ ナレッジ(ガイドライン/導⼊⼿順) ◦ プラットフォームサービス(認証基 盤、Git、デプロイツール) • 複雑なインフラをより活⽤しやすくプラッ トフォーム化 • 開発者ポータルとして情報を提供
  6. 違い Q: プラットフォームエンジニアリング、CCoE、SREの違いは? A: 排他的存在ではなく重なる部分も多いが、アプローチが異なる 24 プラットフォーム エンジニアリング CCoE SRE

    焦点 開発者向けの統⼀プ ラットフォーム クラウド戦略とガバナ ンス システムの信頼性と可 ⽤性 主な活動 ツールとインフラの標 準化、⾃動化 コスト管理、セキュリ ティ、教育 モニタリング、インシ デント管理、⾃動化 利点 開発者⽣産性の向上、 ⼀貫性 コスト削減、セキュリ ティ強化 信頼性向上、迅速な障 害対応
  7. 2. 組織設計 チーム間連携のイメージ 30 プラットフォームチームが提供すること • プラットフォームの開発運⽤ ◦ アカウント管理 ◦

    コスト管理 ◦ セキュリティ管理 • ナレッジの提供 ◦ ガイドライン ◦ フレームワーク ◦ ツール • 統制 ◦ 発⾒的統制(モニタリング) ◦ 予防適当性(ガードレール) ◦ 是正適当性(クロージング)
  8. プラットフォームポータルサイト構築 ポータルサイトに設けた機能群の⼀部をご紹介します。Wikiにてポータルサイトを構築してい ます。 • 窓⼝ ◦ AWSアカウント発⾏(ネットワークやSecurity Hubなど必要な初期設定済みで発⾏) ◦ IAMユーザー発⾏(SSOでの運⽤)

    ◦ 技術問い合わせ(クラウドや監視など共通SaaS製品に関するサポート) • ガイドライン ◦ システム導⼊ガイドライン(新規プロジェクト向け) ◦ セキュリティガイドライン(共通製品導⼊や導⼊後のプロセス) ◦ コストガイドライン(コストに関する注意事項) ◦ ツール導⼊⼿順(監視や共通セキュリティ製品などの導⼊) 40
  9. 統制と継続 コスト編 ⽉次分析レポートで検知したこと • 異常に⾼い NatGateway 利⽤費 ◦ S3 の経路がNAT

    ゲートウェイ 経由、VPCエンドポイント経 由へ変更 • 異常に⾼い CloudTrail ◦ 誤って複数設定されていた • Public IP コスト増 ◦ 料⾦体系変更によるコスト変化 44
  10. 統制と継続 コスト編 コストアノマリーで検知した⽉間数 • $100未満 30+件 • $100-$500 10件 •

    $500以上 5件 分析の結果、新しいEC2/RDSリソース追加やインスタンスタイプ の変更を検知。誤検知が多いため、判断基準やアラートのしきい 値チューニングが必要。 46
  11. 統制と継続 セキュリティ編 セキュリティ編、実際の運⽤の⼀部をご紹介 • 導⼊ガイド(SSM / Security Hub / Inspector

    /etc) • 導⼊サポート • 導⼊後の検知と通知プロセス これらをワンショットではなく再現性を持ち、プラッ トフォームとして運⽤ 48
  12. まとめ 運営してみての課題 • 頼られすぎる ◦ あくまで主はアプリチーム、プラットフォームとして利⽤してもらう ◦ アプリチーム毎に知識レベルが違い、⼊り具合のバランスが難しい ◦ プラットフォームチームで作業肩代わりしすぎると、役割曖昧に

    ◦ また緊急時にアプリチームで迅速な対応ができなくなる可能性 • ツールの提供でさらなる認知的負荷軽減へ(ボタンポチで終わり) • プラットフォームチームの社内啓蒙活動(もっとうまく活⽤してもらう) • 定型化できたらオペレーションチームへの引き継ぎ(さらなる安定) プラットフォームエンジニアリングの道は続く!! 52