Upgrade to Pro — share decks privately, control downloads, hide ads and more …

クラウド開発の舞台裏とSRE文化の醸成 / SRE NEXT 2025 Lunch Session

クラウド開発の舞台裏とSRE文化の醸成 / SRE NEXT 2025 Lunch Session

Avatar for kazeburo

kazeburo

July 11, 2025
Tweet

More Decks by kazeburo

Other Decks in Technology

Transcript

  1. Me • 長 野雅広 (ながのまさひろ) • @kazeburo (X, GitHub, mixi2)

    • さくらインターネット株式会社 クラウド事業本部 副本部 長 テクノロジー(旧SRE)室ファウンダー • mixi、livedoor (現 LINEヤフー) mercariを経て2021年から現職 コロナ禍でランニングをやりはじめ、 ハーフマラソン・フルマラソンにも挑戦してます
  2. さくらのクラウド • 2011年にサービス開始して14年 目 • 仮想サーバ(VM)、ストレージ、ネットワークを中 心 とする IaaS型クラウドとして提供開始 •

    仮想ルータ、DNS、ロードバランサ、RDBMSなども展開 • 2023年、ガバメントクラウドの条件付き認定 • フルスペックのクラウドプラットフォームを 目 指し、取り組みを 行 っています
  3. ガバメントクラウド • デジタル庁が整備する、政府全体で共通利 用 するクラウドサービス基盤 • 既存の「パブリッククラウド」を活かし、柔軟迅速にセキュアなシステム基盤の 調達を可能とする • クラウドを活かし、政府や

    自 治体アプリケーション開発を現代的なものとし、国 民 に利便性の 高 いサービスをいち早く提供することにつなげる • ガバメントクラウド対象クラウドサービスプロバイダはデジタル庁にて認定 • デジタル庁から出ている技術要件を満たす必要がある
  4. ガバメントクラウド技術要件 • 17項 目 /約300件の技術要件を「全て」満たす必要がある • 基本事項、(1)コンピュート(サーバ)機能、(2)ストレージ、(3)データベース、 (4)サーバレス・コンテナ関連機能、(5)API関連機能、(6)アプリケーション連携機能、 (7)データ分析機能、(8)コードリリース機能、(9)ネットワークとCDN、 (10)システム運

    用 管理機能、(11)ユーザ管理、(12)バックアップ、 (13)データポータビリティ・移 行支 援機能、(14)セキュリティ機能、 (15)暗号 管理とデータ保管セキュリティ、(16)機械学習関連機能 ※令和5年度募集の技術要件 • リストは以下のURLから参照可能 https://www.digital.go.jp/procurement/3058bc41-ee8f-49bb-8f22-8def725f6f3f
  5. リリースした13の機能 機能名 概要 提供開始 日 1 サービス・ウェブサイトの稼働情報 「さくらのクラウド」の各サービスおよび各種サイトの稼働状況を表 示 するサービスで

    す。 2025年2 月 21 日 ( 金 ) 2 AppRun コンテナイメージから簡単にアプリケーションをデプロイし、 自 動的にスケーリングで きるマネージドサービスです。 2025年2 月 4 日 ( 火 ) 3 シンプルMQ ソフトウェアコンポーネント間でのデータの送受信ができるマネージド型のメッセージ キューサービスです。 2025年2 月 6 日 ( 木 ) 4 シンプル通知 メールや Webhook※1 を利 用 して、簡単に通知を送信できるサービスです。 Webhook は Slack、Discord、Microsoft Teams、IFTTT、および Zapier で利 用 可能 です。 2025年2 月 7 日 ( 金 ) 5 EventBus イベント検知サービスとジョブスケジュールサービスを統合したマネージドサービスで す。スケジュールトリガーを利 用 して、 自 動的にジョブを実 行 可能となります。 2025年2 月 13 日 ( 木 ) 6 シークレットマネージャ お客さまのシークレット情報を管理・保管するためのサービスです。 2025年2 月 13 日 ( 木 ) 7 KMS (Key Management Service) 暗号 のライフサイクル管理を 行 うためのサービスです。 2025年2 月 13 日 ( 木 )
  6. リリースした13の機能 機能名 概要 提供開始 日 8 APIゲートウェイ Web API のルーティング

    / リクエスト・レスポンス変換 / 認証認可を 行 うマネージド サービスです。 2025年2 月 18 日 ( 火 ) 9 NoSQL パフォーマンスを犠牲にすることなくスケーラビリティと 高 可 用 性を実現した、 Apache Cassandra 互換のマネージドデータベースサービスです。 2025年2 月 21 日 ( 金 ) 10 クラウドHSM HSM(Hardware Security Module)※2 のリソースをクラウド上で提供するサービス です。 2025年2 月 25 日 ( 火 ) 11 モニタリングスイート システム監視を 行 うためのプラットフォームです。 「さくらのクラウド」およびその他のクラウド、オンプレミス等の多様な環境を 一 元管 理し、可視化することが可能となります。 2025年2 月 26 日 ( 水 ) 12 Work fl ows 「さくらのクラウド」上に、ワークフローを実 行 する基盤を提供するサービスです。 ワークフローを 用 いて、反復実 行 するための特定操作をYAML(YAML Ain ’ t Markup Language)で定義することが可能となります。 2025年2 月 26 日 ( 水 ) 13 マイグレーションサービス (移 行 ツール) VMware環境から「さくらのクラウド」への移 行 を効率的に 行 うためのツールです。 2025年2 月 26 日 ( 水 )
  7. チーム開発のスケーラビリティを 高 める • 2023年の開発チームは10 人 強 • クラウドの多様なサービス、レイヤーをアメーバ状のチームで担当 •

    技術に真 に向き合い「保守」を 行 ってきた 文 化 • ガバメントクラウドの技術要件をベースにチームを分割 • オンボーディングや認知負荷の低減 • オーナー、テックリード、 支 援者など役割・ロールの明 示 • ボトムアップで技術選択からチームがリードすることでの並列開発
  8. チーム成 長 のグラデーション • クラウドの全体戦略の浸透・理解に差 • 実際にクラウドを活 用 してITシステムを開発した経験の濃淡 •

    顧客課題に向き合えず、信頼性に課題、リリースが完了したところでスローダウン • チーム間のコミュニケーション・連携に課題 • 個々の機能の開発から、機能間の連携を 行 うフェーズ • 一 部技術的な 高 い壁の存在
  9. 体制の進化・成 長 の加速を 目 指して • PdM(プロダクトマネジメント)の導 入 • ボトムアップだけでは難しい課題の解決

    • さくらのクラウドの全体的な 方 向性、ロードマップの提 示 • エンジニアリングマネージャによるチームリーディング • 入 社即マネージャではなく、エンジニアとの信頼関係の構築が前提 • 側 面支 援から 入 り、組織チームに直接責任を持つロールの変化 • チームでの採 用 、円滑なチーム間の情報共有、個々 人 とのコミュニケーション
  10. 体制の進化・成 長 の加速を 目 指して • テクノロジー室の設置 • SRE室から組織変更。SRE 文

    化を社内へ根付かせる活動に加え、 高 難易度、緊急度 の 高 い課題に対してチャレンジできる基盤醸成 • Terraform/SDK開発やテクニカルライティングなどクラウドを利 用 を広めるため の活動
  11. 主な技術トピック API・IAM 認証認可を 行 うAPI(IAM)のシステム刷新 Python/DjangoでAPIを構築し、既存コン トロールプレーンから処理を委譲するアー キテクチャの採 用 プロジェクトの階層向上、リソースに対す

    るサービスプリンシパル、SSOや発 見 的統 制も開発中 コンテナ・サーバレス コンテナ化されたアプリケーションをワン ステップでにデプロイし 、 自 動的にスケ ールリングする「さくらのAppRun」をβ リリース 基盤にKubernetesとKnativeを採 用 。モ ニタリング機能との連携、サービスの安定 化をすすめている モニタリング・オブザーバビリテ ィ マネージドサービス等のクラウドの各機能 ログを集約し、検索、分析できるログ基盤 をApache IceburgおよびTrinoを活 用 し 構築。 メトリクスの収集、アラート、Parsesに よる可視化サービス(モニタリングスイー ト)をリリース IaaS基盤の信頼性 IaaS基盤ソフトウェアのGo 言 語へのリプ レースを段階的に進め、信頼性、スケーラ ビリティの向上と共に、クラウド基盤のオ ブザーバビリテ ィ の改善も実施 高 IOPSのストレージ、機密コンピューテ ィングなど多様なハードウェアを受け 入 れ るシステムの拡張も 行 っている
  12. 信頼性に向けて • 社会からの期待を背景に信頼性がこれまでとは異なるレベルで求められる • お客様のニーズ、解決する課題を継続的に捉え続けるため変化と成 長 • チャレンジを継続的に 行 い、成

    長 していかなければならない それを 支 えるのがSREというプラクティスであり、 文 化 • チームごとの技術特性、サービスの同時並 行 開発・リリース • 運 用 を壁の向こうに投げない。“You buid it, you run it.”
  13. テクノロジー室の取り組み • Platform Engineering • GitHub (社内はGHES利 用 ) self

    hosted runnerの開発運 用 • terraform + tfcmt によるIaC標準化 (さくらのクラウド、GitHub、Mackerel) • 定期的な社内のエンジニア勉強会の開催 • Enabling, Embedding • 採 用 モメンタムを作り出す。豊かなバックグラウンドを持つエンジニアの参画 • チームに直接参加し、チームビルディングや技術的な意思決定をリード
  14. クラウドを開発できる技術を磨き続けること • 技術主権を持ち、国産クラウドを開発できる能 力 を維持する • 一 度失った技術を復活させるのは難しい • クラウドネイティブを

    支 えるプラットフォームの利 用 が前提となり、開発する、 支 える技術が失われる • 現に、インフラ開発エンジニアの採 用 の難易度が上がっている • クラウドを開発できる技術を担保するのは今がラストチャンス • 多くのエンジニアとともに成し遂げていきたい
  15. SAKURA internet ࣾձΛࢧ͑Δ ύϒϦοΫΫϥ΢υɾେن໛ܭࢉࢿݯΠϯϑϥΛ Ұॹʹ࡞Γ·ͤΜ͔ʁ ソフトウェア開発、 インフラ基盤から フロントエンドまで 採 用

    強化中! さくらインターネットではエン ジ ニア採 用 を強化しています さくらインターネットは新たなアイ デ アの創出に強い熱意と情熱を持って挑戦するお客様を は じ め、私たちとつな が りのあるす べ ての 人 たちのために、未来のある べ き姿を想い描きな が ら ―「やりたいこと」を「 で きる」に変える ― あらゆるア プ ローチを “インターネット” を通 じ て提供します。 詳しくはWebサイトにて、カジュアル 面 談もやってます 👉 www.sakura.ad.jp/lp/recruit-engineer/