Slide 1

Slide 1 text

Masahiro Nagano @kazeburo 2023/05/15 IaaSにおけるPlatform Engineeringとこれから(仮 Platform Engineering Meetup #2

Slide 2

Slide 2 text

Me • ⻑野雅広(ながのまさひろ) • Twitter/GitHub @kazeburo • さくらインターネット株式会社 
 クラウド事業本部 SRE室 室⻑ • mixi, livedoor (LINE), mercari を経て 
 2021年から現職

Slide 3

Slide 3 text

さくらのクラウド • 2011年のサービス開始から12年⽬ • 皆様のご⽀援のおかげです。 
 改めて感謝申し上げます

Slide 4

Slide 4 text

さくらのクラウド • 東京と⽯狩の2リージョンで展開 • 仮想サーバ/ディスク・ネットワークな どIaaS • VPCルータ、データベースなどの 
 アプライアンス • 2拠点での冗⻑化をサポートするロード バランサ、GSLB、DNSアプライアンス • スケールアップも可能なオートスケール

Slide 5

Slide 5 text

提供サービスの範囲拡⼤の取り組み お客様のDX化に向けたクラウド利⽤の様々なニーズに応え、 SaaS・PaaSへサービス提供範囲を拡⼤し、さらなる市場機会を創出 ヤマト宅急便の集荷依頼や匿名配送⼿続きが、ビジネス⽤の メッセージングアプリ「Slack」上でワンストップで⾏えるア プリケーションを本年2⽉より提供開始 エレコム株式会社、DXアンテナ株式会社と連携して、クラウ ド録画サービス「Antenna-eye」を2023年3⽉1⽇より提供開 始

Slide 6

Slide 6 text

ガバメントクラウドへの取り組み ガバメント領域での存在感を強めるため、ガバメント推進室が中⼼となりリレーションを構築 ガバメントクラウドをベンチマークとして「クラウドサービスの価値・技術⽔準を⾼める」

Slide 7

Slide 7 text

さくらのクラウド 開発の課題 これまでの10年を次の10年に繋ぐ • 既存のデータセンター・インフラ運⽤の維持継続 • IaaS コアシステムを現代化、技術⽔準の向上 • クラウドとして価値向上につながる機能拡充、新規サービス開発

Slide 8

Slide 8 text

⾼信頼とデリバリのパフォーマンスを両⽴

Slide 9

Slide 9 text

SRE / Platform Engineering

Slide 10

Slide 10 text

クラウド事業本部SRE室 • 2022年7⽉に発⾜。現在メンバーは5名 • 全社でのSREの取り組みがより評価されることを⽬的に発⾜ • 各部署でDevOps/SREの取り組みはされており、それを交換するものでは なく強化する • 社内での期待値のズレをなくすのが最初の課題 • 発⾜と同時にMission, Vision, Value の策定

Slide 11

Slide 11 text

SRE室のMission, Vision, Value • Mission • クラウドサービスの信頼性を⾼めることにより、お客様や社会のDXをしっかり⽀える • Vision • 社内でのSREの実践を広め、お客様への価値提供を⾏う • さくらのサービスそのものの信頼性向上、それにより価値向上を⽬指す • さくら社員がEnabling SREとして、お客様・社外のサービスの信頼性向上に携わる

Slide 12

Slide 12 text

SRE室のMission, Vision, Value • Value • 決め事を作るのではなく、⼀緒に”⼿を動かして”信頼性向上の⽂化をつくる • SRE室のエンジニアだけがSREs(Site Reliability Engineers)ではない • SRE室のエンジニアが Embedded SRE / Enabling SREとして、SREの取り組みを拡⼤させていく • 開発・運⽤チームとの密なコミュニケーション • 期待値のズレ、お⾒合いを防ぐ • You built it, you run it • 開発/運⽤の両者が共通のゴールをもって、運⽤性に優れたソフトウェアを開発する

Slide 13

Slide 13 text

SRE室現在進⾏中の取り組み

Slide 14

Slide 14 text

SRE室現在進⾏中の取り組み • Kubernetes 基盤 • Sakura monitoring suite • Agile culture の育成

Slide 15

Slide 15 text

Kubernetes 基盤

Slide 16

Slide 16 text

IUUQTLOPXMFEHFTBLVSBBEKQ

Slide 17

Slide 17 text

社内 Kubernetes 基盤 • 社内(プライベート)ネットワークに接続された「さくらのクラウド」上に開発 者が Kubernetes クラスタを構築できる基盤 • Cluster API ベースで開発 • “マニフェスト”を元に、さくらのクラウドのAPIを利⽤しIaaSリソースを作 成する

Slide 18

Slide 18 text

؅ཧΫϥελ ϚχϑΣετ؅ཧ 3FQPTJUPSZ "SHP$% Ϛελʔ ϊʔυ Ϛελʔ ϊʔυ. ϫʔΧʔ ϊʔυ ϫʔΧʔ ϊʔυ8 ϢʔβΫϥελ Ϛελʔ ϊʔυ Ϛελʔ ϊʔυ. ϫʔΧʔ ϊʔυ ϫʔΧʔ ϊʔυ8 ϢʔβΫϥελ ։ൃऀ ج൫ӡ༻ऀ Ϋϥελʹؔ͢Δ ϚχϡϑΣετΛ13 ϨϏϡʔ "VUP4ZOD CVJMENBOBHF CVJMENBOBHF ར༻

Slide 19

Slide 19 text

社内での Kubernetes 運⽤課題の洗い出し • 社内においていくつかのチームで独⾃にクラスタを運⽤ • さくらのクラウド上、物理サーバ上など環境は様々 • トラブル時の運⽤、クラスタのアップデートなどの課題は共通 • 課題をヒアリングから洗い出し、基盤開発へのフィードバック

Slide 20

Slide 20 text

社内 Kubernetes 運営コミュニティの開始 • SKOG “Sakura Kubernetes Operators Group” の発⾜ • Slack ベースでの情報共有 • オンラインでの勉強会の開催

Slide 21

Slide 21 text

社内 Kubernetes 基盤の課題 • 社内 Kubernetes 基盤への要望 • インターネットからのリーチャビリティ • マルチリージョンの冗⻑性確保

Slide 22

Slide 22 text

社内 Kubernetes 基盤の課題 • 期待値のズレ • 開発者はアプリケーション実⾏基盤が欲しい • 基盤の利⽤は⼀部に限られている状態 • Actions Runner Controllerなど

Slide 23

Slide 23 text

社内 Kubernetes 基盤の今後 • 「アプリケーションを動作させることに集中したい」を課題の中⼼に

Slide 24

Slide 24 text

社内 Kubernetes 基盤の今後 • 共有クラスタ(shared-k8s)の構築・運⽤ • Namespaceによるマルチテナント • 社外(インターネット)からのトラフィックを受付 • 堅牢性向上 / 東京・⽯狩での冗⻑性確保 • ログ、メトリクス永続化の組み込み • セルフサービスに基づいたポリシー

Slide 25

Slide 25 text

Sakura monitoring suite

Slide 26

Slide 26 text

Observability を⽀える課題 • ⻑期間のデータを格納するため⼤規模なストレージが必要 • ⾼可⽤性の担保。複雑なクラスタの運⽤ • 定期アップデートなどのメンテナンス

Slide 27

Slide 27 text

Sakura monitoring suite • Observability を実現する際の開発者にとっての負担を軽減 • monitoring suiteではメトリクスとログをサポート

Slide 28

Slide 28 text

Sakura monitoring suite (メトリクス) • Prometheus の Remote Storage を提供 • アルファ版として社内で提供中 • バックボーンネットワークの可視化 • エンハンスドDB(TiDB)

Slide 29

Slide 29 text

Sakura monitoring suite (ログ) • アクセスログや構造化ログに対して⾼速にクエリ • 低コストでの運⽤の実現、スケールするサービスを⽬指し開発中 • Trino(クエリエンジン)、Apache Iceburg(テーブルフォーマット)を採⽤予定 • 開発者のneedsをとらえていくため Demo を重要視

Slide 30

Slide 30 text

Agile culture の育成

Slide 31

Slide 31 text

Enabling SREを通した⽂化の育成 • さくらのクラウドのアプライアンス開発・運⽤に課題 • ISSUEやお客様からの問い合わせ対応に遅延 • 該当アプライアンスサービスを活⽤した他のサービスに影響 • SRE室からEnabling SREとしてチームに参加

Slide 32

Slide 32 text

Enabling SREとしての活動 • チームビルディング • オンラインでの朝(⼣)会、定例の開催 • 特定の個⼈に頼らないISSUE・障害対応 • Blamelessなふりかえり • ドキュメンテーション⽂化 • ロードマップの作成

Slide 33

Slide 33 text

Enabling SREとしての今後 • Observability の向上 • Sakura monitoring suiteの活⽤ • SLI/SLOの策定 • ⾼信頼というの価値提供 • ⾃律的なチームへ

Slide 34

Slide 34 text

Reading Club on Team building • SRE室と開発チームのリーダで開催 • 「⾔葉/⾔語」の共通化と課題の明確化 • アジャイルの本部全体への展開 
 Four Keysなど次のアクション • メンバー同⼠の相互理解/信頼感の醸成

Slide 35

Slide 35 text

IaaSにおけるPlatform Engineeringとこれから • システムと⽂化の両⾯で⾼信頼のクラウドを⽀える • Platform Engineering (SRE as a Serviceの提供) • アジャイル⽂化の醸成 • DevとOps / Dev と SREs の期待値を合わせる • MVVの定義 • アウトカムの最⼤化に必要

Slide 36

Slide 36 text

SAKURA internet ࣾձΛࢧ͑Δ 
 ύϒϦοΫΫϥ΢υΛ 
 Ұॹʹ࡞Γ·ͤΜ͔ʁ Perl, Go, Python インフラ基盤から フロントエンドまで 採⽤強化中! さくらインターネットではエン ジ ニア採⽤を強化しています さくらインターネットは新たなアイ デ アの創出に強い熱意と情熱を持って挑戦するお客様を は じ め、私たちとつな が りのあるす べ ての⼈たちのために、未来のある べ き姿を想い描きな が ら ―「やりたいこと」を「 で きる」に変える ― あらゆるア プ ローチを “インターネッ ト”を通 じ て提供します。 詳しくはWebサイトにて、カジュアル⾯談もやってます 👉 www.sakura.ad.jp/lp/22engineer/

Slide 37

Slide 37 text

ご清聴ありがとうございました 質問などありましたらお気軽に