Slide 1

Slide 1 text

2023/9/21 日本経済新聞社 SRE チーム 日経のサービスの信頼性を支える 負荷試験基盤 NIKKEI TECH TALK #11

Slide 2

Slide 2 text

ハッシュタグ #nikkei_tech_talk 山崎一樹 About me 2 SRE チーム 共通基盤の開発・運用がメイン 日経電子版フロントエンドチームで一部 Embeded SREs としても活動中

Slide 3

Slide 3 text

ハッシュタグ #nikkei_tech_talk 今日のおはなし 3 ● 日経の SRE チーム ● Platform Engineering ● 日経の負荷試験基盤について ○ 負荷試験の必要性 ○ 負荷試験基盤の概要 ○ 基盤の運用負荷を下げる取り組み

Slide 4

Slide 4 text

ハッシュタグ #nikkei_tech_talk 日経の SRE チーム SRE というプラクティスを文化として組織に浸透させる 文化が強固に根付いた組織が日経の未来を形作る Mission: Make a culture, Make a future. 4 SRE のプラクティスは SRE チームだけが実践するものではなく 組織の全員が実践していくものという文化・意識づけを推進

Slide 5

Slide 5 text

ハッシュタグ #nikkei_tech_talk 日経の SRE チーム ● Platform Engineering ○ プラットフォームの開発・提供 ○ 技術や環境、運用監視を共通化 ● SRE Enablement ○ SRE 文化を組織に定着させていく ○ 自動化、CICD、障害管理・ポストモーテムの実施、etc. 2つの業務領域 5

Slide 6

Slide 6 text

ハッシュタグ #nikkei_tech_talk Platform Engineering ● 技術・仕組みを標準化 ○ ツール ○ 自動化 ○ CI/CD パイプライン ○ モニタリング ○ オブザーバビリティ プラットフォーム (共通基盤) の提供により SRE を推進 6 ● 信頼性の向上 ○ 統一された構成 ○ 事前構成された監視 ○ 認知負荷の低減 ○ ナレッジの共有 ○ SRE チームのサポート ● 開発者体験 (DX) 向上 ○ インフラ管理からの解放 ○ サービス開発に注力

Slide 7

Slide 7 text

ハッシュタグ #nikkei_tech_talk Platform Engineering ● アプリケーション基盤 ● メトリクス基盤 ● ログ基盤 ● 負荷試験基盤 ● インシデント管理ツール ● 共通 Terraform モジュール ● etc. 日経の SRE チームで提供している基盤・ツールの例 7

Slide 8

Slide 8 text

ハッシュタグ #nikkei_tech_talk 負荷試験基盤 ● 想定負荷の下でサービスが利用できるか ○ 新規サービスのローンチ時 ○ サービスリアーキテクチャ時 ○ 新機能リリース前 ● リソースサイジング・キャパシティプランニング ○ 必要なリソース量の確認 ○ オートスケールのプランニング サービスの信頼性のために負荷試験は不可欠 8

Slide 9

Slide 9 text

ハッシュタグ #nikkei_tech_talk 負荷試験基盤 ● SRE チーム管理の負荷試験基盤 ○ エンドユーザのサービスアクセスを想定した負荷試験 ○ シナリオを作成さえすれば、負荷試験が実施できる ○ サービスの開発者は負荷試験シナリオの作成に注力できる ● 大規模な負荷試験にも対応 ○ スケーラブルなインフラストラクチャ ● できるだけ SRE チームの運用負荷も低くする設計 Overview 9

Slide 10

Slide 10 text

ハッシュタグ #nikkei_tech_talk 負荷試験基盤 ● Infrastructure Google Cloud Kubernetes ● Continuous Delivery ArgoCD ● Load Testing Tool Locust アーキテクチャ 10

Slide 11

Slide 11 text

ハッシュタグ #nikkei_tech_talk 負荷試験基盤 ● 負荷試験をローカルのマシンで実施するには性能が不足しがち ○ パブリッククラウド上などに構築するのは手間 ○ 誰もが大規模なインフラを用意できるものでもない ● サービス開発者が Locust のワーカー数を自在に設定できる ○ 秒間 50,000 リクエストでの負荷試験実績あり 大規模な負荷試験に対応 11

Slide 12

Slide 12 text

ハッシュタグ #nikkei_tech_talk 基盤の運用負荷を下げる ● 日経の SRE チームは現在5人のみ ● 共通基盤を運用しつつ、SRE を推進するためには、 基盤自体の運用負荷を低くすることも重要 ● 負荷試験基盤での運用負荷低減の取り組み ○ GKE Autopilot の採用 ○ セルフサービス型の仕組み 運用負荷を下げるための取り組み 12

Slide 13

Slide 13 text

ハッシュタグ #nikkei_tech_talk 基盤の運用負荷を下げる ● Google Cloud のマネージド Kubernetes クラスタサービス ● ✓ Kuberentes クラスタ自体を運用する負荷を大幅に低減 ○ クラスタアップグレードも含め、ほぼすべてが自動 ○ 独自に導入しているシステムコンポーネントの追従などのみ GKE Autopilot の採用 13 GKE Autopilot は、GKE で運用されるモードの 1 つで、Google がノード、スケーリング、セキュリ ティ、その他の事前構成された設定など、クラスタ構成を管理します。 https://cloud.google.com/kubernetes-engine/docs/concepts/autopilot-overview?hl=ja ”

Slide 14

Slide 14 text

ハッシュタグ #nikkei_tech_talk 基盤の運用負荷を下げる ● 利用者 (サービス開発者) で完結して負荷試験が実施できる ○ ✓ SRE チームがボトルネックにならない セルフサービス型の仕組み 14

Slide 15

Slide 15 text

ハッシュタグ #nikkei_tech_talk まとめ ● 日経の SRE チームは 2 つの領域から SRE を推進 ○ Platform Engineering / SRE Enablement ● 負荷試験基盤は Platform Engineering の取り組みの 1 つ ○ 大規模な負荷試験を開発者がすぐに実施できる ■ 日経のサービスを高い信頼性で運用するために、開発チームで自律して 負荷試験を実施している ● 基盤自体の運用負荷を下げることも SRE において重要 ○ できるだけマネージドなサービスを利用する ○ セルフサービス型の仕組みを実践する 15

Slide 16

Slide 16 text

ハッシュタグ #nikkei_tech_talk We are Hiring!! 16 🔍 HACK The Nikkei SRE チームをはじめ、 多様な職種で募集中です!!

Slide 17

Slide 17 text

17 ありがとうございました