Upgrade to Pro — share decks privately, control downloads, hide ads and more …

日経のサービスの信頼性を支える負荷試験基盤/nikkei-tech-talk11

 日経のサービスの信頼性を支える負荷試験基盤/nikkei-tech-talk11

2023/09/21開催、 NIKKEI Tech Talk #11 の発表資料です #nikkei_tech_talk
「日経のサービスの信頼性を支える負荷試験基盤」というタイトルで日本経済新聞社の山崎さんが発表しました。
https://nikkei.connpass.com/event/292415/

More Decks by 日本経済新聞社 エンジニア採用事務局

Other Decks in Technology

Transcript

  1. ハッシュタグ #nikkei_tech_talk 今日のおはなし 3 • 日経の SRE チーム • Platform

    Engineering • 日経の負荷試験基盤について ◦ 負荷試験の必要性 ◦ 負荷試験基盤の概要 ◦ 基盤の運用負荷を下げる取り組み
  2. ハッシュタグ #nikkei_tech_talk 日経の SRE チーム SRE というプラクティスを文化として組織に浸透させる 文化が強固に根付いた組織が日経の未来を形作る Mission: Make

    a culture, Make a future. 4 SRE のプラクティスは SRE チームだけが実践するものではなく 組織の全員が実践していくものという文化・意識づけを推進
  3. ハッシュタグ #nikkei_tech_talk 日経の SRE チーム • Platform Engineering ◦ プラットフォームの開発・提供

    ◦ 技術や環境、運用監視を共通化 • SRE Enablement ◦ SRE 文化を組織に定着させていく ◦ 自動化、CICD、障害管理・ポストモーテムの実施、etc. 2つの業務領域 5
  4. ハッシュタグ #nikkei_tech_talk Platform Engineering • 技術・仕組みを標準化 ◦ ツール ◦ 自動化

    ◦ CI/CD パイプライン ◦ モニタリング ◦ オブザーバビリティ プラットフォーム (共通基盤) の提供により SRE を推進 6 • 信頼性の向上 ◦ 統一された構成 ◦ 事前構成された監視 ◦ 認知負荷の低減 ◦ ナレッジの共有 ◦ SRE チームのサポート • 開発者体験 (DX) 向上 ◦ インフラ管理からの解放 ◦ サービス開発に注力
  5. ハッシュタグ #nikkei_tech_talk Platform Engineering • アプリケーション基盤 • メトリクス基盤 • ログ基盤

    • 負荷試験基盤 • インシデント管理ツール • 共通 Terraform モジュール • etc. 日経の SRE チームで提供している基盤・ツールの例 7
  6. ハッシュタグ #nikkei_tech_talk 負荷試験基盤 • 想定負荷の下でサービスが利用できるか ◦ 新規サービスのローンチ時 ◦ サービスリアーキテクチャ時 ◦

    新機能リリース前 • リソースサイジング・キャパシティプランニング ◦ 必要なリソース量の確認 ◦ オートスケールのプランニング サービスの信頼性のために負荷試験は不可欠 8
  7. ハッシュタグ #nikkei_tech_talk 負荷試験基盤 • SRE チーム管理の負荷試験基盤 ◦ エンドユーザのサービスアクセスを想定した負荷試験 ◦ シナリオを作成さえすれば、負荷試験が実施できる

    ◦ サービスの開発者は負荷試験シナリオの作成に注力できる • 大規模な負荷試験にも対応 ◦ スケーラブルなインフラストラクチャ • できるだけ SRE チームの運用負荷も低くする設計 Overview 9
  8. ハッシュタグ #nikkei_tech_talk 基盤の運用負荷を下げる • 日経の SRE チームは現在5人のみ • 共通基盤を運用しつつ、SRE を推進するためには、

    基盤自体の運用負荷を低くすることも重要 • 負荷試験基盤での運用負荷低減の取り組み ◦ GKE Autopilot の採用 ◦ セルフサービス型の仕組み 運用負荷を下げるための取り組み 12
  9. ハッシュタグ #nikkei_tech_talk 基盤の運用負荷を下げる • Google Cloud のマネージド Kubernetes クラスタサービス •

    ✓ Kuberentes クラスタ自体を運用する負荷を大幅に低減 ◦ クラスタアップグレードも含め、ほぼすべてが自動 ◦ 独自に導入しているシステムコンポーネントの追従などのみ GKE Autopilot の採用 13 GKE Autopilot は、GKE で運用されるモードの 1 つで、Google がノード、スケーリング、セキュリ ティ、その他の事前構成された設定など、クラスタ構成を管理します。 https://cloud.google.com/kubernetes-engine/docs/concepts/autopilot-overview?hl=ja ”
  10. ハッシュタグ #nikkei_tech_talk まとめ • 日経の SRE チームは 2 つの領域から SRE

    を推進 ◦ Platform Engineering / SRE Enablement • 負荷試験基盤は Platform Engineering の取り組みの 1 つ ◦ 大規模な負荷試験を開発者がすぐに実施できる ▪ 日経のサービスを高い信頼性で運用するために、開発チームで自律して 負荷試験を実施している • 基盤自体の運用負荷を下げることも SRE において重要 ◦ できるだけマネージドなサービスを利用する ◦ セルフサービス型の仕組みを実践する 15
  11. ハッシュタグ #nikkei_tech_talk We are Hiring!! 16 🔍 HACK The Nikkei

    SRE チームをはじめ、 多様な職種で募集中です!!