2023/09/21開催、 NIKKEI Tech Talk #11 の発表資料です #nikkei_tech_talk 「日経のサービスの信頼性を支える負荷試験基盤」というタイトルで日本経済新聞社の山崎さんが発表しました。 https://nikkei.connpass.com/event/292415/
2023/9/21日本経済新聞社 SRE チーム日経のサービスの信頼性を支える負荷試験基盤NIKKEI TECH TALK #11
View Slide
ハッシュタグ #nikkei_tech_talk山崎一樹About me2SRE チーム共通基盤の開発・運用がメイン日経電子版フロントエンドチームで一部Embeded SREs としても活動中
ハッシュタグ #nikkei_tech_talk今日のおはなし3● 日経の SRE チーム● Platform Engineering● 日経の負荷試験基盤について○ 負荷試験の必要性○ 負荷試験基盤の概要○ 基盤の運用負荷を下げる取り組み
ハッシュタグ #nikkei_tech_talk日経の SRE チームSRE というプラクティスを文化として組織に浸透させる文化が強固に根付いた組織が日経の未来を形作るMission: Make a culture, Make a future.4SRE のプラクティスは SRE チームだけが実践するものではなく組織の全員が実践していくものという文化・意識づけを推進
ハッシュタグ #nikkei_tech_talk日経の SRE チーム● Platform Engineering○ プラットフォームの開発・提供○ 技術や環境、運用監視を共通化● SRE Enablement○ SRE 文化を組織に定着させていく○ 自動化、CICD、障害管理・ポストモーテムの実施、etc.2つの業務領域5
ハッシュタグ #nikkei_tech_talkPlatform Engineering● 技術・仕組みを標準化○ ツール○ 自動化○ CI/CD パイプライン○ モニタリング○ オブザーバビリティプラットフォーム (共通基盤) の提供により SRE を推進6● 信頼性の向上○ 統一された構成○ 事前構成された監視○ 認知負荷の低減○ ナレッジの共有○ SRE チームのサポート● 開発者体験 (DX) 向上○ インフラ管理からの解放○ サービス開発に注力
ハッシュタグ #nikkei_tech_talkPlatform Engineering● アプリケーション基盤● メトリクス基盤● ログ基盤● 負荷試験基盤● インシデント管理ツール● 共通 Terraform モジュール● etc.日経の SRE チームで提供している基盤・ツールの例7
ハッシュタグ #nikkei_tech_talk負荷試験基盤● 想定負荷の下でサービスが利用できるか○ 新規サービスのローンチ時○ サービスリアーキテクチャ時○ 新機能リリース前● リソースサイジング・キャパシティプランニング○ 必要なリソース量の確認○ オートスケールのプランニングサービスの信頼性のために負荷試験は不可欠8
ハッシュタグ #nikkei_tech_talk負荷試験基盤● SRE チーム管理の負荷試験基盤○ エンドユーザのサービスアクセスを想定した負荷試験○ シナリオを作成さえすれば、負荷試験が実施できる○ サービスの開発者は負荷試験シナリオの作成に注力できる● 大規模な負荷試験にも対応○ スケーラブルなインフラストラクチャ● できるだけ SRE チームの運用負荷も低くする設計Overview9
ハッシュタグ #nikkei_tech_talk負荷試験基盤● InfrastructureGoogle CloudKubernetes● Continuous DeliveryArgoCD● Load Testing ToolLocustアーキテクチャ10
ハッシュタグ #nikkei_tech_talk負荷試験基盤● 負荷試験をローカルのマシンで実施するには性能が不足しがち○ パブリッククラウド上などに構築するのは手間○ 誰もが大規模なインフラを用意できるものでもない● サービス開発者が Locust のワーカー数を自在に設定できる○ 秒間 50,000 リクエストでの負荷試験実績あり大規模な負荷試験に対応11
ハッシュタグ #nikkei_tech_talk基盤の運用負荷を下げる● 日経の SRE チームは現在5人のみ● 共通基盤を運用しつつ、SRE を推進するためには、基盤自体の運用負荷を低くすることも重要● 負荷試験基盤での運用負荷低減の取り組み○ GKE Autopilot の採用○ セルフサービス型の仕組み運用負荷を下げるための取り組み12
ハッシュタグ #nikkei_tech_talk基盤の運用負荷を下げる● Google Cloud のマネージド Kubernetes クラスタサービス● ✓ Kuberentes クラスタ自体を運用する負荷を大幅に低減○ クラスタアップグレードも含め、ほぼすべてが自動○ 独自に導入しているシステムコンポーネントの追従などのみGKE Autopilot の採用13GKE Autopilot は、GKE で運用されるモードの 1 つで、Google がノード、スケーリング、セキュリティ、その他の事前構成された設定など、クラスタ構成を管理します。https://cloud.google.com/kubernetes-engine/docs/concepts/autopilot-overview?hl=ja”
ハッシュタグ #nikkei_tech_talk基盤の運用負荷を下げる● 利用者 (サービス開発者) で完結して負荷試験が実施できる○ ✓ SRE チームがボトルネックにならないセルフサービス型の仕組み14
ハッシュタグ #nikkei_tech_talkまとめ● 日経の SRE チームは 2 つの領域から SRE を推進○ Platform Engineering / SRE Enablement● 負荷試験基盤は Platform Engineering の取り組みの 1 つ○ 大規模な負荷試験を開発者がすぐに実施できる■ 日経のサービスを高い信頼性で運用するために、開発チームで自律して負荷試験を実施している● 基盤自体の運用負荷を下げることも SRE において重要○ できるだけマネージドなサービスを利用する○ セルフサービス型の仕組みを実践する15
ハッシュタグ #nikkei_tech_talkWe are Hiring!!16🔍 HACK The NikkeiSRE チームをはじめ、多様な職種で募集中です!!
17ありがとうございました