Lecture course on Microservices : Part 3

Lecture course on Microservices 第３部：マイクロサービスにおける CI/CD とモニタリング中井悦司 / Etsuji
Nakai 2022/02/16 ver2.3

Contents • 9. マイクロサービスにおけるデプロイメント • 10. マイクロサービスのモニタリングシステム • 11. ロギングとトレーシング
2

9. マイクロサービスにおけるデプロイメント

プロダクション環境の構成要素 4 • サービス実行環境（Kubernetes など）に加えて、CI/CD パイプライン、ネットワーク管理、モニタリングシステムなどの構築が必要プロダクションモニタリングシステム
ネットワーク管理システムサービス実行環境デプロイメントパイプラインランタイム（VM、コンテナなど）ロードバランサー、 DNS などデプロイメントツール開発ツール

マイクロサービス環境におけるデプロイメントの特徴 • 小さな変更（← マイクロサービスのメリット） ◦ リリース時の変更量を小さく保つ事で、起こり得る問題を予測可能にして、リリースに伴うリスクを減らす • マニュアル作業の限界 ◦
リリース頻度を考慮すると、伝統的なマニュアル作業はスケールしない • 自動化によるプロセスの一貫性の担保 ◦ 静的コードチェック、単体テスト、統合テストなど、デプロイメントに必要なプロセスを自動化することで、変更の大小にかかわらず、すべてのマイクロサービスに一貫性を持った手順を適用する 5

マイクロサービス環境におけるデプロイメントの特徴 6 プロダクションステージング不要になったサービスステージングに未反映の外部依存サービスのコード変更サービスごとの
独立した変更ステージングでの事前テスト共通のデプロイメントプロセス

デプロイメントの課題 • 安定性の実現 ◦ マイクロサービスの追加や機能変更が頻繁に行われる環境で、安定的にサービスを提供しつづけるには何が必要か？ • Testing in production
◦ プロダクション環境でなければテストできない内容をどのように取り扱うか？ • 依存関係の管理 ◦ マイクロサービス間の依存関係により、ビルドやリリースが独立して実施できなくなる状況をどのようにして避けるか？ • マイクロサービスの撤収 ◦ 利用されなくなったマイクロサービスを発見・撤収する方法は？ 7

デプロイメントプロセスのゴール • Safety at pace : デプロイのスピードと安全性を両立。デプロイメントの各ステージに適切な Validation プロセスを実装すること
• Consistency : サービスの種類（技術スタックなど）に依存しない、「予測可能」でスケーラブルなプロセスを提供 8 ソースコードコードレビュービルド単体テストステージングデプロイ統合テストプロダクションデプロイ Artifact Repository Code Repository ステージング環境プロダクション環境 Testing in production

Consistent （予測可能）ではないプロセスの例 9 • プロダクション環境でこれをやると、どのような問題が・・・？インスタンスごとに異なるコミットのコードが使われる仮想マシン App ロードバランサー
仮想マシン App 仮想マシン App Code Repository スタートアップスクリプトでコードをダウンロード・自動インストールリポジトリのタイムライン仮想マシン１仮想マシン２

アーティファクトの管理 10 • ソースをコミットした後にビルドプロセスを実行することで、デプロイメントに利用する「アーティファクト」を生成する • アーティファクトは、Immutable で Deterministic でなければならない
◦ 同じコミットからビルドすれば、必ず同一のアーティファクトが生成される • アプリケーションバイナリだけではなく、その実行に必要となるすべてのコンポーネントをアーティファクトして管理する必要がある ◦ 依存ライブラリー、（スクリプト言語の場合）インタープリター、ロギングツール、etc... ソースコード Artifact Repository Code Repository アーティファクトビルドプロセスステージング／プロダクションデプロイ

デプロイ環境の違いを構成ファイルで管理 11 • すべてのデプロイ環境（Test, Staging, Production）で同一のアーティファクトを使用 • 環境による違いは、構成ファイルで管理 ◦ 構成ファイルはソースコードの一部としてバージョン管理する
Artifact Repository アーティファクトステージングプロダクション PROJECT_ID=production DATABASE=production.db.host DEBUG=False LOG_LEVEL=INFO PROJECT_ID=staging DATABASE=staging.db.host DEBUG=TRUE LOG_LEVEL=DEBUG 環境ごとに構成ファイルを用意

コンテナを用いる場合 12 • アーティファクトとしてパッケージングする範囲は、ランタイムの選択（物理ホスト、仮想マシン、コンテナ等）によって変わる • ランタイムとしてコンテナを用いる場合は、下図のようなデプロイメントモデルが標準的仮想／物理マシンコンテナアプリケーション
バイナリー・・・ Container Registory アプリケーションバイナリーを含むコンテナイメージをデプロイコンテナクラスターコンテナスケジューラー仮想／物理マシン仮想／物理マシン仮想／物理マシン Service A Service B コンテナスケジューラーがサービスの配置を決定コンテナイメージを Pull

Kubernetes のメリット • Kubernetes のようなコンテナ専用のクラスター管理基盤を利用することで、次のようなメリットが得られる ◦ デプロイ環境の標準化（プロダクションとステージングの構成を同一に保つ） ◦ カナリアリリース、Blue-Green
デプロイメントなど、Continuous Delivery の手法が利用しやすくなる • ステージング環境の構成には、いくつかの選択肢が考えられる ◦ すべてのサービスをデプロイ ◦ サブシステムごとに関連するサービスだけをデプロイした個別の環境を用意 13

カナリアリリースによるローリングアップデート 14 • コンテナを用いることで、ローリングアップデートや Blue-Green デプロイメントなどの手法が利用しやすくなる • 問題発生時は、即座にロールバックを
実施 ◦ デプロイだけでなく、ロールバックも自動化が必要 ◦ フィーチャーフラグも活用 v1 v1 v1 v2 v2 一部のトラフィックを v2 に向けるメトリックを比較して、 v2 の安全性を確認する v1 v2 v2 v2 v2 段階的に v2 の割合を増やす

フィーチャーフラグの活用 • 新しい機能を追加する際に、その機能を on / off するためのフラグを用意しておく • 問題発生時は、ロールバックする代わりに、該当機能を off
にする設定ファイルの再デプロイのみを行う（設定ファイルもコードの一部として、リポジトリで管理する） • 複数のサービスにまたがる機能の場合、サービス間で設定の不整合がおきないように注意が必要 15 ◦ 設定ファイルの代わりに、 Feature store / Feature service を用いる方法もある Feature store Customer service Order service 設定 on/off 設定取得 Customer service Order service Feature service Feature store 設定取得

Dark launch の活用 • 既存バージョンと新バージョンの両方を並行稼働して結果を比較 • エンドユーザーには新バージョンの結果は見せない •
ML モデルのデプロイでよく利用される手法 16 API ゲートウェイ ML v1 service ML v2 service リクエストを複製して転送 v1 からのレスポンスのみ利用 Prediction log それぞれの処理結果を比較

アーティファクトリポジトリを用いた自動化プロセス 17 ソースコードコードレビュービルド単体テストステージングデプロイ
統合テストプロダクションデプロイ Artifact Repository Code Repository ステージング環境プロダクション環境ビルド済みのバイナリーを保存テスト済みのバイナリーをデプロイテスト結果を記録テスト結果を記録コードのコミットをトリガーにして単体テスト/統合テストまでを自動化プロダクション環境へのデプロイ（カナリアリリース/Blue-Green デプロイメント） Testing in production

10. マイクロサービスのモニタリングシステム

参考書籍 19 https://www.humio.com/resources/reports/free-ebook-distributed-systems-observability/

モニタリングとオブザーバビリィティ • モニタリング：システムが正常に稼働していることをメトリックから確認 • オブザーバビリティ：システムがなぜ正常に稼働しないのかをログやトレースから確認 • メトリック
⇨ モニタリング • トレース、ログ ⇨ オブザーバビリティ 20 メトリックのモニタリングトレース

（参考）オブザーバビリィティの役割 21 起こり得る問題テスト可能な問題テスト不可能な問題予測可能な問題予測不可能な問題テストで発見モニタリングで発見ロギング／
トレーシングで何が起きたかを理解するオブザーバビリィティが特に必要な領域

必ず収集するべきメトリック • インフラリソースの監視：USE Method ◦ Usage：CPU、メモリ、ネットワーク帯域などのリソース使用率 ◦ Saturation：リソースの枯渇を監視 ◦ Error：サーバー、ネットワーク機器など、インフラシステムの障害を監視
※ リソースの枯渇だけではなく、使用率の急激な減少などにも注意する 22

必ず収集するべきメトリック • API サービスの性能監視：RED Method ◦ Request Rate：単位時間あたりのリクエスト数 ◦ Error
Rate：単位時間あたりのエラー数 ◦ Duration of request（Latency）：エラーを除いた正常応答のレイテンシー ※ システム上は正常なレスポンスを返していても、（誤ったコンテンツが返るなど）　ユーザーから見て期待する結果とは限らない点に注意 23

複数のメトリックを紐づけた理解 • A：ゲートウェイで受けたリクエストがバックエンドに到達しているか？ • B：ゲートウェイで受けたリクエストがバックエンドで処理されているか？ •
C：イベントが正しく処理されているか 24 Order service Order database Fee service Fee rules database Market service イベントキューイベントキューゲートウェイのリクエスト数 Order service のリクエスト数イベント発行数 fee service のリクエスト数 A B C

メトリックの表示方法 • ゲージ：一般的な数値データ → 折れ線グラフで表示 ◦ DB 接続数、メモリ使用量、CPU 使用量、異常停止中のコンテナ数など •
カウンター：短調増加する数値データ → 折れ線グラフで表示 ◦ リクエスト総数、エラー総数、送受信バイト数など • ヒストグラム：値の分布に意味があるもの → ヒストグラムで表示 ◦ レイテンシーの分布、レスポンスのサイズなど 25 • SRE が表示内容を自由にカスタマイズできるダッシュボードが必要 • ビジネスアナリストによるサービス利用状況の分析からシステム上の問題が発見される場合もある

アラート設定のテクニック • 緊急度に応じた通知方法 ◦ 即時呼び出し、対応依頼チケットの発行、記録のみなど • 必要なアラートに限定する ◦ SLO に影響するエラー
◦ 問題が発生していること（正常状態では発生し得ない状況）を示唆するデータ ▪ プログラミングにおける Assertion のようなもの ▪ 複数のメトリックの相関にも注意する ◦ 即時対応が必要ないものは、アラートではなくチケットを発行する ◦ 「アクション可能でないアラート」は通知しない 26

11. ロギングとトレーシング

モノリスのトレーシング • 基本的には、単一のアプリケーションログを追えばよい • データベース、ネットワーク、OSなどのログは、それぞれ個別に確認 28 アプリケーションログデータベースログ OS ログ

マイクロサービスのトレーシング • 複数サービスのログを個別に確認するのは現実的ではない • さまざまなコンポーネントのログを集約して検索できるロギングシステムが必要 29

ログに含めるとよい情報 • タイムスタンプ（UTC 表記 + タイムゾーン） • ID：リクエスト ID、ユーザー ID
などシステム全体でユニークな情報はできる限り含める • ソース：ホスト、クラス、モジュール、関数、ファイル名など • レベルとカテゴリー：ERROR、DEBUG、INFO、WARN など 30

ログの形式 • 人間がそのまま読める点と機械で処理できる点のメリットを考えると JSON がベスト • 個人情報など、「収集してはいけない情報」にも注意する
31 { "source_host" : "e7003378928a", "pathname" : "usrlocallibpython3.6site-packagesnamekorunners.py", "relativeCreated" : 386.46125793457031, "levelno" : 20, "msecs" : 118.99447441101074, "process" : 1, "args" : [ "orders_service" ], "name" : "nameko.runners", "filename" : "runners.py", "funcName" : "start", "module" : "runners", "lineno" : 64, "@timestamp" : "2018-02-02T18:42:09.119Z", "@version" : 1, "message" : "starting services: orders_service", "levelname" : "INFO", "stack_info" : null, "thread" : 140612517945416, "processName" : "MainProcess", "threadName" : "MainThread", "msg" : "starting services: %s", "created" : 1520275329.1189945 } システムから取得できる情報を自動で付加するツールもある

メトリックとログの違い • メトリックはモニタリング用のダッシュボードに表示 • ログは、ログ管理システムに集約 32

（参考）kubernetes 環境でのログ収集 • 各サービスは、標準出力にログを書き出す • ホスト上のエージェントが集約して、ログ管理サーバーに転送 • Elastic Search +
Kibana （Google Cloud なら Cloud Logging）で検索、表示 33

ログのトレーシング • 複数サービスが関連する処理をリクエスト ID で紐づけて、ビジュアライゼーションするツールを利用 ◦ スパン：ネストしたコールのツリー ◦
トレース：各コールの処理時間の時系列図 • ビジュアライゼーションに必要な情報を自動的にログ出力するツールが必要 ◦ Jaeger: https://www.jaegertracing.io/ ◦ Google Cloud なら OpenCensus + Cloud Tracing 34

プロダクション環境の構成要素 35 • プロダクション環境のインフラ構成にも標準化・自動化が必要プロダクションモニタリングシステムネットワーク管理システムサービス実行環境
デプロイメントパイプラインランタイム（VM、コンテナなど）ロードバランサー、 DNS などデプロイメントツール開発ツール

（参考）Microservices chassis との統合 • Microservices chassis：マイクロサービスのデプロイに必要なコンポーネントをすべてインテグレーションした「標準デプロイ環境」 • アプリケーション開発者は、所定のツールセット（ライブラリ）を使用することで、透過的に利用可能
• Microservices chassis と統合されたデプロイメントパイプラインが理想　※ 現状は、Jenkins / Spinnaker などの自動化ツールとクラウドサービスを組み合わせて、　　段階的に実装するのが現実的 36

Thank You.

Lecture course on Microservices : Part 3

Lecture course on Microservices : Part 3

Etsuji Nakai

More Decks by Etsuji Nakai

Other Decks in Technology

Featured

Transcript

Lecture course on Microservices 第３部：マイクロサービスにおける CI/CD とモニタリング中井悦司 / Etsuji

Contents • 9. マイクロサービスにおけるデプロイメント • 10. マイクロサービスのモニタリングシステム • 11. ロギングとトレーシング

9. マイクロサービスにおけるデプロイメント

プロダクション環境の構成要素 4 • サービス実行環境（Kubernetes など）に加えて、CI/CD パイプライン、ネットワーク管理、モニタリングシステムなどの構築が必要プロダクションモニタリングシステム

マイクロサービス環境におけるデプロイメントの特徴 6 プロダクションステージング不要になったサービスステージングに未反映の外部依存サービスのコード変更サービスごとの

デプロイメントの課題 • 安定性の実現 ◦ マイクロサービスの追加や機能変更が頻繁に行われる環境で、安定的にサービスを提供しつづけるには何が必要か？ • Testing in production

デプロイメントプロセスのゴール • Safety at pace : デプロイのスピードと安全性を両立。デプロイメントの各ステージに適切な Validation プロセスを実装すること

Consistent （予測可能）ではないプロセスの例 9 • プロダクション環境でこれをやると、どのような問題が・・・？インスタンスごとに異なるコミットのコードが使われる仮想マシン App ロードバランサー

アーティファクトの管理 10 • ソースをコミットした後にビルドプロセスを実行することで、デプロイメントに利用する「アーティファクト」を生成する • アーティファクトは、Immutable で Deterministic でなければならない

カナリアリリースによるローリングアップデート 14 • コンテナを用いることで、ローリングアップデートや Blue-Green デプロイメントなどの手法が利用しやすくなる • 問題発生時は、即座にロールバックを

フィーチャーフラグの活用 • 新しい機能を追加する際に、その機能を on / oﬀ するためのフラグを用意しておく • 問題発生時は、ロールバックする代わりに、該当機能を oﬀ

Dark launch の活用 • 既存バージョンと新バージョンの両方を並行稼働して結果を比較 • エンドユーザーには新バージョンの結果は見せない •

アーティファクトリポジトリを用いた自動化プロセス 17 ソースコードコードレビュービルド単体テストステージングデプロイ

10. マイクロサービスのモニタリングシステム

参考書籍 19 https://www.humio.com/resources/reports/free-ebook-distributed-systems-observability/

モニタリングとオブザーバビリィティ • モニタリング：システムが正常に稼働していることをメトリックから確認 • オブザーバビリティ：システムがなぜ正常に稼働しないのかをログやトレースから確認 • メトリック

（参考）オブザーバビリィティの役割 21 起こり得る問題テスト可能な問題テスト不可能な問題予測可能な問題予測不可能な問題テストで発見モニタリングで発見ロギング／

必ず収集するべきメトリック • API サービスの性能監視：RED Method ◦ Request Rate：単位時間あたりのリクエスト数 ◦ Error

複数のメトリックを紐づけた理解 • A：ゲートウェイで受けたリクエストがバックエンドに到達しているか？ • B：ゲートウェイで受けたリクエストがバックエンドで処理されているか？ •

メトリックの表示方法 • ゲージ：一般的な数値データ → 折れ線グラフで表示 ◦ DB 接続数、メモリ使用量、CPU 使用量、異常停止中のコンテナ数など •

アラート設定のテクニック • 緊急度に応じた通知方法 ◦ 即時呼び出し、対応依頼チケットの発行、記録のみなど • 必要なアラートに限定する ◦ SLO に影響するエラー

11. ロギングとトレーシング

モノリスのトレーシング • 基本的には、単一のアプリケーションログを追えばよい • データベース、ネットワーク、OSなどのログは、それぞれ個別に確認 28 アプリケーションログデータベースログ OS ログ

マイクロサービスのトレーシング • 複数サービスのログを個別に確認するのは現実的ではない • さまざまなコンポーネントのログを集約して検索できるロギングシステムが必要 29

ログに含めるとよい情報 • タイムスタンプ（UTC 表記 + タイムゾーン） • ID：リクエスト ID、ユーザー ID

ログの形式 • 人間がそのまま読める点と機械で処理できる点のメリットを考えると JSON がベスト • 個人情報など、「収集してはいけない情報」にも注意する

メトリックとログの違い • メトリックはモニタリング用のダッシュボードに表示 • ログは、ログ管理システムに集約 32

（参考）kubernetes 環境でのログ収集 • 各サービスは、標準出力にログを書き出す • ホスト上のエージェントが集約して、ログ管理サーバーに転送 • Elastic Search +

ログのトレーシング • 複数サービスが関連する処理をリクエスト ID で紐づけて、ビジュアライゼーションするツールを利用 ◦ スパン：ネストしたコールのツリー ◦

プロダクション環境の構成要素 35 • プロダクション環境のインフラ構成にも標準化・自動化が必要プロダクションモニタリングシステムネットワーク管理システムサービス実行環境

Thank You.