Grafanaスタックをフル活用したオブザーバビリティ基盤の紹介

Grafanaスタックをフル活用したオブザーバビリティ基盤の紹介 2025.09.02 Quentin Plessis GO株式会社

© GO Inc. 2 自己紹介 GO株式会社 SREグループ Senior Platform Architect
Quentin Plessis / プレシ　カンタン SRE活動、Kubernetesを中心としたプラットフォームの開発と運用に携わる

© GO Inc. 3 Agenda ▪ Grafanaの導入背景 ▪ 自前運用について ▪
活用事例の紹介 ▪ 今後 ▪ まとめ

© GO Inc. より「早く乗れる」体験に加え、ニーズに応じた豊富なオプションサービスを提供 6 タクシーアプリ『GO』とは？ GO優良乗務員 ※サービスによって提供エリア・提供条件が異なります空気清浄機搭載 JPN
TAXI AI予約こだわり条件空港定額『GO PREMIUM』複数台配車アプリのりばも続々開設中 2021年12月福岡空港   2022年4月ららぽーと福岡   2022年7月羽田空港   2022年9月松山空港   2023年11月麻布台ヒルズ   2023年12月中部国際空港   2024年1月成田空港   2024年4月軽井沢駅   2024年6月関西国際空港   2024年7月旭川空港   2025年3月伊丹空港   2025年4月神戸空港   2025年7月札幌丘珠空港   2025年7月御殿場プレミアム・   　　　　　アウトレット   乗り込みGO Pay ライドシェア対応

© GO Inc. ※　　は当社の登録商標です。 7 タクシーアプリ『GO』の事業成長　ーダウンロード数推移ー 2022年9月
1000万ダウンロード突破！ 2021年11月法人向けタクシー配車管理『GO BUSINESS』リリース 2021年10月 500万ダウンロード突破！ 2020年4月 Mobility Technologies誕生！ 2023年4月「GO株式会社」に商号変更『GO』累積ダウンロード数 2020年9月タクシーアプリ『 GO』全国11エリアでスタートダウンロード数 (25年7月) 3000万利用可能エリア 46都道府県ネットワーク事業者数 1100社以上年間実車数 (22年6月-23年5 月) 6000万回 No1※タクシーアプリとして成長中 ※Sensor Tower調べ - タクシー配車関連アプリにおける、日本国内ダウンロード数（ App Store/Google Play合算値） - 調査期間： 2020年10月1日~2025年6月30日 2024年4月 2000万ダウンロード突破！ 2025年7月 3000万ダウンロード突破！ 2024年10月 2500万ダウンロード突破！

© GO Inc. 9 『GO』の裏側 ▪ 100以上のマイクロサービスで構成 ▪ 開発者100人以上、開発チーム10以上 ▪
Kubernetesをベースとしたプラットフォーム「Kenos」で稼働 ▪ EKS (AWS)とGKE (GCP)を利用したマルチクラウド構成パブリッククラウド上に構築されたサーバーシステムクラウドプラットフォーム AWS/GCP/Azure 乗務員向けアプリ後部座席タブレットユーザー向けアプリ運営者向け Webアプリタクシー事業者向け管理画面

© GO Inc. 10 Grafanaの導入前オブザーバビリティの重要性 ▪ メトリクスとアラート：システムの継続監視 ▪ ログ：問い合わせ対応、障害の際の調査
▪ トレース：ボトルネック特定 → とても複雑なシステム構成の中で統一されたオブザーバビリティ機能の提供が非常に重要 Grafana導入前の課題 (メトリクスはSaaS、ログはBigQuery) ▪ 全体のユーザビリティの低さ ▪ 可視化の難しさ ▪ メトリクス、ログ、トレースの連携の難しさ ▪ 料金の高さ

© GO Inc. 12 Grafanaの導入 Grafanaプロダクトを少しずつ導入 ▪ 2023年前半：GrafanaとLokiを導入 ▪ 2023年後半：Mimirを導入
▪ 2024年：Tempoを活用 ▪ 2025年：OnCallを導入現在はGrafana、Loki、Mimir、TempoとOnCallを毎日利用している！

© GO Inc. 13 規模感オブザーバビリティ基盤で扱っているデータの量 ▪ ログ：2〜3 TB/日 ▪
メトリクス：25 GB/日 ▪ トレース：100 GB/日オブザーバビリティ基盤の規模 (平均) ▪ テナント：40以上 ▪ Loki : 100 pods ▪ Mimir : 70 pods ▪ Tempo : 20 pods ▪ その他：10 pods

© GO Inc. 15 自前運用の背景 Grafanaを自前で運用することにした理由 ▪ コスト削減 - SaaSを利用する場合、データ量課金になりコストが爆増
- 送信するデータを絞ることになってしまう - → 自前運用になるとデータを大量に突っ込める（特にログとメトリクス) ▪ カスタマイズ性 - 独自の仕組みと連携可能 - コンプライアンスとセキュリティポリシーに対しての対応 ▪ メンテナンスの低負荷の予想 - Kubernetes運用の経験あり - データがS3/GCSなどObjectStorageに保存されるため運用不要

© GO Inc. 16 アーキテクチャ専用のEKSクラスタ - SSOでGrafanaに入る - ストレージはS3を利用
- テナント:k8sネームスペース - カスタムな仕組みもサービスが動いている EKS/GKEクラスタから - Istioを活かして様々なデータを送信 - アプリケーションからカスタムなデータも送信

© GO Inc. 17 アーキテクチャ - メトリクスデータの提供(exporters) ▪ Envoy
(Istio) ▪ アプリケーション ▪ Node exporter ▪ CloudWatch (AWS) ▪ Stackdriver (GCP) ▪ DB Exporters データプッシュ ▪ Prometheus (scrape) ▪ cortex-tenant (テナントを分ける)

© GO Inc. 18 アーキテクチャ - ログデータの提供 ▪ Envoy
(Istio) ▪ アプリケーションデータプッシュ ▪ Promtail

© GO Inc. 19 アーキテクチャ - トレースデータの提供 ▪ Envoy
(Istio) ▪ アプリケーションデータプッシュ ▪ OpenTelemetry Collector

© GO Inc. 20 アーキテクチャ - アラート MimirとLokiがアラートをAlertmanagerに送信 ▪ 「ruler」コンポーネント
▪ Mimirはメトリクスベースアラート ▪ Lokiはログベースアラート ▪ ログからメトリクスを作るためにLokiが Mimirにデータを送信することもある AlertmanagerがGrafana OnCallに通知 Grafana OnCall側でエスカレーションとスケジュールを管理し、必要に応じてSlackに通知したり、電話をかけたりする

© GO Inc. 21 アーキテクチャ - カスタム仕組み OpenResty(nginx)ベースの軽量プロキシを開発 Grafana Gateway
: IP制限、アクセスログ Mimir/Loki OAuth Gateway : ▪ テナントごとの細かい認可とIP制限機能 ▪ アクセスログ例：ログは基本的にIP制限をかけるが、一部のメトリクスについては障害対応を早めるためIP 制限をかけない

© GO Inc. 23 Loki : 内部アーキテクチャ Lokiは「Simple Scalable Deployment」構成を
利用 (SSD) 3つのpodsの種類に分かれる ▪ 書き込み用のwrite pods ▪ 読み込み用のread pods ▪ ruler/compactorなど用のbackend pods データ送信時と参照時にテナントを X-Scope-OrgIDヘッダとして指定 HorizontalPodAutoscalerによってオートスケールさせている詳細は「Grafana Lokiでログを検索 | オブザーバビリティ基盤第2話」で検索

© GO Inc. 24 Mimir : 内部アーキテクチャ MimirはDistributedモードを利用 (SSDモードがないため) Mimirのコンポーネントごとに独立し
たDeployment/Statefulsetが存在 Memcachedにデータをキャッシュデータ送信時と参照時にテナントを X-Scope-OrgIDヘッダとして指定

© GO Inc. 25 自前運用の振り返り ▪ 初期セットアップが少し大変 - コンポーネントが多い -
パラメータが多くてLokiのパフォーマンスチューニングが大変 - 構成と動きを詳しく理解した方がいい → Grafana LabsのブログとPodcastがおすすめ ▪ 普段からは安定していて調整する必要がない！ ▪ バージョンアップの時は工数がかかる（自前運用のためしょうがない) ▪ Grafanaを利用する社内のメンバーからの質問や問い合わせがそれなりにある

© GO Inc. 26 自前運用の振り返り Lokiについて ▪ 3.x にアップデートすると色々安定してくる ▪
Lokiの設計上、ログ内容をインデックスしていない関係でwriteが安くて、read が高い。オートスケールなどで工夫してreadさえスケールすれば圧倒的なコスト削減力を得られる ▪ memcachedを使うと逆に遅くなっていた (S3の性能の方がいい) → ユースケースによるため絶対的に言えない ▪ 大量のデータをクエリする際にS3のrate limitに引っかかることがあった → S3もオートスケールするもの！ ▪ replication factor = 1 にしている（コスト削減のため多少の欠損の可能性を妥協) ▪ 圧縮アルゴリズムは snappy ▪ read : split_queries_by_interval / tsdb_max_bytes_per_shard / max_query_capacity などをチューニングしている

© GO Inc. 27 自前運用の振り返り困ったエピソード ▪ サービス障害が発生し、状況確認のためエンジニアが一斉にGrafanaを利用し、 Mimirの負荷が高まりメモリが足りなくなり、Mimirが大事な時にダウンした →
メモリを多めに設定した方がいい ▪ AWSのゾーン障害が発生した影響、Grafanaに一時的にアクセスできなくなり、サービスの状況を確認できなかった → マルチAZ構成を再確認した方がいい ▪ サービスのトラフィックが急に増えた時、サービスだけではなくGrafanaの負荷も気にする必要がある → リソースを多めに設定するのと、オートスケールさせること全体の感想：それなりの規模で自前運用が可能。苦労するところもなくはないが、メリットが多くて継続予定。困ったらGrafana Cloudに切り替える選択肢もあるため安心！

© GO Inc. 30 Grafana ▪ Microsoft Entra ID によるSSO
(旧Azure AD) ▪ Kubernetesネームスペースごとに「xxx Logs」と「xxx Metrics」データソースを作成

© GO Inc. 31 Grafana - ダッシュボード主にダッシュボードを利用している ▪ アプリケーションごとに作成
▪ RPS/エラー/レスポンスタイム ▪ コンテナ情報 ▪ DB情報 ▪ カスタム情報 ▪ など魅力 ▪ 見た目がカッコいい！ ▪ 手動でサクッと作れる ▪ jsonでコピペできる、コード管理できる ▪ 何でもリンクで共有できる

© GO Inc. ▪ アラートルールはMimirとLokiで管理しているが、Grafanaでも確認 ▪ Slack通知からダッシュボードに飛んだり、クエリを確認したり、 silence設定したりできる 32 Grafana
- アラート

© GO Inc. 34 Loki - 圧倒的なコスト削減力サーバログの特徴 ▪ 調査のため大量に残す必要がある（何が起きるかわからない)
▪ ほぼ見ない（全体の量に対して検索されるのはわずか一部） → 書き込み課金のシステムだとコストパフォーマンスが悪い Lokiはコストが読み込みにかかるため、圧倒的なコスト削減力を持つ ▪ Lokiに切り替えることで80%のコスト削減ができた実績もある ▪ Lokiのコスト削減効果を得るためだけでも弊社のSREで運用している Kubernetes基盤「Kenos」に移行する社内サービスもある ▪ 詳細は「GO TechTalk #30 クラウドコスト削減祭り」で検索

© GO Inc. 35 Loki - 可視化可視化が強い ▪ 特定のログのトレンドを簡単に可視化でき、他の人に共有でき、ダッ
シュボードもサクッと作れる ▪ 他のシステムだったらまずログからメトリクスに変換する必要があったり、そもそも可視化できなかったりすることもある ▪ 調査の際に非常に便利

© GO Inc. 36 Loki - LogQL LogQLを活かす ▪ 最初はSQLなどよりも使いづらいが、慣れると色々できて便利
(if/rangeなど) ▪ GUIのボタンを利用してもいいが、LogQLでクエリを調整できると新しい世界が広がる ▪ 統一されたフォーマットを利用すると、サービスと関係なく同じクエリを利用でき、「便利クエリ」一覧を用意できる

© GO Inc. 37 Loki - 課題独自のデータフォーマット ▪ ログをS3に保存しているため安いが、コンプライアンスのためログを長期
保存する場合はそれでもお金がかかる ▪ 特に読み込みパフォーマンス向上のためLokiの圧縮にsnappyを利用する場合は圧縮率が落ちる ▪ Lokiが標準なフォーマットを利用していればS3からデータをコピペして gzipで再圧縮することも可能なはず → データを他のフォーマットとしてエクスポートする機能があれば嬉しい長期間の集計 ▪ 長期間のデータ集計にあまり向いていない ▪ データをBigQueryやAthenaなどに簡単に連携できれば嬉しい → 現在は独自の仕組みで連携している

© GO Inc. 39 Mimir 制限なくメトリクスをたくさん集める！ ▪ Istioメトリクス（istio_xxx, envoy_xxx …)
▪ k8sメトリクス（container_xxx , kube_xxx …) ▪ AWS/GCPメトリクス (aws_xxx , stackdriver_xxx …) ▪ DBメトリクス (mysql_xxx , pg_xxx …) ▪ カスタムメトリクス (Golang go_xxx、配車成功率 …) ▪ など

© GO Inc. 40 Mimir - カスタムメトリクスカスタムメトリクスの投入が非常に楽 - Prometheus形式のメトリクスを
/metrics エンドポイントとして提供すればいい - Prometheus SDKを利用すれば更に楽 $ curl http://localhost/metrics # HELP custom_cpu_temperature_celsius Current temperature of the CPU. # TYPE custom_cpu_temperature_celsius gauge custom_cpu_temperature_celsius 65.3

© GO Inc. 41 Mimir - カスタムメトリクスカスタムメトリクスで新しいインサイトを得る ▪ アプリケーション内部情報：goroutines数、DBコネクションプー
ル、メモリ利用量の内訳... ▪ サービスよりのKPI：配車成功率、決済手段ごとのエラー数など ▪ 機能の利用分析用の情報 ▪ など！

© GO Inc. 43 Tempo トレースのメリット ▪ エラー発生箇所とボトルネックの特定（外部サービス？DB？アルゴリズム？) ▪
リクエストの流れを簡単に追えること：特に多数のマイクロサービスを通るリクエストの場合、コードを読まなくても処理の流れがわかる ▪ トレースを見るだけで不自然なパターンを発見し問題が発生する前に処理を修正することもあるセットアップ方法：「Golang マイクロサービスの徹底トレース方法 | オブザーバビリティ基盤第3話」で検索

© GO Inc. 58 緊急時のオートスケール仕組み古いサービスが固まった時に緊急でオートスケールさせる仕組み ▪ CronJobで定期的にMimirのAPIを叩いてメモリ使用率や他のメトリクスを取得 ▪
特定条件を満たした場合Podを多めに増やす

© GO Inc. 60 Argo Rolloutsと連携した自動カナリアリリース Argo Rollouts Mimir メトリクス参照
▪ 新しいバージョンをデプロイ ▪ トラフィックが徐々に切り替わる ▪ メトリクスを継続的に監視（エラー率、SLIなど) ▪ 問題があった際に自動ロールバック

© GO Inc. 63 今後：気になるGrafanaプロダクトの導入検討 ▪ Grafana Beyla：eBPFベースの自動計装 ▪ Grafana
Faro：フロントエンドのオブザーバビリティ ▪ Grafana Pyroscope：継続的プロファイリング

© GO Inc. 65 まとめ ▪ を毎日利用していて非常に便利！ ▪ それなりの規模で自前運用が可能 -
送るデータを絞らないでフル活用できる！ - 圧倒的なコスト削減効果がある！ - 困ったらGrafana Cloudへ！ ▪ 面白い仕組みをたくさん作れる ▪ まだまだ可能性がある！

Grafanaスタックをフル活用したオブザーバビリティ基盤の紹介

Grafanaスタックをフル活用したオブザーバビリティ基盤の紹介

More Decks by GO Inc. dev

Featured

Transcript