Upgrade to Pro — share decks privately, control downloads, hide ads and more …

abema-trace-sampling-observability-cost-optimiz...

Avatar for tetsuya28 tetsuya28
October 28, 2025

 abema-trace-sampling-observability-cost-optimization

Observability Conference Tokyo 2025
ピーク時165万スパン/秒に立ち向かえ!オブザーバビリティコストを効率化する ABEMA におけるトレースサンプリングの実践的事例

https://o11ycon.jp/sessions/fde073a9-b167-4842-ab49-7bd0b1f02613/

Avatar for tetsuya28

tetsuya28

October 28, 2025
Tweet

More Decks by tetsuya28

Other Decks in Technology

Transcript

  1. Observability Conference Tokyo 2025 本日のお品書き 前座: トレースや、サンプリングについての話 本編: ピーク時 165

    万スパン/秒 に立ち向かう話 10分 20分 留意点:  本セッションでは、「サンプリングする」は、  トレースまたはスパンを処理して「エクスポートする」ことを指します。  (対義語として、「ドロップする」) 逆井(Datadog) 山本(Abema TV)
  2. Observability Conference Tokyo 2025 逆 井 啓 佑 さかさい ◆

    Bio • Datadog Japan で働いています • #o11yconjp の共同オーガナイザー • #〆のラーメンまである倶楽部 という謎の団体メンバー ◆ 一言 • 寒気が近づいてきています。雪山の機運 です。 声かけてください 🏂 逆井(さかさい) という名前で X にいます 🙏
  3. 4 Company Highlights 企業情報ハイライト 2010 ニューヨークにて創業 33 事業展開している国 6,500 グローバルの従業員数

    non-GAAPベースの研究開発投資比率 28% 30,000 エンタープライズのお客様社数 Datadogの統合基盤上で 提供されている製品群 23 Datadog製品をに製品以上 お使いのお客様 83% $2.68B (+26%) サブスクリプションの 年間経常売上 (ガイダンス) 2019年9月19日 NASDAQに上場 (DDOG) クラウド時代の モニタリング&セキュリティ プラットフォーム Datadogとは S&P 500 銘柄に追加! (2025/7/9)
  4. 5 Company Highlights 企業情報ハイライト 2010 ニューヨークにて創業 33 事業展開している国 6,500 グローバルの従業員数

    non-GAAPベースの研究開発投資比率 28% 30,000 エンタープライズのお客様社数 Datadogの統合基盤上で 提供されている製品群 23 Datadog製品をに製品以上 お使いのお客様 83% $2.68B (+26%) サブスクリプションの 年間経常売上 (ガイダンス) 2019年9月19日 NASDAQに上場 (DDOG) Datadogとは S&P 500 銘柄に追加! (2025/7/9) クラウド時代の モニタリング&セキュリティ プラットフォーム ブースも出してます!来てください! Taken by 北浦さん(KAG), thanks!
  5. Observability Conference Tokyo 2025 「トレース」を サンプリングして、 活用している方? ・ヘッドベース ・テイルベース SDK

    でサンプリング ・コレクターで(ry ・SaaS で(ry ・確率 ・タグベース ・エラー ・レイテンシー
  6. Observability Conference Tokyo 2025 トレースとは(復習) A B C D E

    トレース 処理遅延の ボトルネックを 容易に特定 処理における エラー箇所を 容易に特定 使ってる人には欠かすことのできない武器。 まだ使ってない人はこれを機に使いましょう!
  7. Observability Conference Tokyo 2025 トレースとは(復習) 関連セッションとして、 16:10〜16:40 Track C で、

    LLM を使ったアプリのトレース活用 のセッションもあるみたいです。
  8. Observability Conference Tokyo 2025 トレースとは(復習) その一方で、こんなトレースばかり 目にすることも少なくないのでは? • 大量の平凡なリクエスト •

    大量の Bot によるリクエスト • 大量のヘルスチェックリクエスト オブザーバビリティツールを使う上で、データ量はコスト です。 不要なトレースは保存しない方が得策そうです。
  9. Observability Conference Tokyo 2025 トレースとは(復習) 立ち返ってみると、 ABEMA の場合、ピーク時 165 万スパン/秒です。全部保存はできません。

    ということで、トレースの活用だけではなく、 トレースデータの取捨選択(トレースサンプリング戦略)が、 トレースを使う上で重要になってきます。
  10. Observability Conference Tokyo 2025 トレースサンプリングについて 一般的なトレースパイプライン サンプリングポイント オブザーバビリティ バックエンド (

    e.x. Datadog ) スパン スパン サービス トレース ライブラリ OTel  Collector Datadog Agent ヘッドベースサンプリング テイルベースサンプリング トレース全体を検査せずに 早い段階で行うサンプリング手法 トレース全体(に含まれるスパン)を 考慮してから行うサンプリング手法 https://opentelemetry.io/ja/docs/concepts/sampling/
  11. Observability Conference Tokyo 2025 トレースサンプリングについて 一般的なトレースパイプライン サンプリングポイント オブザーバビリティ バックエンド (

    e.x. Datadog ) スパン スパン サービス トレース ライブラリ OTel  Collector Datadog Agent ヘッドベースサンプリング トレース全体を検査せずに 早い段階で行うサンプリング手法 一般的な形式は、確率サンプリング • あるサービスでは 50 % のサンプリングレートを設定 • あるエンドポイントでは、10 % の サンプリングレートを設定
  12. Observability Conference Tokyo 2025 トレースサンプリングについて 一般的なトレースパイプライン サンプリングポイント オブザーバビリティ バックエンド (

    e.x. Datadog ) スパン スパン サービス トレース ライブラリ OTel  Collector Datadog Agent テイルベースサンプリング トレース全体(に含まれるスパン)を 考慮してから行うサンプリング手法 トレース全体を考慮するため、 以下のようなサンプリングが可能 • エラーを含むトレース • レイテンシーの高いトレース • あるタグ属性が含まれるトレース
  13. Observability Conference Tokyo 2025 トレースサンプリングについて • ヘッドベースサンプリング は比較的容易にできる ◦ アプリ側での確率的サンプリングが一般的な形式。

    しかし、関心のあるトレース(エラー、高レイテンシー)をドロップしてしまう可能性 がある • より高度なサンプリングを実現する場合は、テイルベースサンプリング ◦ トレースを集約してからサンプリングする 必要がある ◦ システムやアプリが変われば、テイルベースの条件も変わる 可能性がある ▪ 運用上の設定変更が頻繁に発生するかも
  14. Observability Conference Tokyo 2025 SaaS(というか、Datadog)に頼りましょう! トレースサンプリングについて • ヘッドベースサンプリング は比較的容易にできる ◦

    アプリ側での確率的サンプリングが一般的な形式。 しかし、関心のあるトレース(エラー、高レイテンシー)をドロップしてしまう可能性 がある • より高度なサンプリングを実現する場合は、テイルベースサンプリング ◦ トレースを集約してからサンプリングする 必要がある ◦ システムやアプリが変われば、テイルベースの条件も変わる 可能性がある ▪ 運用上の設定変更が頻繁に発生するかも
  15. Observability Conference Tokyo 2025 Datadog のトレースサンプリングについて ヘッドベースサンプリング • Resource Based

    Sampling テイルベースサンプリング • Retention Filter Datadog における一般的なトレースパイプラインにおけるイチ機能 スパン スパン サービス トレース ライブラリ Datadog Agent
  16. ヘッドベースサンプリングの場合、SDK 側で エンドポイントごとにサンプリングレートを設定することがあります。 • /checkout: 100 % • /healthcheck: 5

    % Resource Based Sampling を使うことで、 Datadog にトレースを取り込む(Ingest)条件を、 Datadog の UI 上で設定、管理することが可能です。 ※ UI の例だと • POST /checkout: 100 % • /health*: 1 % Observability Conference Tokyo 2025 Datadog のトレースサンプリングについて
  17. Observability Conference Tokyo 2025 Datadog の UI Datadog のトレースサンプリングについて Retention

    Filter を使うことで、トレース保存(Index)条件を Datadog の UI 上で設定、管理することが可能です。 • エラーが含まれているトレースは 100 % • タグベースのサンプリング ◦ env:prod, service:auth-dotnet のトレースは 100 % • トレースのレイテンシーが 10 s 以上の場合は 100 % • そのほかは 10 % など Observability Conference Tokyo 2025
  18. Observability Conference Tokyo 2025 Datadog の UI Datadog のトレースサンプリングについて Retention

    Filter を使うことで、トレース保存(Index)条件を Datadog の UI 上で設定、管理することが可能です。 • エラーが含まれているトレースは 100 % • タグベースのサンプリング ◦ env:prod, service:auth-dotnet のトレースは 100 % • トレースのレイテンシーが 10 s 以上の場合は 100 % • そのほかは 10 % など Observability Conference Tokyo 2025 テイルベースサンプリングを SaaS 側で行うことがき、 SDK やコレクターの 構成変更を行わずに適用可能
  19. Observability Conference Tokyo 2025 Datadog のトレースサンプリングについて このように、Datadog のサンプリング機能 を活用しながら •

    取り込む(Ingest)トレースデータ • 保存する(Index )トレースデータ を「良い感じ」に決めて、コストの最適化を図っていくことが可能です。 「Datadog のトレースサンプリング結構良さそうじゃん?」って思ってくれたら、 とりあえず前座のスポンサーセッションとしては成功です。。。
  20. Observability Conference Tokyo 2025 「良い感じ」のトレースサンプリング戦略とは? どんなデータをサンプリングしたくて、どんなデータならドロップしてもいいですか? • トレースサンプリングは設定条件が肝要です • そのためには、どんなトレースデータを取得しているか、を把握することも大事

    • Datadog のトレースサンプリング機能はリッチであるが手段 メインパートで "実践例" から学んでいきましょう。 メインパートでは、スーパートラフィック環境下の ABEMA が実践している、 トレースサンプリング戦略について話していただきます。
  21. AbemaTV, Inc. All Rights Reserved
 AbemaTV, Inc. All Rights Reserved


    35 ピーク時 165 万スパン / 秒に⽴ち向かえ! オブザーバビリティコストを効率化する ABEMA におけるトレースサンプリングの実践的事例 2025 October 27th Observability Conference Tokyo 2025
  22. AbemaTV, Inc. All Rights Reserved
 アジェンダ 36 • ABEMA の課題とオブザーバビリティ

    • コストとオブザーバビリティの天秤 • ABEMA のトレースパイプラインの構成 • コスト最適化と観測性の両⽴ • まとめ
  23. AbemaTV, Inc. All Rights Reserved
 ⾃⼰紹介 38 ⼭ 本 哲

    也 X : @_tetsuya28 株式会社 AbemaTV - SRE 【趣味】旅⾏‧ゴルフ 【 Datadog 歴】 1 年 【好きな Datadog の機能】 APM Investigator / Incident Management
  24. AbemaTV, Inc. All Rights Reserved
 ABEMA 紹介 40 登録不要で、いつでも無料で楽しめる 24時間365日編成されているリニア配信と

    見逃した作品を好きなタイミングでオンデマンドでも楽しむこともできます。 国内最大級のオリジナルエピソード数 オリジナルエピソード数は国内発の動画サービスで日本No.1(※)を誇り、 注目の新作映画、国内外の人気ドラマ、話題のアニメなど豊富なラインナップの作品や、 様々な音楽や舞台のオンラインライブも展開。 ※2024年8月時点、自社調べ 100%プロコンテンツ サイバーエージェントとテレビ朝日 それぞれの強みを活かした制作体制で高品質なコンテンツを配信しています。 多彩なラインナップ 24時間編成のニュース専門チャンネルをはじめ、 オリジナルのドラマや恋愛番組、アニメ、スポーツなど、 多彩なジャンルの約25チャンネルを24時間365日放送しています。
  25. AbemaTV, Inc. All Rights Reserved
 ABEMA 紹介 42 ※1 WAU:1週間あたりの利⽤者数(Weekly

    Active Users) 引用元: CyberAgent 2025 年 3Q 決算発表資料
  26. AbemaTV, Inc. All Rights Reserved
 Three Observability Pillars との出会い 当時、

    ABEMA ではログやメトリクスを別のものとして捉えていました システムの複雑性 結果 • 調査をするハードルが上がる • 調査の負荷が偏って疲弊する 課題 • メトリクスが変動しても原因を特定しづらい • 調査に深いドメイン知識が必要になる
  27. AbemaTV, Inc. All Rights Reserved
 Three Observability Pillars との出会い Cloud

    Native Computing Foundation が発表している Three Observability Pillars に出会う システムの複雑性 https://github.com/cncf/tag-observability/blob/whitepaper-v1.0.0/whitepaper.md Three Observability Pillars とは • ログ‧トレース‧メトリクスを主要なシグナルとする • プロファイルや今後登場するシグナルもある ↑ ABEMA はプロファイルを必要とする場⾯があった
  28. AbemaTV, Inc. All Rights Reserved
 システムの複雑性 Three Observability Pillars との出会い

    システムの複雑性と向き合っていくために... • アプリケーションのそれぞれのシグナルを関連付けたい • アプリケーションのシグナルだけではなく、クラウド‧ SaaS の情報も集約したい • 誰もがこれらの情報にアクセスできるようにし、障害対応への障壁を減らしたい
  29. AbemaTV, Inc. All Rights Reserved
 2025 年 10 ⽉現在の Datadog

    の利⽤状況 システムの複雑性 49 100+ サービスへの APM 導⼊ 数百万を超えるメトリクス GKE ノードへの展開 発⾏した Datadog ユーザにおいて 70% を超える MAU インテグレーションを含めて
  30. AbemaTV, Inc. All Rights Reserved
 システムの複雑性 ⼊れて終わりではない、従量課⾦型 SaaS との継続的な向き合い リクエスト数

    × マイクロサービス数により、データ量は指数関数的に増加する ABEMA ではピーク時には 165 万スパン / 秒のトレースデータが⽣成される サービスが成⻑し続ける限り、減ることはないデータと向き合う必要がある https://www.datadoghq.com/pricing/list/
  31. AbemaTV, Inc. All Rights Reserved
 コストとオブザーバビリティの天秤 何を? まずは、トレースデータを分類する必要がある ABEMA では⼤枠を

    3 つのパターンに分類している ユーザリクエスト バッチ系リクエスト 内部運⽤リクエスト
  32. AbemaTV, Inc. All Rights Reserved
 コストとオブザーバビリティの天秤 何を? まずは、トレースデータを分類する必要がある ABEMA では⼤枠を

    3 つのパターンに分類している ユーザリクエスト バッチ系リクエスト 内部運⽤リクエスト 失敗できるリクエスト:例 ) 推薦系はフォールバックが⽤意されている 失敗できないリクエスト:例 ) 課⾦系は失敗が許されない
  33. AbemaTV, Inc. All Rights Reserved
 コストとオブザーバビリティの天秤 何を? トレースデータの状態によっても分類できる ➔ 成功したか

    / 失敗したか ➔ どれくらいのレイテンシーだったのか ユーザリクエスト バッチ系リクエスト 内部運⽤リクエスト 失敗できないリクエスト : 例 ) X 分以内に成功しないといけないバッチ
  34. AbemaTV, Inc. All Rights Reserved
 コストとオブザーバビリティの天秤 何を? トレースデータの状態によっても分類できる ➔ 成功したか

    / 失敗したか ➔ どれくらいのレイテンシーだったのか ユーザリクエスト バッチ系リクエスト 内部運⽤リクエスト 失敗できないリクエスト : 例 ) 番組編成などの運⽤リクエスト
  35. AbemaTV, Inc. All Rights Reserved
 コストとオブザーバビリティの天秤 何を? ABEMA におけるトレースデータの分類のイメージ図 ユーザリクエスト

    バッチ系リクエスト 内部管理リクエスト 失敗できる 失敗できない 正常系 異常系 ドロップ サンプリング 早い 遅い
  36. AbemaTV, Inc. All Rights Reserved
 どうやって? コストとオブザーバビリティの天秤 OpenTelemetry Collector Datadog

    Agent Microservices Log / Metric / Profile / Trace Metric 必要な attribute の 付与や Trace Metric の計算など テイルベースサンプリング ABEMA におけるトレースパイプラインの全体像
  37. AbemaTV, Inc. All Rights Reserved
 コストとオブザーバビリティの天秤 どうやって? ABEMA では以下の機能を利⽤してサンプリングしています Datadog

    に送信した後 ❏ Intelligent Retention filter ❏ Diversity sampling ❏ One percent flat sampling ❏ Retention filter Datadog に送信する前 ❏ テイルベースサンプリング
  38. AbemaTV, Inc. All Rights Reserved
 どうやって? コストとオブザーバビリティの天秤 OpenTelemetry Collector Datadog

    Agent Microservices Log / Metric / Profile / Trace Metric ABEMA におけるトレースパイプラインの全体像 テイルベースサンプリング Intelligent Retention filter & Retention filter
  39. AbemaTV, Inc. All Rights Reserved
 どうやって? Datadog に送信する前のパイプライン OpenTelemetry Collector

    Datadog Agent Microservices Log / Metric / Profile / Trace Metric 必要な attribute の 付与や Trace Metric の計算など ABEMA におけるトレースパイプラインの全体像 Datadog に送信する前 Datadog に送信した後 テイルベースサンプリング
  40. AbemaTV, Inc. All Rights Reserved
 コストとオブザーバビリティの天秤 Datadog に送信する前に落とす 何故? Datadog

    では取り込まれたデータ量に対して課⾦が発⽣する ⼤量のデータを送信する場合は、必要に応じて Datadog に送信する前にデータを減らす必要がある ここに送信するデータ量を減らす必要がある OpenTelemetry Collector Datadog Agent Microservices
  41. AbemaTV, Inc. All Rights Reserved
 コストとオブザーバビリティの天秤 Datadog に送信する前に落とす 何を? 失敗できるリクエスト‧正常系リクエストなど、全てを⾒る必要がないものを削る

    ユーザリクエスト バッチ系リクエスト 内部管理リクエスト 失敗できる 失敗できない 正常系 異常系 ドロップ サンプリング 早い 遅い
  42. AbemaTV, Inc. All Rights Reserved
 Datadog に送信する前のパイプライン OpenTelemetry Collector Datadog

    Agent Microservices 任意のオブザーバビリティ バックエンド トレース ライブラリ トレースを Datadog に送信するまで構成と、技術選定の背景 要件 1. 任意のオブザーバビリティバックエンドを切り替えられること 2. ⾼トラフィックが予想されるので、コストを柔軟に制御できること
  43. AbemaTV, Inc. All Rights Reserved
 Datadog に送信する前のパイプライン OpenTelemetry Collector Datadog

    Agent Microservices 任意のオブザーバビリティ バックエンド トレース ライブラリ トレースライブラリについて 任意のオブザーバビリティバックエンドを利⽤できるように OpenTelemetry ベースの計装 Go での計装を前提に共通ライブラリを SRE + Backend でメンテナンス サンプリングなどは⾏わずに後段の Datadog Agent にデータを送信
  44. AbemaTV, Inc. All Rights Reserved
 Datadog に送信する前のパイプライン OpenTelemetry Collector Datadog

    Agent Microservices 任意のオブザーバビリティ バックエンド トレース ライブラリ Datadog Agent について 全てのトレースデータを受け取り、必要な attribute ( Node の情報など ) を付与 サンプリングする前に、リクエスト数などの Trace Metric を計算 Datadog Distribution of OpenTelemetry Collector ( DDOT ) を利⽤して後段の OpenTelemetry Collector にスパンをルーティング https://speakerdeck.com/tetsuya28/datadog-distribution-of-opentelemetry-collector-intro
  45. AbemaTV, Inc. All Rights Reserved
 Datadog に送信する前のパイプライン OpenTelemetry Collector Datadog

    Agent Microservices 任意のオブザーバビリティ バックエンド トレース ライブラリ OpenTelemetry Collector について 任意のサンプリングルールを追加 ドロップ / サンプリングしたいデータに合わせて設定を追加
  46. AbemaTV, Inc. All Rights Reserved
 Datadog に送信する前のパイプライン OpenTelemetry Collector Datadog

    Agent Microservices 任意のオブザーバビリティ バックエンド トレース ライブラリ OpenTelemetry Collector について 最終的に Datadog に送信
  47. AbemaTV, Inc. All Rights Reserved
 どうやって? ABEMA のトレースパイプライン OpenTelemetry Collector

    Datadog Agent Microservices Log / Metric / Profile / Trace Metric 必要な attribute の 付与や Trace Metric の計算など ABEMA におけるトレースパイプラインの全体像 Datadog に送信する前 Datadog に送信した後 テイルベースサンプリング
  48. AbemaTV, Inc. All Rights Reserved
 Datadog に送信した後 Datadog に送信した後に残す 何故?

    ABEMA の場合、不要なデータは Datadog に送信する前に落としている Datadog に送信したデータはコストが許す限り保存したい 何を? 異常系は全て保存している 正常系も統計⽤に保存している
  49. AbemaTV, Inc. All Rights Reserved
 Datadog に送信した後 Datadog に送信した後に残す どうやって?

    Retention Fliter • 必要な情報を残すための設定を Datadog UI で
  50. AbemaTV, Inc. All Rights Reserved
 Datadog に送信した後 Datadog に送信した後に残す どうやって?

    Datadog によって⾃動で設定される Intelligent retention filter • Diversity sampling • One percent flat sampling
  51. AbemaTV, Inc. All Rights Reserved
 コスト最適化と観測性の両⽴ サンプリングによる成果 Span Ingested においては

    10% 以下まで使⽤量を削減 その結果、当時は本番環境でしか Datadog を利⽤できていなかったが開発環境にも展開すること ができるようになった さらに、 Datadog Incident や On-Call のような製品を試す余裕も出てきた
  52. AbemaTV, Inc. All Rights Reserved
 まとめ 84 • ABEMA の課題とオブザーバビリティ

    ◦ → システムの複雑性に対して Datadog を導⼊することでの課題解決 • コストとオブザーバビリティの天秤 ◦ → 導⼊後の運⽤や、継続的なメンテナンスの課題の整理 • ABEMA のトレースパイプラインの構成 ◦ → コスト課題を解決するための技術選定‧運⽤ • コスト最適化と観測性の両⽴ ◦ → コスト削減の成果