Slide 1

Slide 1 text

Datadog スポンサーセッション Observability Conference Tokyo 2025 ( #o11yconjp_b )

Slide 2

Slide 2 text

Observability Conference Tokyo 2025 本日のお品書き 前座: トレースや、サンプリングについての話 本編: ピーク時 165 万スパン/秒 に立ち向かう話 10分 20分 留意点:  本セッションでは、「サンプリングする」は、  トレースまたはスパンを処理して「エクスポートする」ことを指します。  (対義語として、「ドロップする」) 逆井(Datadog) 山本(Abema TV)

Slide 3

Slide 3 text

Observability Conference Tokyo 2025 逆 井 啓 佑 さかさい ◆ Bio ● Datadog Japan で働いています ● #o11yconjp の共同オーガナイザー ● #〆のラーメンまである倶楽部 という謎の団体メンバー ◆ 一言 ● 寒気が近づいてきています。雪山の機運 です。 声かけてください 🏂 逆井(さかさい) という名前で X にいます 🙏

Slide 4

Slide 4 text

4 Company Highlights 企業情報ハイライト 2010 ニューヨークにて創業 33 事業展開している国 6,500 グローバルの従業員数 non-GAAPベースの研究開発投資比率 28% 30,000 エンタープライズのお客様社数 Datadogの統合基盤上で 提供されている製品群 23 Datadog製品をに製品以上 お使いのお客様 83% $2.68B (+26%) サブスクリプションの 年間経常売上 (ガイダンス) 2019年9月19日 NASDAQに上場 (DDOG) クラウド時代の モニタリング&セキュリティ プラットフォーム Datadogとは S&P 500 銘柄に追加! (2025/7/9)

Slide 5

Slide 5 text

5 Company Highlights 企業情報ハイライト 2010 ニューヨークにて創業 33 事業展開している国 6,500 グローバルの従業員数 non-GAAPベースの研究開発投資比率 28% 30,000 エンタープライズのお客様社数 Datadogの統合基盤上で 提供されている製品群 23 Datadog製品をに製品以上 お使いのお客様 83% $2.68B (+26%) サブスクリプションの 年間経常売上 (ガイダンス) 2019年9月19日 NASDAQに上場 (DDOG) Datadogとは S&P 500 銘柄に追加! (2025/7/9) クラウド時代の モニタリング&セキュリティ プラットフォーム ブースも出してます!来てください! Taken by 北浦さん(KAG), thanks!

Slide 6

Slide 6 text

Observability Conference Tokyo 2025 「トレース」を収集して、活用している方?

Slide 7

Slide 7 text

Observability Conference Tokyo 2025 「トレース」を サンプリングして、 活用している方?

Slide 8

Slide 8 text

Observability Conference Tokyo 2025 「トレース」を サンプリングして、 活用している方? ・ヘッドベース ・テイルベース SDK でサンプリング ・コレクターで(ry ・SaaS で(ry ・確率 ・タグベース ・エラー ・レイテンシー

Slide 9

Slide 9 text

Observability Conference Tokyo 2025 などなど、前座編では トレースサンプリングを軽めに完全理解 することを目標にします。 本編ではこれら知識を総動員して、165万スパン/秒に立ち向かっているため、 本編に立ち向かえるように 見ていきましょう。

Slide 10

Slide 10 text

Observability Conference Tokyo 2025 トレースとは(復習) A B C D E トレース

Slide 11

Slide 11 text

Observability Conference Tokyo 2025 トレースとは(復習) A B C D E トレース 処理遅延の ボトルネックを 容易に特定 処理における エラー箇所を 容易に特定 使ってる人には欠かすことのできない武器。 まだ使ってない人はこれを機に使いましょう!

Slide 12

Slide 12 text

Observability Conference Tokyo 2025 トレースとは(復習) 関連セッションとして、 16:10〜16:40 Track C で、 LLM を使ったアプリのトレース活用 のセッションもあるみたいです。

Slide 13

Slide 13 text

Observability Conference Tokyo 2025 トレースとは(復習) その一方で、こんなトレースばかり 目にすることも少なくないのでは? ● 大量の平凡なリクエスト

Slide 14

Slide 14 text

Observability Conference Tokyo 2025 トレースとは(復習) その一方で、こんなトレースばかり 目にすることも少なくないのでは? ● 大量の平凡なリクエスト ● 大量の Bot によるリクエスト

Slide 15

Slide 15 text

Observability Conference Tokyo 2025 トレースとは(復習) その一方で、こんなトレースばかり 目にすることも少なくないのでは? ● 大量の平凡なリクエスト ● 大量の Bot によるリクエスト ● 大量のヘルスチェックリクエスト ● e.t.c.

Slide 16

Slide 16 text

Observability Conference Tokyo 2025 トレースとは(復習) その一方で、こんなトレースばかり 目にすることも少なくないのでは? ● 大量の平凡なリクエスト ● 大量の Bot によるリクエスト ● 大量のヘルスチェックリクエスト オブザーバビリティツールを使う上で、データ量はコスト です。 不要なトレースは保存しない方が得策そうです。

Slide 17

Slide 17 text

Observability Conference Tokyo 2025 トレースとは(復習) https://docs.datadoghq.com/ja/tracing/guide/leveraging_diversity_sampling/#diversity-sampling-algorithm-intelligent-retention-filter

Slide 18

Slide 18 text

Observability Conference Tokyo 2025 重要そう 重要そう /healthcheck やら、 なんの変哲もない正常リクエストのトレースがたくさん トレースとは(復習)

Slide 19

Slide 19 text

Observability Conference Tokyo 2025 トレースとは(復習) 立ち返ってみると、 ABEMA の場合、ピーク時 165 万スパン/秒です。全部保存はできません。

Slide 20

Slide 20 text

Observability Conference Tokyo 2025 トレースとは(復習) 立ち返ってみると、 ABEMA の場合、ピーク時 165 万スパン/秒です。全部保存はできません。 ということで、トレースの活用だけではなく、 トレースデータの取捨選択(トレースサンプリング戦略)が、 トレースを使う上で重要になってきます。

Slide 21

Slide 21 text

Observability Conference Tokyo 2025 トレースサンプリングについて 一般的なトレースパイプライン サンプリングポイント オブザーバビリティ バックエンド ( e.x. Datadog ) スパン スパン サービス トレース ライブラリ OTel  Collector Datadog Agent

Slide 22

Slide 22 text

Observability Conference Tokyo 2025 トレースサンプリングについて 一般的なトレースパイプライン サンプリングポイント オブザーバビリティ バックエンド ( e.x. Datadog ) スパン スパン サービス トレース ライブラリ OTel  Collector Datadog Agent ヘッドベースサンプリング テイルベースサンプリング トレース全体を検査せずに 早い段階で行うサンプリング手法 トレース全体(に含まれるスパン)を 考慮してから行うサンプリング手法 https://opentelemetry.io/ja/docs/concepts/sampling/

Slide 23

Slide 23 text

Observability Conference Tokyo 2025 トレースサンプリングについて 一般的なトレースパイプライン サンプリングポイント オブザーバビリティ バックエンド ( e.x. Datadog ) スパン スパン サービス トレース ライブラリ OTel  Collector Datadog Agent ヘッドベースサンプリング トレース全体を検査せずに 早い段階で行うサンプリング手法 一般的な形式は、確率サンプリング ● あるサービスでは 50 % のサンプリングレートを設定 ● あるエンドポイントでは、10 % の サンプリングレートを設定

Slide 24

Slide 24 text

Observability Conference Tokyo 2025 トレースサンプリングについて 一般的なトレースパイプライン サンプリングポイント オブザーバビリティ バックエンド ( e.x. Datadog ) スパン スパン サービス トレース ライブラリ OTel  Collector Datadog Agent テイルベースサンプリング トレース全体(に含まれるスパン)を 考慮してから行うサンプリング手法 トレース全体を考慮するため、 以下のようなサンプリングが可能 ● エラーを含むトレース ● レイテンシーの高いトレース ● あるタグ属性が含まれるトレース

Slide 25

Slide 25 text

Observability Conference Tokyo 2025 トレースサンプリングについて ● ヘッドベースサンプリング は比較的容易にできる ○ アプリ側での確率的サンプリングが一般的な形式。 しかし、関心のあるトレース(エラー、高レイテンシー)をドロップしてしまう可能性 がある ● より高度なサンプリングを実現する場合は、テイルベースサンプリング ○ トレースを集約してからサンプリングする 必要がある ○ システムやアプリが変われば、テイルベースの条件も変わる 可能性がある ■ 運用上の設定変更が頻繁に発生するかも

Slide 26

Slide 26 text

Observability Conference Tokyo 2025 SaaS(というか、Datadog)に頼りましょう! トレースサンプリングについて ● ヘッドベースサンプリング は比較的容易にできる ○ アプリ側での確率的サンプリングが一般的な形式。 しかし、関心のあるトレース(エラー、高レイテンシー)をドロップしてしまう可能性 がある ● より高度なサンプリングを実現する場合は、テイルベースサンプリング ○ トレースを集約してからサンプリングする 必要がある ○ システムやアプリが変われば、テイルベースの条件も変わる 可能性がある ■ 運用上の設定変更が頻繁に発生するかも

Slide 27

Slide 27 text

Observability Conference Tokyo 2025 Datadog のトレースサンプリングについて ヘッドベースサンプリング ● Resource Based Sampling テイルベースサンプリング ● Retention Filter Datadog における一般的なトレースパイプラインにおけるイチ機能 スパン スパン サービス トレース ライブラリ Datadog Agent

Slide 28

Slide 28 text

ヘッドベースサンプリングの場合、SDK 側で エンドポイントごとにサンプリングレートを設定することがあります。 ● /checkout: 100 % ● /healthcheck: 5 % Resource Based Sampling を使うことで、 Datadog にトレースを取り込む(Ingest)条件を、 Datadog の UI 上で設定、管理することが可能です。 ※ UI の例だと ● POST /checkout: 100 % ● /health*: 1 % Observability Conference Tokyo 2025 Datadog のトレースサンプリングについて

Slide 29

Slide 29 text

Observability Conference Tokyo 2025 Datadog の UI Datadog のトレースサンプリングについて Retention Filter を使うことで、トレース保存(Index)条件を Datadog の UI 上で設定、管理することが可能です。 ● エラーが含まれているトレースは 100 % ● タグベースのサンプリング ○ env:prod, service:auth-dotnet のトレースは 100 % ● トレースのレイテンシーが 10 s 以上の場合は 100 % ● そのほかは 10 % など Observability Conference Tokyo 2025

Slide 30

Slide 30 text

Observability Conference Tokyo 2025 Datadog の UI Datadog のトレースサンプリングについて Retention Filter を使うことで、トレース保存(Index)条件を Datadog の UI 上で設定、管理することが可能です。 ● エラーが含まれているトレースは 100 % ● タグベースのサンプリング ○ env:prod, service:auth-dotnet のトレースは 100 % ● トレースのレイテンシーが 10 s 以上の場合は 100 % ● そのほかは 10 % など Observability Conference Tokyo 2025 テイルベースサンプリングを SaaS 側で行うことがき、 SDK やコレクターの 構成変更を行わずに適用可能

Slide 31

Slide 31 text

Observability Conference Tokyo 2025 Datadog のトレースサンプリングについて このように、Datadog のサンプリング機能 を活用しながら ● 取り込む(Ingest)トレースデータ ● 保存する(Index )トレースデータ を「良い感じ」に決めて、コストの最適化を図っていくことが可能です。 「Datadog のトレースサンプリング結構良さそうじゃん?」って思ってくれたら、 とりあえず前座のスポンサーセッションとしては成功です。。。

Slide 32

Slide 32 text

Observability Conference Tokyo 2025 「良い感じ」のトレースサンプリング戦略とは?

Slide 33

Slide 33 text

Observability Conference Tokyo 2025 「良い感じ」のトレースサンプリング戦略とは? どんなデータをサンプリングしたくて、どんなデータならドロップしてもいいですか? ● トレースサンプリングは設定条件が肝要です ● そのためには、どんなトレースデータを取得しているか、を把握することも大事 ● Datadog のトレースサンプリング機能はリッチであるが手段

Slide 34

Slide 34 text

Observability Conference Tokyo 2025 「良い感じ」のトレースサンプリング戦略とは? どんなデータをサンプリングしたくて、どんなデータならドロップしてもいいですか? ● トレースサンプリングは設定条件が肝要です ● そのためには、どんなトレースデータを取得しているか、を把握することも大事 ● Datadog のトレースサンプリング機能はリッチであるが手段 メインパートで "実践例" から学んでいきましょう。 メインパートでは、スーパートラフィック環境下の ABEMA が実践している、 トレースサンプリング戦略について話していただきます。

Slide 35

Slide 35 text

AbemaTV, Inc. All Rights Reserved
 AbemaTV, Inc. All Rights Reserved
 35 ピーク時 165 万スパン / 秒に⽴ち向かえ! オブザーバビリティコストを効率化する ABEMA におけるトレースサンプリングの実践的事例 2025 October 27th Observability Conference Tokyo 2025

Slide 36

Slide 36 text

AbemaTV, Inc. All Rights Reserved
 アジェンダ 36 ● ABEMA の課題とオブザーバビリティ ● コストとオブザーバビリティの天秤 ● ABEMA のトレースパイプラインの構成 ● コスト最適化と観測性の両⽴ ● まとめ

Slide 37

Slide 37 text

AbemaTV, Inc. All Rights Reserved
 ⾃⼰紹介 37

Slide 38

Slide 38 text

AbemaTV, Inc. All Rights Reserved
 ⾃⼰紹介 38 ⼭ 本 哲 也 X : @_tetsuya28 株式会社 AbemaTV - SRE 【趣味】旅⾏‧ゴルフ 【 Datadog 歴】 1 年 【好きな Datadog の機能】 APM Investigator / Incident Management

Slide 39

Slide 39 text

AbemaTV, Inc. All Rights Reserved
 サービス紹介 39

Slide 40

Slide 40 text

AbemaTV, Inc. All Rights Reserved
 ABEMA 紹介 40 登録不要で、いつでも無料で楽しめる 24時間365日編成されているリニア配信と 見逃した作品を好きなタイミングでオンデマンドでも楽しむこともできます。 国内最大級のオリジナルエピソード数 オリジナルエピソード数は国内発の動画サービスで日本No.1(※)を誇り、 注目の新作映画、国内外の人気ドラマ、話題のアニメなど豊富なラインナップの作品や、 様々な音楽や舞台のオンラインライブも展開。 ※2024年8月時点、自社調べ 100%プロコンテンツ サイバーエージェントとテレビ朝日 それぞれの強みを活かした制作体制で高品質なコンテンツを配信しています。 多彩なラインナップ 24時間編成のニュース専門チャンネルをはじめ、 オリジナルのドラマや恋愛番組、アニメ、スポーツなど、 多彩なジャンルの約25チャンネルを24時間365日放送しています。

Slide 41

Slide 41 text

AbemaTV, Inc. All Rights Reserved
 ABEMA 紹介 41 複数デバイス対応・多彩なチャンネルラインナップ

Slide 42

Slide 42 text

AbemaTV, Inc. All Rights Reserved
 ABEMA 紹介 42 ※1 WAU:1週間あたりの利⽤者数(Weekly Active Users) 引用元: CyberAgent 2025 年 3Q 決算発表資料

Slide 43

Slide 43 text

AbemaTV, Inc. All Rights Reserved
 ABEMA の課題とオブザーバビリティ 43

Slide 44

Slide 44 text

AbemaTV, Inc. All Rights Reserved
 年々増加かつ、開発速度向上の副作⽤により加速傾向 経験や知⾒が浅い領域において根本原因に辿り着くまでに時間がかかる システムの複雑性 44 2018 年 2020 年 2023 年 ( 2 年経過 ) ( 3 年経過 ) ※ Promviz によるサービス間通信の可視化

Slide 45

Slide 45 text

AbemaTV, Inc. All Rights Reserved
 Three Observability Pillars との出会い 当時、 ABEMA ではログやメトリクスを別のものとして捉えていました システムの複雑性 結果 ● 調査をするハードルが上がる ● 調査の負荷が偏って疲弊する 課題 ● メトリクスが変動しても原因を特定しづらい ● 調査に深いドメイン知識が必要になる

Slide 46

Slide 46 text

AbemaTV, Inc. All Rights Reserved
 Three Observability Pillars との出会い Cloud Native Computing Foundation が発表している Three Observability Pillars に出会う システムの複雑性 https://github.com/cncf/tag-observability/blob/whitepaper-v1.0.0/whitepaper.md Three Observability Pillars とは ● ログ‧トレース‧メトリクスを主要なシグナルとする ● プロファイルや今後登場するシグナルもある ↑ ABEMA はプロファイルを必要とする場⾯があった

Slide 47

Slide 47 text

AbemaTV, Inc. All Rights Reserved
 システムの複雑性 Three Observability Pillars との出会い システムの複雑性と向き合っていくために... ● アプリケーションのそれぞれのシグナルを関連付けたい ● アプリケーションのシグナルだけではなく、クラウド‧ SaaS の情報も集約したい ● 誰もがこれらの情報にアクセスできるようにし、障害対応への障壁を減らしたい

Slide 48

Slide 48 text

AbemaTV, Inc. All Rights Reserved
 システムの複雑性 そこで…

Slide 49

Slide 49 text

AbemaTV, Inc. All Rights Reserved
 2025 年 10 ⽉現在の Datadog の利⽤状況 システムの複雑性 49 100+ サービスへの APM 導⼊ 数百万を超えるメトリクス GKE ノードへの展開 発⾏した Datadog ユーザにおいて 70% を超える MAU インテグレーションを含めて

Slide 50

Slide 50 text

AbemaTV, Inc. All Rights Reserved
 システムの複雑性 ただし...

Slide 51

Slide 51 text

AbemaTV, Inc. All Rights Reserved
 システムの複雑性 ⼊れて終わりではない、従量課⾦型 SaaS との継続的な向き合い リクエスト数 × マイクロサービス数により、データ量は指数関数的に増加する ABEMA ではピーク時には 165 万スパン / 秒のトレースデータが⽣成される サービスが成⻑し続ける限り、減ることはないデータと向き合う必要がある https://www.datadoghq.com/pricing/list/

Slide 52

Slide 52 text

AbemaTV, Inc. All Rights Reserved
 コストとオブザーバビリティの天秤 52

Slide 53

Slide 53 text

AbemaTV, Inc. All Rights Reserved
 コストとオブザーバビリティの天秤 トレースの「全部⾒る」は現実的ではない 無数のデータを全て取得‧保存することは技術的には可能だが、⾮現実的で全部⾒る必要もない 良い感じに必要なデータだけを、安く⾒たい

Slide 54

Slide 54 text

AbemaTV, Inc. All Rights Reserved
 コストとオブザーバビリティの天秤 そうだ、サンプリングしよう

Slide 55

Slide 55 text

AbemaTV, Inc. All Rights Reserved
 コストとオブザーバビリティの天秤 何を...? どうやって...?

Slide 56

Slide 56 text

AbemaTV, Inc. All Rights Reserved
 コストとオブザーバビリティの天秤 何を...? どうやって...?

Slide 57

Slide 57 text

AbemaTV, Inc. All Rights Reserved
 コストとオブザーバビリティの天秤 何を? まずは、トレースデータを分類する必要がある ABEMA では⼤枠を 3 つのパターンに分類している ユーザリクエスト バッチ系リクエスト 内部運⽤リクエスト

Slide 58

Slide 58 text

AbemaTV, Inc. All Rights Reserved
 コストとオブザーバビリティの天秤 何を? まずは、トレースデータを分類する必要がある ABEMA では⼤枠を 3 つのパターンに分類している ユーザリクエスト バッチ系リクエスト 内部運⽤リクエスト 失敗できるリクエスト:例 ) 推薦系はフォールバックが⽤意されている 失敗できないリクエスト:例 ) 課⾦系は失敗が許されない

Slide 59

Slide 59 text

AbemaTV, Inc. All Rights Reserved
 コストとオブザーバビリティの天秤 何を? トレースデータの状態によっても分類できる ➔ 成功したか / 失敗したか ➔ どれくらいのレイテンシーだったのか

Slide 60

Slide 60 text

AbemaTV, Inc. All Rights Reserved
 コストとオブザーバビリティの天秤 何を? トレースデータの状態によっても分類できる ➔ 成功したか / 失敗したか ➔ どれくらいのレイテンシーだったのか ユーザリクエスト バッチ系リクエスト 内部運⽤リクエスト 失敗できないリクエスト : 例 ) X 分以内に成功しないといけないバッチ

Slide 61

Slide 61 text

AbemaTV, Inc. All Rights Reserved
 コストとオブザーバビリティの天秤 何を? トレースデータの状態によっても分類できる ➔ 成功したか / 失敗したか ➔ どれくらいのレイテンシーだったのか ユーザリクエスト バッチ系リクエスト 内部運⽤リクエスト 失敗できないリクエスト : 例 ) 番組編成などの運⽤リクエスト

Slide 62

Slide 62 text

AbemaTV, Inc. All Rights Reserved
 コストとオブザーバビリティの天秤 何を? ABEMA におけるトレースデータの分類のイメージ図 ユーザリクエスト バッチ系リクエスト 内部管理リクエスト 失敗できる 失敗できない 正常系 異常系 ドロップ サンプリング 早い 遅い

Slide 63

Slide 63 text

AbemaTV, Inc. All Rights Reserved
 コストとオブザーバビリティの天秤 何を...? どうやって...?

Slide 64

Slide 64 text

AbemaTV, Inc. All Rights Reserved
 どうやって? コストとオブザーバビリティの天秤 OpenTelemetry Collector Datadog Agent Microservices Log / Metric / Profile / Trace Metric 必要な attribute の 付与や Trace Metric の計算など テイルベースサンプリング ABEMA におけるトレースパイプラインの全体像

Slide 65

Slide 65 text

AbemaTV, Inc. All Rights Reserved
 コストとオブザーバビリティの天秤 どうやって? ABEMA では以下の機能を利⽤してサンプリングしています Datadog に送信した後 ❏ Intelligent Retention filter ❏ Diversity sampling ❏ One percent flat sampling ❏ Retention filter Datadog に送信する前 ❏ テイルベースサンプリング

Slide 66

Slide 66 text

AbemaTV, Inc. All Rights Reserved
 どうやって? コストとオブザーバビリティの天秤 OpenTelemetry Collector Datadog Agent Microservices Log / Metric / Profile / Trace Metric ABEMA におけるトレースパイプラインの全体像 テイルベースサンプリング Intelligent Retention filter & Retention filter

Slide 67

Slide 67 text

AbemaTV, Inc. All Rights Reserved
 Datadog に送信する前 67

Slide 68

Slide 68 text

AbemaTV, Inc. All Rights Reserved
 どうやって? Datadog に送信する前のパイプライン OpenTelemetry Collector Datadog Agent Microservices Log / Metric / Profile / Trace Metric 必要な attribute の 付与や Trace Metric の計算など ABEMA におけるトレースパイプラインの全体像 Datadog に送信する前 Datadog に送信した後 テイルベースサンプリング

Slide 69

Slide 69 text

AbemaTV, Inc. All Rights Reserved
 コストとオブザーバビリティの天秤 Datadog に送信する前に落とす 何故? Datadog では取り込まれたデータ量に対して課⾦が発⽣する ⼤量のデータを送信する場合は、必要に応じて Datadog に送信する前にデータを減らす必要がある ここに送信するデータ量を減らす必要がある OpenTelemetry Collector Datadog Agent Microservices

Slide 70

Slide 70 text

AbemaTV, Inc. All Rights Reserved
 コストとオブザーバビリティの天秤 Datadog に送信する前に落とす 何を? 失敗できるリクエスト‧正常系リクエストなど、全てを⾒る必要がないものを削る ユーザリクエスト バッチ系リクエスト 内部管理リクエスト 失敗できる 失敗できない 正常系 異常系 ドロップ サンプリング 早い 遅い

Slide 71

Slide 71 text

AbemaTV, Inc. All Rights Reserved
 Datadog に送信する前のパイプライン OpenTelemetry Collector Datadog Agent Microservices 任意のオブザーバビリティ バックエンド トレース ライブラリ トレースを Datadog に送信するまで構成と、技術選定の背景 要件 1. 任意のオブザーバビリティバックエンドを切り替えられること 2. ⾼トラフィックが予想されるので、コストを柔軟に制御できること

Slide 72

Slide 72 text

AbemaTV, Inc. All Rights Reserved
 Datadog に送信する前のパイプライン OpenTelemetry Collector Datadog Agent Microservices 任意のオブザーバビリティ バックエンド トレース ライブラリ トレースライブラリについて 任意のオブザーバビリティバックエンドを利⽤できるように OpenTelemetry ベースの計装 Go での計装を前提に共通ライブラリを SRE + Backend でメンテナンス サンプリングなどは⾏わずに後段の Datadog Agent にデータを送信

Slide 73

Slide 73 text

AbemaTV, Inc. All Rights Reserved
 Datadog に送信する前のパイプライン OpenTelemetry Collector Datadog Agent Microservices 任意のオブザーバビリティ バックエンド トレース ライブラリ Datadog Agent について 全てのトレースデータを受け取り、必要な attribute ( Node の情報など ) を付与 サンプリングする前に、リクエスト数などの Trace Metric を計算 Datadog Distribution of OpenTelemetry Collector ( DDOT ) を利⽤して後段の OpenTelemetry Collector にスパンをルーティング https://speakerdeck.com/tetsuya28/datadog-distribution-of-opentelemetry-collector-intro

Slide 74

Slide 74 text

AbemaTV, Inc. All Rights Reserved
 Datadog に送信する前のパイプライン OpenTelemetry Collector Datadog Agent Microservices 任意のオブザーバビリティ バックエンド トレース ライブラリ OpenTelemetry Collector について 任意のサンプリングルールを追加 ドロップ / サンプリングしたいデータに合わせて設定を追加

Slide 75

Slide 75 text

AbemaTV, Inc. All Rights Reserved
 Datadog に送信する前のパイプライン OpenTelemetry Collector Datadog Agent Microservices 任意のオブザーバビリティ バックエンド トレース ライブラリ OpenTelemetry Collector について 最終的に Datadog に送信

Slide 76

Slide 76 text

AbemaTV, Inc. All Rights Reserved
 Datadog に送信した後 76

Slide 77

Slide 77 text

AbemaTV, Inc. All Rights Reserved
 どうやって? ABEMA のトレースパイプライン OpenTelemetry Collector Datadog Agent Microservices Log / Metric / Profile / Trace Metric 必要な attribute の 付与や Trace Metric の計算など ABEMA におけるトレースパイプラインの全体像 Datadog に送信する前 Datadog に送信した後 テイルベースサンプリング

Slide 78

Slide 78 text

AbemaTV, Inc. All Rights Reserved
 Datadog に送信した後 Datadog に送信した後に残す 何故? ABEMA の場合、不要なデータは Datadog に送信する前に落としている Datadog に送信したデータはコストが許す限り保存したい 何を? 異常系は全て保存している 正常系も統計⽤に保存している

Slide 79

Slide 79 text

AbemaTV, Inc. All Rights Reserved
 Datadog に送信した後 Datadog に送信した後に残す どうやって? Retention Fliter ● 必要な情報を残すための設定を Datadog UI で

Slide 80

Slide 80 text

AbemaTV, Inc. All Rights Reserved
 Datadog に送信した後 Datadog に送信した後に残す どうやって? Datadog によって⾃動で設定される Intelligent retention filter ● Diversity sampling ● One percent flat sampling

Slide 81

Slide 81 text

AbemaTV, Inc. All Rights Reserved
 コスト最適化と観測性の両⽴ 81

Slide 82

Slide 82 text

AbemaTV, Inc. All Rights Reserved
 コスト最適化と観測性の両⽴ サンプリングによる成果 Span Ingested においては 10% 以下まで使⽤量を削減 その結果、当時は本番環境でしか Datadog を利⽤できていなかったが開発環境にも展開すること ができるようになった さらに、 Datadog Incident や On-Call のような製品を試す余裕も出てきた

Slide 83

Slide 83 text

AbemaTV, Inc. All Rights Reserved
 まとめ 83

Slide 84

Slide 84 text

AbemaTV, Inc. All Rights Reserved
 まとめ 84 ● ABEMA の課題とオブザーバビリティ ○ → システムの複雑性に対して Datadog を導⼊することでの課題解決 ● コストとオブザーバビリティの天秤 ○ → 導⼊後の運⽤や、継続的なメンテナンスの課題の整理 ● ABEMA のトレースパイプラインの構成 ○ → コスト課題を解決するための技術選定‧運⽤ ● コスト最適化と観測性の両⽴ ○ → コスト削減の成果

Slide 85

Slide 85 text

AbemaTV, Inc. All Rights Reserved
 Datadog ユーザによる 様々な活用事例セッションがあり ます。ぜひ参加ください! 宣伝: Datadog Live Tokyo が 2025/12/16 にあります 85

Slide 86

Slide 86 text

記載されている会社名、商品名、 またはサービス名は、各社の商標登録または商標です。