Slide 1

Slide 1 text

© 2024 Wantedly, Inc. 導⼊から5年が経って⾒えた Datadog APM 運⽤の課題 Japan Datadog User Group Meetup#3 Mar. 13 2024 - Atsushi Tanaka @bgpat

Slide 2

Slide 2 text

© 2024 Wantedly, Inc. 過去の登壇資料 https://speakerdeck.com/bgpat/distributed-tracing-for-microservices

Slide 3

Slide 3 text

© 2024 Wantedly, Inc. 過去の登壇資料 https://speakerdeck.com/bgpat/opencensus-with-datadog-apm

Slide 4

Slide 4 text

© 2024 Wantedly, Inc. 今⽇伝えたいこと APM は導⼊後のメンテナンスが重要 ● トレースが期待した状態になっているかの確認‧修正 ○ 気付いたら分断されていたり必要な値が⼊っていないことがある ○ 負のループに陥らないように対応が必要 ● 利⽤者への普及活動 ○ とりあえず⼊れただけの状態で使ってくれる⼈は限られている ○ 普段から慣れていないといざというときに使えない ○ 勉強会や障害訓練等で利⽤を広げる活動も必要

Slide 5

Slide 5 text

© 2024 Wantedly, Inc. $ whoami @bgpat / Atsushi Tanaka ウォンテッドリー株式会社 Infrastructure Engineer Kubernetes / Terraform SRE / Platform Engineering Datadog 歴 6〜7年くらい

Slide 6

Slide 6 text

© 2024 Wantedly, Inc. Wantedlyのマイクロサービス (5年前) ● マイクロサービス70個以上 (社内サービスも含む)

Slide 7

Slide 7 text

© 2024 Wantedly, Inc. Wantedlyのマイクロサービス (5年前)

Slide 8

Slide 8 text

© 2024 Wantedly, Inc. そこで分散トレーシング (Datadog APM)

Slide 9

Slide 9 text

© 2024 Wantedly, Inc. を導⼊して5年が経過しました

Slide 10

Slide 10 text

© 2024 Wantedly, Inc. 導⼊時からの変化

Slide 11

Slide 11 text

© 2024 Wantedly, Inc. マイクロサービス化がさらに進んだ ● マイクロサービス70個以上 (社内サービスも含む) →当時と同じ数え⽅で 150 サービス超 Service Catalog には 82 サービスが存在

Slide 12

Slide 12 text

© 2024 Wantedly, Inc. マイクロサービス化がさらに進んだ 分散トレーシングの価値は上がっている

Slide 13

Slide 13 text

© 2024 Wantedly, Inc. 5年が経過して⾒えた課題

Slide 14

Slide 14 text

© 2024 Wantedly, Inc. いつの間にか壊れるトレース 発⽣した問題 ● トレースが分断されている ● ⼊っていてほしい情報が抜け落ちている ○ ユーザーID ○ エラー情報 原因 ● フレームワークの変更 ● ライブラリのアップデート ○ トレーシングライブラリを複数⼊れていると問題になりやすい

Slide 15

Slide 15 text

© 2024 Wantedly, Inc. いつの間にか壊れるトレース トレースが壊れる 使いづらい 利⽤者減 メンテされない

Slide 16

Slide 16 text

© 2024 Wantedly, Inc. 扱える⼈の2極化 普段からAPMを活⽤している⼈ vs 全く使わない⼈ 導⼊当時は勉強会を実施したがここ数年はしていない ↓ ⼀番効果を発揮する障害対応で 何をすればいいか分からない⼈が増えた

Slide 17

Slide 17 text

© 2024 Wantedly, Inc. 扱える⼈の2極化 ←利⽤しているツールのアンケート結果 エンジニアの約3割は Datadog を使っていない

Slide 18

Slide 18 text

© 2024 Wantedly, Inc. 扱える⼈の2極化 障害訓練の振り返りから抜粋 ● Datadog 操作なれてなくてやりたいことがぱっとできなかった ○ env どこで指定するんだっけ ● データドッグの使い⽅なんとなく理解した ● 調査の⽅法が全然分からなかった ○ どのツールを使えばいいか分からなかった ○ Datadogの⾒⽅がパッと分からなかった ● Datadog の⾒⽅に⼾惑ったのでチートシートなどがほしい ● Datadog の trace がつながってなかった ● Datadog の操作になれていない⼈が多かった印象が強い ○ Datadog オペレーション講習会みたいなものをやると良さそう

Slide 19

Slide 19 text

© 2024 Wantedly, Inc. まとめ APM は導⼊後のメンテナンスが重要 ● トレースが期待した状態になっているかの確認‧修正 ○ 気付いたら分断されていたり必要な値が⼊っていないことがある ○ 負のループに陥らないように対応が必要 ● 利⽤者への普及活動 ○ とりあえず⼊れただけの状態で使ってくれる⼈は限られている ○ 普段から慣れていないといざというときに使えない ○ 勉強会や障害訓練等で利⽤を広げる活動も必要

Slide 20

Slide 20 text

© 2024 Wantedly, Inc. 詳しい話は懇親会 orカジュアル⾯談で https://www.wantedly.com/projects/522096