Datadog LLM Observabilityで実現するLLMOps実践事例 / practical-llm-observability-with-datadog

Datadog スポンサーセッション CloudNative Days Winter 2025 ( #CNDW2025_D ) トゲくん
スーちゃん

新マスコット爆誕おめでとうございます！！！ CloudNative Days Winter 2025

CloudNative Days Winter 2025 今日の全体感についてさかさい（Datadog）ともっぴさん（タイミー） Yanagi さん（タイミー）前座:
Datadog や LLM Observability について本編1: タイミーにおける LLM 利用と、なぜタイミーで LLMOps が必要なのかについて Datadog の LLMOps のための機能本編2: Datadog の LLM Observability を用いたタイミーの LLMOps 課題への取り組み事例 10分 15分 15分

CloudNative Days Winter 2025 逆井啓佑さかさい Bio
• Datadog Japan で働いています • #o11yconjp の共同オーガナイザー • #〆のラーメンまである倶楽部という謎の団体メンバーひとこと • CNDW 登壇 4 回目で初めて Day1 登壇です！逆井(さかさい) という名前で X にいます 🙏 2022 2023 2024

5 Company Highlights 企業情報ハイライト 2010 ニューヨークにて創業 33 事業展開している国 6,500 グローバルの従業員数
non-GAAPベースの研究開発投資比率 28% 30,000 エンタープライズのお客様社数 Datadogの統合基盤上で提供されている製品群 23 Datadog製品をに製品以上お使いのお客様 83% $2.68B (+26%) サブスクリプションの年間経常売上 (ガイダンス） 2019年9月19日 NASDAQに上場 (DDOG) クラウド時代のモニタリング＆セキュリティプラットフォーム Datadogとは S&P 500 銘柄に追加！ (2025/7/9)

セキュリティ分析 Cloud Service Management クラウドサービスマネジメント監視 & 運用最適化
ソフトウェア開発 • リアルユーザー監視 • プロダクト分析 - ヒートマップ - クリックマップ - スクロールマップ - ファネル分析 • モバイルアプリテスト • セッションリプレイ • クラウドセキュリティ管理 • コードセキュリティ • クラウド SIEM • 機密データスキャナ • ワークロード保護 • App and API 保護 • インフラ監視 • ネットワーク監視 • APM • 合成監視 • ログ管理 • LLM オブザーバビリティ • ユニバーサルサービス監視 • オブザーバビリティパイプライン • Continuous Proﬁler • クラウドコスト管理 • データベース監視 • データストリーム監視 • データジョブ監視 • データオブザーバビリティ • CI/CD 可視化 • テスト最適化 • Continuous Testing Datadog のプラットフォームビジネス開発監視運用最適化リリーステストユーザー理解ユーザーサポート稼働セキュアコードビジネス成長ビジネス分析 6 • インシデント管理 • オンコール • Cloudcraft • 内部開発者ポータル (IDP) • リソースカタログ • SLO • ワークフローオートメーション • App Builder • ケース管理 • イベント管理 AIOps 機能群 ( Bits AI, Watchdog, ML based Monitor, NL Search ) 開発からビジネスまで広範囲に支援

CloudNative Days Winter 2025 Datadog が提供している AI 関連の機能 Datadog プラットフォーム
全体にわたる AI 機能 AI for オブザーバビリティお客様自身の AI の開発と監視を支援するツールオブザーバビリティ for AI • AI インテグレーション ◦ Gemini, Bedrock,••• • GPU Monitoring • LLM Observability • 　　Bits AI • Datadog MCP Server

全体にわたる AI 機能 AI for オブザーバビリティお客様自身の AI の開発と監視を支援するツールオブザーバビリティ for AI • 　　Bits AI • Datadog MCP Server • AI インテグレーション ◦ Gemini, Bedrock,••• • GPU Monitoring • LLM Observability AI "で" 監視 AI "を" 監視関連の something

全体にわたる AI 機能 AI for オブザーバビリティ • AI インテグレーション ◦ Gemini, Bedrock,••• • GPU Monitoring • LLM Observability お客様自身の AI の開発と監視を支援するツールオブザーバビリティ for AI • 　　Bits AI • Datadog MCP Server AI "で" 監視 AI "を" 監視関連の something

LLM を使ったアプリ作ってるかた 󰢧 CloudNative Days Winter 2025

LLM を使ったアプリでオブザーバビリティをやってるかた 󰢧 CloudNative Days Winter 2025

LLM を使ったアプリでオブザーバビリティをやってるかた 󰢧 CloudNative Days Winter 2025 本セッションでは、LLM を使ったアプリの
品質、信頼性を今より高める Tips を持ち帰っていただけるよう作りました！

CloudNative Days Winter 2025 LLM を使ったサービス処理 / 推論⼊⼒
回答 LLM を使ったサービスのオブザーバビリティ

CloudNative Days Winter 2025 LLM を使ったサービスのオブザーバビリティ従来のアプリケーションのテレメトリーシグナルを計測する限りでは、サービスは問題なく運営ができていそうに見える　✔ リクエスト数
正常　✔ エラーなし　✔ レスポンスタイム良好 LLM を使ったサービス処理 / 推論 CloudNative Days Winter 2025

CloudNative Days Winter 2025 本日の全体感について Prompt Injection ネガティブ感情ハルシネーション 💦
LLM を使ったサービスのオブザーバビリティの観点実際には、正常なサービス運用ができていない可能性があるかもしれない • LLM の振る舞いは非決定的 • 内部の処理はブラックボックスになりがち • ユーザーからのリクエストも多種多様 • e.t.c... LLM を使ったサービス処理 / 推論

CloudNative Days Winter 2025 処理 / 推論入力回答 LLM
を使ったサービスのオブザーバビリティ観点システムの複雑さ • LLM 呼び出しの複雑さ • LLM アプリケーションと関係する外部コンポーネントコンテキストの複雑さ • ユーザー行動の理解 • ユーザー感情の理解ブラックボックス性 • ハルシネーション • LLM 使用状況の把握 • LLM コスト、トークンの管理出力の予測不能さ • 回答自体の品質評価 • モデルによる回答品質の評価セキュリティ • 重要情報の漏洩 • 学習データの汚染 • プロンプトインジェクション ...

を使ったサービスのオブザーバビリティ観点システムの複雑さ • LLM 呼び出しの複雑さ • LLM アプリケーションと関係する外部コンポーネントコンテキストの複雑さ • ユーザー行動の理解 • ユーザー感情の理解ブラックボックス性 • ハルシネーション • 使用状況の把握、LLM コストの管理出力の予測不能さ • 回答自体の品質評価 • モデルによる回答品質の評価セキュリティ • 重要情報の漏洩 • 学習データの汚染 • プロンプトインジェクション e.t.c... いっぱい　　あるよ...

を使ったサービスのオブザーバビリティ観点システムの複雑さ • LLM 呼び出しの複雑さ • LLM アプリケーションと関係する外部コンポーネントコンテキストの複雑さ • ユーザー行動の理解 • ユーザー感情の理解ブラックボックス性 • ハルシネーション • 使用状況の把握、LLM コストの管理出力の予測不能さ • 回答自体の品質評価 • モデルによる回答品質の評価セキュリティ • 重要情報の漏洩 • 学習データの汚染 • プロンプトインジェクション e.t.c... いっぱい　　あるよ... Datadog LLM Observability に任せましょう

品質と安全性の向上自動評価機能により、プロンプトを使ったユーザーの感情分析、プロンプトインジェクションやハルシネーション、機密情報の漏洩を自動で特定できるようにします。 LLM Observability
19 パフォーマンス向上とコスト削減レイテンシやトークン数といった LLM アプリケーションの主要なメトリクスを可視化し、リアルタイムアラートで異常に対処できるようにします。エージェントシステムの可視化エージェントをチャートとして可視化するとで、エージェントアプリケーションを監視。ボトルネックの特定や、トラブルシューティングを容易にします。

CloudNative Days Winter 2025 監視だけではなく、日々の改善にも Datadog を！検知 LLM
アプリケーションでは継続的な改善が重要モデルやプロンプト、パラメーターの微調整によって品質や一貫性を高める必要がある実験結果比較

アプリケーションでは継続的な改善が重要モデルやプロンプト、パラメーターの微調整によって品質や一貫性を高める必要がある実験複数結果を比較どの設定やモデルが・精度やコスト・応答速度が最適か横断的に判断結果比較 LLM トレースから問題を検知・意図しない出力・高いレイテンシー・高コストな処理問題の LLM トレースを使って実験・プロンプトの修正・モデル、パラメーターの変更(temperature, max_tokens ) 実験のスコア結果を分析して、最適なパラメーターセットを抽出

アプリケーションでは継続的な改善が重要モデルやプロンプト、パラメーターの微調整によって品質や一貫性を高める必要がある実験結果比較継続的な改善

CloudNative Days Winter 2025 監視だけではなく、日々の改善にも Datadog を！検知実
験結果比較 Evaluations により異常な LLM トレースを検知

験結果比較 Playground により、Datadog 上で実験の実行

験結果比較 Experiment により、実験結果の解析

験結果比較 Compare により、実験結果を比較して最適化

• アップロードされたファイルや実際の本番トレースからデータセットを作成・バージョン管理 • 実験の実行、その結果の記録と比較、パフォーマンスへの影響を測定 LLM アプリや
AI エージェントの開発。ライフサイクル全体をサポートする機能。 27 LLM Observability Experiments 🎯 こんなお客様に最適です ... LLM アプリのパフォーマンスを改善するために、開発中や本番環境での問題が発生後にすばやく反復・改善したい方 👇 使用開始するには対象となるお客様の役割 • AI エンジニア • Data Scientists Preview Included in LLM Observability Watch the keynote! 27

• アップロードされたファイルまたは実際の本番トレースからデータセットを作成・バージョン管理 • 実験の実行、その結果の記録と比較、パフォーマンスへの影響を測定 LLM アプリや
AI エージェントの開発ライフサイクル全体をサポート 28 Datasets & Experiments 🎯 こんなお客様に最適です ... LLM アプリのパフォーマンスを改善するために、開発中や本番環境での問題が発生後にすばやく反復・改善したい方 👇 使用開始するには対象となるお客様の役割 • AI エンジニア • Data Scientists Preview Included in LLM Observability Watch the keynote! 28 Datadog の LLM Observability 機能を使うことで LLMOps をここまで一気通貫で実施できるようになります！

• アップロードされたファイルまたは実際の本番トレースからデータセットを作成・バージョン管理 • 実験の実行、その結果の記録と比較、パフォーマンスへの影響を測定 LLM アプリや
AI エージェントの開発ライフサイクル全体をサポート 29 Datasets & Experiments 🎯 こんなお客様に最適です ... LLM アプリのパフォーマンスを改善するために、開発中や本番環境での問題が発生後にすばやく反復・改善したい方 👇 使用開始するには対象となるお客様の役割 • AI エンジニア • Data Scientists Preview Included in LLM Observability Watch the keynote! 29 結構気になりましたよね？？？気になったかたは Datadog ブースでぜひ実際の画面を見てください！

CloudNative Days Winter 2025 前座のまとめ • Datadog には LLM アプリのオブザーバビリティに特化した
LLM Observabitliy という機能があります • LLM アプリの監視だけではなく、開発・改善にも使える LLM Observability Experiments という機能もリリースされています（Preview） • アーリーアダプターとして取り組んでいただいているタイミーさんから Datadog LLM Observability の事例を話してもらいます！

2025/11/18 株式会社タイミー Datadog LLM Observabilityで実現する LLMOps実践事例

目次 • タイミーにおけるLLM利用と LLMOpsの必要性 • Datadog LLM Observabilityを用いた LLMOps課題への取り組み事例 •
まとめ

1 タイミーにおける LLM利用とLLMOpsの必要性

自己紹介 34 斎藤知之（tomoyuki saito） • MLOpsエンジニア • 最近の仕事 ◦
ML基盤の構築・運用 ◦ LLMアプリケーションの設計・構築

タイミーについて

タイミーとは 36 ｢働きたい時間｣と｢働いてほしい時間｣をマッチングするスキマバイトサービス従来の「求人サイト」でも「派遣」でもない

タイミーの特徴 37

タイミーの使われ方働き手と雇い手がいるBtoCプラットフォームを提供しています。外からは見えづらいですが、スポットワークを実現するための雇い手の手続きや課題は多く、そのプロセスのほとんどをシステム化しています。

タイミーとLLM タイミーのLLMOps

タイミーでのLLM活用 in Service in Office Suite in Coding Agent LLM
API

タイミーでのLLM活用 in Service in Office Suite in Coding Agent LLM
API 今回はここの話

タイミー x LLMの可能性 42 プラットフォーム上の様々なフェーズで　　　　が活躍 FY25/10期第3四半期決算説明資料より抜粋

LLMを使った機能はどうデリバリーされているか 43 タイミーのエンジニア組織 • チームトポロジーをベースとした組織設計 Stream-Aligned Team (Product Engineer) Complicated
Subsystem Team (Data Scientist) Platform Team (Platform Engineer) Platform Team (MLOps Engineer) X-as-a-Service X-as-a-Service X-as-a-Service

LLMを使った機能はどうデリバリーされているか 44 API Call Deploy Deploy Platform Team (Platform Engineer)
X-as-a-Service SA Team (Product Engineer) Platform Team (MLOps Engineer) X-as-a-Service CS Team (Data Scientist) ECS Cloud Run X-as-a-Service

LLMを利用したアーキテクチャの一例 45 Findy Tools: LLMによる非同期文章レビュー基盤アーキテクチャ

LLM利用拡大と悩めるMLOps Team 46 LLMによる価値創出が広がって楽しい！同時に湧き起こる、不安や心配... でなんとかしたい！プロンプト管理...コスト管理...Observability…

LLMOps概要 47 一般論として、　　　とは？大規模言語モデルを最適な状態で運用、とは？ • Large Language Model Operations を略したもの
• 大規模言語モデルを最適な状態で運用するための取り組み • 非決定的な挙動をするLLMを組み込んだアプリケーションの品質をどう担保するか • LLM Workﬂow / RAG などの複雑なプロセスとどう向き合っていくか • 高速かつ効率的な検証・デプロイをどう確保するか • etc…

LLMOps概要 48 タイミーにおける、　　　とは？ • Production ReadyなLLMアプリケーションを構築・運用するための全て https://tech.timee.co.jp/entry/2025/11/04/113000

Production ReadyなLLMアプリケーションとは 49

タイミーにおけるLLMOps課題 50 分散システム LLM Application LLM LifeCycle 整理すると３つの課題に分類できる • LLM機能はサブシステムとしてAPIを提供することが多い
• 分散システムとしての信頼性向上が必須 • LLM機能の内部挙動がブラックボックスになりがち • コストやパフォーマンスのモニタリングが重要 • 品質劣化やモデルの非推奨などの対応が求められる • オフライン・オンライン評価の仕組みで、継続的に改善がしたい

タイミーにおけるLLMOps課題 51 分散システム LLM Application LLM LifeCycle いい感じに解決したい整理すると３つの課題に分類できる

タイミーにおけるLLMOps課題 52 分散システム LLM Application LLM LifeCycle Datadogを使うと、色々解決しそう Datadog APM
＋ Datadog LLM Observability Datadog LLM Observability Datasets & Experiments

Datadog LLM Observability導入の効果 53 • 消費トークン数がモニタリングされておらず、目視によるざっくりとしたコストモニタリング • デプロイバージョンごとに
パフォーマンスの比較ができない • 特に複数のLLMを使っていると、障害時の原因特定と影響特定に時間がかかる ⌛導入前 • 消費トークン数がモニタリングされ、可視化 & コスト増のアラートを設定可能に • バージョンごとのパフォーマンス比較と、SLOを元にした運用に • E2Eのモニタリングをしているので、どのモデルがエラーとなり、どう影響が伝播しているか明確に 🚀導入後

Datadog LLM Observability導入の効果 54 APMとの連携で、Traceに紐づいてパフォーマンスやコストを確認できる

Datadog LLM Observability導入の効果 55 LLM利用のコストやトークン消費数を可視化

MLOps視点でのWhy Datadog? 56 フルマネージドで、MLOps組織としてインフラ管理から解放される既存構成（Cloud Run）との相性の良さタイミー全社の基盤として展開しやすい • タイミーのMLOps /
LLMOps組織は拡大期 • 優先度的にも工数的にも、セルフホスト型ツールの本格運用は現段階では難しい • すでにCloud Runのサイドカーとして、datadoghq/serverless-init を導入済み • 環境変数 DD_LLMOBS_ENABLED = true をセットするだけで導入できる • 将来的に、LLMOps基盤はデータ組織に閉じず、全社展開したい • プロダクト組織でもDatadogを利用しているので、浸透が容易

2 Datadog LLM Observabilityを用いた LLMOps課題への取り組み事例

自己紹介 58 栁泉穂（Mizuho Yanagi） • データサイエンティスト • 直近ではLLMアプリケーション開発に従事 •
最近技術書を執筆しました →

事例：コンテンツモデレーションの取り組みプラットフォームの安全性担保のためにユーザーが投稿したコンテンツの審査を実施 59 post check User Operator feedback

コンテンツモデレーションへのLLMの導入審査の質・速度の向上を目的に審査フローの一部にLLMの推論を組み込み 60 post check check feedback feedback User LLM
Operator

LLMOpsに関連する課題 61 評価・改善サイクルの構築 • 信頼できる評価データセットの不在 • エラー分析・改善プロセスの煩雑化複雑なワークフローの把握 • LLMワークフローは複雑化しやすい
• 処理のボトルネックの把握が困難

Single LLMからLLM Workﬂowへ 63 • スモールスタートに最適 • タスク複雑化への対応が困難 Single LLM
Call

Single LLMからLLM Workﬂowへ 64 • スモールスタートに最適 • タスク複雑化への対応が困難 Single LLM
Call • 複雑なタスクを分割して解く • コンポーネントごとに独立に改善 LLM Workﬂow

高度化と透明性のトレードオフ 65 Single LLM Call LLM Workﬂow ワークフローの透明性 high low

Tracingによるワークフローの透明化 • Trace / Spanごとの I/Oの把握 • レイテンシの確認 • 消費トークンの
モニタリング 66

67 from ddtrace.llmobs.decorators import ( task, workflow, ) @task def
preprocess(document): return ... @workflow def run_workflow(document): processed_document = preprocess(document) result = llm_call(processed_document) return result • デコレーターでTrace / Spanを定義 • 主要なLLMフレームワークとの Integrationも可能 ◦ OpenAI ◦ LangChain ◦ LangGraph etc…

LLMアプリケーションの評価・改善のための諸課題 69 • 信頼できる評価用データセットの構築・管理 • 評価用のデータセットの継続的な拡張・バージョニング • ロジックの定量・定性評価 • 実験結果の記録・トレーサビリティの担保
etc…

評価・改善サイクル 70

評価・改善サイクル｜信頼できるデータセットの構築 72 入力、期待する出力、メタデータとともにレコードを管理 * 画像はダミーデータ

評価・改善サイクル｜データセットの段階的な拡張 73 本番環境で記録されたTraceをデータセットにシームレスに追加可能

過去の実験との比較により改善やリグレッションを定量・定性の両面からチェック評価・改善サイクル｜実験の記録 75 * 画像はダミーデータ

• 評価対象のタスクに対して ◦ データセット ◦ 評価ロジックを指定して実験を実行 • 評価ロジックはカスタム実装可能 ◦
メトリクス ◦ LLM-as-a-Judge 76 from ddtrace.llmobs import LLMObs dataset = LLMObs.pull_dataset( project_name="project_name", dataset_name="dataset_name", ) experiment = LLMObs.experiment( name="experiment_name", description="description", task=task, dataset=dataset, evaluators=[evaluator], config={"version": "0.1.0"}, ) results = experiment.run()

Datadog LLM Observability Experiment 導入の効果 77 データセット管理実験管理定性・定量評価導入前
• BigQueryでの管理 • versioningの自前実装 • 実験管理ツールやストレージへの記録 • ファイルへExportして詳細なエラー分析導入後 • 自動的なversioning • 本番環境のTracingとの統合 • Datadogへの結果の集約 • UIで振る舞いを比較・分析

• プロンプト管理・Tracingへの統合 • Human FeedbackのTraceへの紐付け • ML文脈で用いるメトリクスの記録 ◦ レコード単位ではなくデータセット全体に対する評価指標今後期待する機能
78

まとめ 79 1 LLMを取り巻く複雑性に立ち向かうためのLLMOps 3 評価・改善サイクルを回すための基盤の実現 2 複雑なLLMワークフローに対するObservability

80 Datadog から宣伝です！

CloudNative Days Winter 2025 Datadog Live Tokyo 2025 があります！ Datadog
ユーザによる様々な活用事例セッションがあります。ぜひ参加ください！

CloudNative Days Winter 2025 Datadog Advent Calendar があります！シリーズ1 はほとんど埋まりましたが、
シリーズ2 もあるのでぜひご参加ください 👋

83 ご清聴ありがとうございました引き続き CNDW 2025 を楽しみましょう！

記載されている会社名、商品名、またはサービス名は、各社の商標登録または商標です。

Datadog LLM Observabilityで実現するLLMOps実践事例 / prac...

Datadog LLM Observabilityで実現するLLMOps実践事例 / practical-llm-observability-with-datadog

More Decks by 逆井（さかさい）

Other Decks in Technology

Featured

Transcript