Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Datadog LLM Observabilityで実現するLLMOps実践事例 / prac...

Datadog LLM Observabilityで実現するLLMOps実践事例 / practical-llm-observability-with-datadog

CloudNative Days Winter 2025 の登壇スライドです。
https://event.cloudnativedays.jp/cndw2025/talks/2765

Avatar for 逆井(さかさい)

逆井(さかさい)

November 20, 2025
Tweet

More Decks by 逆井(さかさい)

Other Decks in Technology

Transcript

  1. CloudNative Days Winter 2025 今日の全体感について さかさい(Datadog) ともっぴさん(タイミー) Yanagi さん(タイミー) 前座:

    Datadog や LLM Observability について 本編1: タイミーにおける LLM 利用と、 なぜタイミーで LLMOps が必要なのかについて Datadog の LLMOps のための機能 本編2: Datadog の LLM Observability を用いた タイミーの LLMOps 課題への取り組み事例 10分 15分 15分
  2. CloudNative Days Winter 2025 逆 井 啓 佑 さかさい Bio

    • Datadog Japan で働いています • #o11yconjp の共同オーガナイザー • #〆のラーメンまである倶楽部 という謎の団体メンバー ひとこと • CNDW 登壇 4 回目で 初めて Day1 登壇 です! 逆井(さかさい) という名前で X にいます 🙏 2022 2023 2024
  3. 5 Company Highlights 企業情報ハイライト 2010 ニューヨークにて創業 33 事業展開している国 6,500 グローバルの従業員数

    non-GAAPベースの研究開発投資比率 28% 30,000 エンタープライズのお客様社数 Datadogの統合基盤上で 提供されている製品群 23 Datadog製品をに製品以上 お使いのお客様 83% $2.68B (+26%) サブスクリプションの 年間経常売上 (ガイダンス) 2019年9月19日 NASDAQに上場 (DDOG) クラウド時代の モニタリング&セキュリティ プラットフォーム Datadogとは S&P 500 銘柄に追加! (2025/7/9)
  4. セキュリティ 分析 Cloud Service Management クラウドサービスマネジメント 監視 & 運用 最適化

    ソフトウェア開発 • リアルユーザー 監視 • プロダクト分析 - ヒートマップ - クリックマップ - スクロールマップ - ファネル分析 • モバイル アプリテスト • セッション リプレイ • クラウド セキュリティ管理 • コードセキュリティ • クラウド SIEM • 機密データスキャナ • ワークロード 保護 • App and API 保護 • インフラ監視 • ネットワーク監視 • APM • 合成監視 • ログ管理 • LLM オブザーバビリ ティ • ユニバーサル サービス監視 • オブザーバビリティパイ プライン • Continuous Profiler • クラウドコスト管理 • データベース監視 • データストリーム監視 • データジョブ監視 • データ オブザーバビリティ • CI/CD 可視化 • テスト最適化 • Continuous Testing Datadog のプラットフォーム ビジネス 開発 監視 運用 最適化 リリース テスト ユーザー 理解 ユーザー サポート 稼働 セキュア コード ビジネス 成長 ビジネス 分析 6 • インシデント管理 • オンコール • Cloudcraft • 内部開発者ポータル (IDP) • リソースカタログ • SLO • ワークフロー オートメーション • App Builder • ケース管理 • イベント管理 AIOps 機能群 ( Bits AI, Watchdog, ML based Monitor, NL Search ) 開発からビジネスまで広範囲に支援
  5. CloudNative Days Winter 2025 Datadog が提供している AI 関連の機能 Datadog プラットフォーム

    全体にわたる AI 機能 AI for オブザーバビリティ お客様自身の AI の開発と 監視を支援するツール オブザーバビリティ for AI • AI インテグレーション ◦ Gemini, Bedrock,••• • GPU Monitoring • LLM Observability •   Bits AI • Datadog MCP Server
  6. CloudNative Days Winter 2025 Datadog が提供している AI 関連の機能 Datadog プラットフォーム

    全体にわたる AI 機能 AI for オブザーバビリティ お客様自身の AI の開発と 監視を支援するツール オブザーバビリティ for AI •   Bits AI • Datadog MCP Server • AI インテグレーション ◦ Gemini, Bedrock,••• • GPU Monitoring • LLM Observability AI "で" 監視 AI "を" 監視 関連 の something
  7. CloudNative Days Winter 2025 Datadog が提供している AI 関連の機能 Datadog プラットフォーム

    全体にわたる AI 機能 AI for オブザーバビリティ • AI インテグレーション ◦ Gemini, Bedrock,••• • GPU Monitoring • LLM Observability お客様自身の AI の開発と 監視を支援するツール オブザーバビリティ for AI •   Bits AI • Datadog MCP Server AI "で" 監視 AI "を" 監視 関連 の something
  8. CloudNative Days Winter 2025 LLM を使ったサービス 処理 / 推論 ⼊⼒

    回答 LLM を使ったサービスのオブザーバビリティ
  9. CloudNative Days Winter 2025 本日の全体感について Prompt Injection ネガティブ感情 ハルシネーション 💦

    LLM を使ったサービスの オブザーバビリティ の観点 実際には、正常なサービス運用ができていない可能性 があるかもしれない • LLM の振る舞いは非決定的 • 内部の処理はブラックボックスになりがち • ユーザーからのリクエストも多種多様 • e.t.c... LLM を使ったサービス 処理 / 推論
  10. CloudNative Days Winter 2025 処理 / 推論 入力 回答 LLM

    を使ったサービスのオブザーバビリティ観点 システムの複雑さ • LLM 呼び出しの複雑さ • LLM アプリケーションと 関係する外部コンポーネント コンテキストの複雑さ • ユーザー行動の理解 • ユーザー感情の理解 ブラックボックス性 • ハルシネーション • LLM 使用状況の把握 • LLM コスト、トークンの管理 出力の予測不能さ • 回答自体の品質評価 • モデルによる回答品質の評価 セキュリティ • 重要情報の漏洩 • 学習データの汚染 • プロンプトインジェクション ...
  11. CloudNative Days Winter 2025 処理 / 推論 入力 回答 LLM

    を使ったサービスのオブザーバビリティ観点 システムの複雑さ • LLM 呼び出しの複雑さ • LLM アプリケーションと関係する外部コンポーネント コンテキストの複雑さ • ユーザー行動の理解 • ユーザー感情の理解 ブラックボックス性 • ハルシネーション • 使用状況の把握、LLM コストの管理 出力の予測不能さ • 回答自体の品質評価 • モデルによる回答品質の評価 セキュリティ • 重要情報の漏洩 • 学習データの汚染 • プロンプトインジェクション e.t.c... いっぱい    あるよ...
  12. CloudNative Days Winter 2025 処理 / 推論 入力 回答 LLM

    を使ったサービスのオブザーバビリティ観点 システムの複雑さ • LLM 呼び出しの複雑さ • LLM アプリケーションと関係する外部コンポーネント コンテキストの複雑さ • ユーザー行動の理解 • ユーザー感情の理解 ブラックボックス性 • ハルシネーション • 使用状況の把握、LLM コストの管理 出力の予測不能さ • 回答自体の品質評価 • モデルによる回答品質の評価 セキュリティ • 重要情報の漏洩 • 学習データの汚染 • プロンプトインジェクション e.t.c... いっぱい    あるよ... Datadog LLM Observability に任せましょう
  13. 品質と安全性の向上 自動評価機能により、プロンプトを使ったユーザーの 感情分析、プロンプトインジェクション や ハルシネーション 、機密情報の漏洩 を自動 で特定できるようにします。 LLM Observability

    19 パフォーマンス向上とコスト削減 レイテンシ や トークン数 といった LLM アプリ ケーションの主要なメトリクスを可視化し、リアルタイ ムアラートで異常に対処できるようにします。 エージェントシステムの可視化 エージェントをチャートとして可視化 するとで、エージェントアプリケーションを監視。ボト ルネックの特定や、トラブルシューティングを容易に します。
  14. CloudNative Days Winter 2025 監視だけではなく、日々の改善にも Datadog を! 検 知 LLM

    アプリケーションでは継続的な改善が重要 モデルやプロンプト、パラメーターの微調整によって品質や一貫性を高める必要がある 実 験 結 果 比 較
  15. CloudNative Days Winter 2025 監視だけではなく、日々の改善にも Datadog を! 検 知 LLM

    アプリケーションでは継続的な改善が重要 モデルやプロンプト、パラメーターの微調整によって品質や一貫性を高める必要がある 実 験 複数結果を 比較 どの設定やモデルが ・ 精度やコスト ・ 応答速度 が最適か横断的に判断 結 果 比 較 LLM トレース から問題を 検知 ・ 意図しない出力 ・ 高いレイテンシー ・ 高コストな処理 問題の LLM トレース を使って 実験 ・ プロンプトの修正 ・ モデル、パラメーターの 変更(temperature, max_tokens ) 実験のスコア 結果 を分析して、最適な パラメーターセット を抽出
  16. CloudNative Days Winter 2025 監視だけではなく、日々の改善にも Datadog を! 検 知 LLM

    アプリケーションでは継続的な改善が重要 モデルやプロンプト、パラメーターの微調整によって品質や一貫性を高める必要がある 実 験 結 果 比 較 継続的な改善
  17. CloudNative Days Winter 2025 監視だけではなく、日々の改善にも Datadog を! 検 知 実

    験 結 果 比 較 Evaluations により異常な LLM トレースを 検知
  18. CloudNative Days Winter 2025 監視だけではなく、日々の改善にも Datadog を! 検 知 実

    験 結 果 比 較 Playground により、Datadog 上で実験の実行
  19. CloudNative Days Winter 2025 監視だけではなく、日々の改善にも Datadog を! 検 知 実

    験 結 果 比 較 Compare により、実験結果を比較して最適化
  20. • アップロードされたファイル や実際の本番トレースからデータ セットを作成・バージョン管理 • 実験の実行、その結果の記録と 比較、パフォーマンスへの影響を測 定 LLM アプリや

    AI エージェントの 開発。ライフサイクル全体をサ ポートする機能。 27 LLM Observability Experiments 🎯 こんなお客様に最適です ... LLM アプリのパフォーマンスを改善するために、開発中や 本番環境での問題が発生後にすばやく反復・改善したい方 👇 使用開始するに は 対象となるお客様の役割 • AI エンジニア • Data Scientists Preview Included in LLM Observability Watch the keynote! 27
  21. • アップロードされたファイル または実際の本番トレースからデー タセットを作成・バージョン管理 • 実験の実行、その結果の記録と 比較、パフォーマンスへの影響を測 定 LLM アプリや

    AI エージェントの開発 ライフサイクル全体をサポート 28 Datasets & Experiments 🎯 こんなお客様に最適です ... LLM アプリのパフォーマンスを改善するために、開発中や 本番環境での問題が発生後にすばやく反復・改善したい方 👇 使用開始するに は 対象となるお客様の役割 • AI エンジニア • Data Scientists Preview Included in LLM Observability Watch the keynote! 28 Datadog の LLM Observability 機能を使うことで LLMOps をここまで一気通貫で実施できる ようになります!
  22. • アップロードされたファイル または実際の本番トレースからデー タセットを作成・バージョン管理 • 実験の実行、その結果の記録と 比較、パフォーマンスへの影響を測 定 LLM アプリや

    AI エージェントの開発 ライフサイクル全体をサポート 29 Datasets & Experiments 🎯 こんなお客様に最適です ... LLM アプリのパフォーマンスを改善するために、開発中や 本番環境での問題が発生後にすばやく反復・改善したい方 👇 使用開始するに は 対象となるお客様の役割 • AI エンジニア • Data Scientists Preview Included in LLM Observability Watch the keynote! 29 結構気になりましたよね??? 気になったかたは Datadog ブースでぜひ実際の画面を 見てください!
  23. CloudNative Days Winter 2025 前座のまとめ • Datadog には LLM アプリのオブザーバビリティに特化した

    LLM Observabitliy という機能があります • LLM アプリの監視だけではなく、 開発・改善にも使える LLM Observability Experiments という機能も リリースされています(Preview) • アーリーアダプターとして取り組んでいただいている タイミーさんから Datadog LLM Observability の事例 を話してもらいます!
  24. 自己紹介 34 斎藤 知之(tomoyuki saito) • MLOpsエンジニア • 最近の仕事 ◦

    ML基盤の構築・運用 ◦ LLMアプリケーションの設計・構築
  25. LLMを使った機能はどうデリバリーされているか 43 タイミーのエンジニア組織 • チームトポロジーをベースとした組織設計 Stream-Aligned Team (Product Engineer) Complicated

    Subsystem Team (Data Scientist) Platform Team (Platform Engineer) Platform Team (MLOps Engineer) X-as-a-Service X-as-a-Service X-as-a-Service
  26. LLMを使った機能はどうデリバリーされているか 44 API Call Deploy Deploy Platform Team (Platform Engineer)

    X-as-a-Service SA Team (Product Engineer) Platform Team (MLOps Engineer) X-as-a-Service CS Team (Data Scientist) ECS Cloud Run X-as-a-Service
  27. LLMOps概要 47 一般論として、   とは? 大規模言語モデルを最適な状態で運用、とは? • Large Language Model Operations を略したもの

    • 大規模言語モデルを最適な状態で運用するための取り組み • 非決定的な挙動をするLLMを組み込んだアプリケーションの品質をどう担保するか • LLM Workflow / RAG などの複雑なプロセスとどう向き合っていくか • 高速かつ効率的な検証・デプロイをどう確保するか • etc…
  28. タイミーにおけるLLMOps課題 50 分散システム LLM Application LLM LifeCycle 整理すると3つの課題に分類できる • LLM機能はサブシステムとしてAPIを提供することが多い

    • 分散システムとしての信頼性向上が必須 • LLM機能の内部挙動がブラックボックスになりがち • コストやパフォーマンスのモニタリングが重要 • 品質劣化やモデルの非推奨などの対応が求められる • オフライン・オンライン評価の仕組みで、継続的に改善がしたい
  29. Datadog LLM Observability導入の効果 53 • 消費トークン数がモニタリングさ れておらず、目視によるざっくり としたコストモニタリング • デプロイバージョンごとに

    パフォーマンスの比較ができない • 特に複数のLLMを使っていると、 障害時の原因特定と影響特定に時 間がかかる ⌛導入前 • 消費トークン数がモニタリングさ れ、可視化 & コスト増のアラート を設定可能に • バージョンごとのパフォーマンス 比較と、SLOを元にした運用に • E2Eのモニタリングをしているの で、どのモデルがエラーとなり、 どう影響が伝播しているか明確に 🚀導入後
  30. MLOps視点でのWhy Datadog? 56 フルマネージドで、MLOps組織としてインフラ管理から解放される 既存構成(Cloud Run)との相性の良さ タイミー全社の基盤として展開しやすい • タイミーのMLOps /

    LLMOps組織は拡大期 • 優先度的にも工数的にも、セルフホスト型ツールの本格運用は現段階では難しい • すでにCloud Runのサイドカーとして、datadoghq/serverless-init を導入済み • 環境変数 DD_LLMOBS_ENABLED = true をセットするだけで導入できる • 将来的に、LLMOps基盤はデータ組織に閉じず、全社展開したい • プロダクト組織でもDatadogを利用しているので、浸透が容易
  31. Single LLMからLLM Workflowへ 64 • スモールスタートに最適 • タスク複雑化への対応が困難 Single LLM

    Call • 複雑なタスクを分割して解く • コンポーネントごとに独立に改善 LLM Workflow
  32. 67 from ddtrace.llmobs.decorators import ( task, workflow, ) @task def

    preprocess(document): return ... @workflow def run_workflow(document): processed_document = preprocess(document) result = llm_call(processed_document) return result • デコレーターでTrace / Spanを定義 • 主要なLLMフレームワークとの Integrationも可能 ◦ OpenAI ◦ LangChain ◦ LangGraph etc…
  33. • 評価対象のタスクに対して ◦ データセット ◦ 評価ロジック を指定して実験を実行 • 評価ロジックはカスタム実装可能 ◦

    メトリクス ◦ LLM-as-a-Judge 76 from ddtrace.llmobs import LLMObs dataset = LLMObs.pull_dataset( project_name="project_name", dataset_name="dataset_name", ) experiment = LLMObs.experiment( name="experiment_name", description="description", task=task, dataset=dataset, evaluators=[evaluator], config={"version": "0.1.0"}, ) results = experiment.run()
  34. Datadog LLM Observability Experiment 導入の効果 77 データセット管理 実験管理 定性・定量評価 導入前

    • BigQueryでの管理 • versioningの自前実装 • 実験管理ツールや ストレージへの記録 • ファイルへExportして 詳細なエラー分析 導入後 • 自動的なversioning • 本番環境のTracingとの統合 • Datadogへの結果の集約 • UIで振る舞いを比較・分析
  35. CloudNative Days Winter 2025 Datadog Live Tokyo 2025 があります! Datadog

    ユーザによる 様々な活用事例セッションがあります。 ぜひ参加ください!