Upgrade to Pro — share decks privately, control downloads, hide ads and more …

MLflow 3で実現する OpenHandsの可観測性

Sponsored · Ship Features Fearlessly Turn features on and off without deploys. Used by thousands of Ruby developers.

MLflow 3で実現する OpenHandsの可観測性

MLflow3とOpenHands SDK/CLIを組み合わせると、会話の内容やツールの実行、トークンの使用量を記録したトレースを簡単に取ることができます。またトレースを元にスキルやツールの有効性を定量的に評価し、Coding Agentに自己改善ループを回すアプローチも紹介します。

Avatar for Yuki Watanabe

Yuki Watanabe

April 02, 2026

More Decks by Yuki Watanabe

Other Decks in Technology

Transcript

  1. トレーシングの有効化 1 MLflowをインストールしてサーバーを起動 uvx mlflow server —port 5000 2 環境変数を設定

    export OTEL_EXPORTER_OTLP_ENDPOINT=http://localhost:5000 export OTEL_EXPORTER_OTLP_HEADERS=x-mlflow-experiment-id=123 export OTEL_EXPORTER_OTLP_TRACES_PROTOCOL=http/protobuf 3 OpenHands CLI/SDKを通常通り使用する openhands セルフホストすることで、 SaaSに データを送らずにローカルで完結する .
  2. トレースに保存される内容 • 会話の内容 • セッション ID • 利用可能なツール • 実際のツール呼び出し

    • トークン使用量 • 各ステップのレイテンシ • 使用したモデル • …
  3. Coding Agentsにトレースは必要? 課題を解決するためには、 コンテキスト が最重要 コードレビュー デザイン E2Eテスト コンテンツ制作 トレーディング

    OpenHandsをコーディングだけに使っている場合、トレースは必要ないかもしれない Coding Agentsは今やコーディングのみではなく、 課題解決のツールとなりつつある トレーシングはコンテキストを可視化 して分析可能にする
  4. まとめ • 環境変数を設定するだけで、 OpenHands SDK/CLIのトレースが可能 • 100%オープンソース & セルフホストによる透明性 •

    トレースには会話の内容やツール呼び出し、トークン使用量、レイテンシなどが記録 • 記録したトレースを MLflowで評価してスキルやツールの有効性を確認 • 定量的な基準があることで、 Coding Agentに自己改善ループさせることも可能 OpenHandsドキュメンテーション: https://docs.openhands.dev/sdk/guides/observability#mlflow-setup MLflowトレーシング: https://mlflow.org/docs/latest/genai/tracing/  参考