Upgrade to Pro — share decks privately, control downloads, hide ads and more …

W&B Fully Connected 2025 Day1 Workshop - Karakuri

W&B Fully Connected 2025 Day1 Workshop - Karakuri

W&B Fully Connected 2025 Day1に実施したワークショップ(カスタマーサポートAIの構築と改善 - カラクリ株式会社)の発表資料です。

ハンズオンリポジトリ
https://github.com/karakuri-ai/wandb-fully-connected-2025-karakuri-workshop

Avatar for KARAKURI Inc.

KARAKURI Inc.

October 31, 2025
Tweet

More Decks by KARAKURI Inc.

Other Decks in Programming

Transcript

  1. KARAKURI Inc. All rights reserved. 本セッションのGoal • Weaveを使ってAIエージェントのトレースログを追う • LLM-as-a-Judgeでチャットボットの自動精度評価実施のポイントを学ぶ

    • 企業独自の観点のチューニングをLLMで効率的に実施するポイントを学ぶ • 運用開始後、改善に繋がる評価のポイントを学ぶ 3
  2. 4 Agenda • カラクリの会社紹介 • Weaveの使い方(W&Bさんより) • カスタマーサポートAIの概要 • カスタマーサポートAIの構築と改善

    ~ カスタマー向けチャットボットのスタートから運用までを体験 ~ • カスタマーサポートAIのTips・失敗例
  3. 5 Agenda • カラクリの会社紹介 • Weaveの使い方(W&Bさんより) • カスタマーサポートAIの概要 • カスタマーサポートAIの構築と改善

    ~ カスタマー向けチャットボットのスタートから運用までを体験 ~ • カスタマーサポートAIのTips・失敗例
  4. KARAKURI Inc. All rights reserved. 大規模言語モデル開発 9 24.1 AWS Trainiumで70B(700億)パラメータの

    LLMを開発公開 24.5 AWS TrainiumでMoEの開発・公開 24.6 AIエージェント向けLLMを開発・公開 25.1 AWS Trainiumで32Bクラスの日本語推論モ デルを開発・公開 25.7 AWS TrainiumでCUA向け日本語画像推論モ デルを開発・公開 ※ CUA:Computer Using Agent
  5. KARAKURI Inc. All rights reserved. 自己紹介 大日方 孝輝(オビナタ コウキ) Research

    and Development Team / Team Leader • 大学院時代:ベイズ推論 / データ駆動科学 /材料科学応用 • カラクリ ◦ 自然言語処理:チャットボットモデル開発        テキストマイニング ◦ 検索エンジン:検索サービスの開発 ◦ 生成AI活用:RAG, AI Workflow, Agent • ワークフロー型のFAQ生成サービス(KKG)の評価ツールを内製 → 本イベントのきっかけに 🤝 10 ※ KKG:Karakuri Knowledge Generator
  6. 11 Agenda • カラクリの会社紹介 • Weaveの使い方(W&Bさんより) • カスタマーサポートAIの概要 • カスタマーサポートAIの構築と改善

    ~ カスタマー向けチャットボットのスタートから運用までを体験 ~ • カスタマーサポートAIのtips・失敗例
  7. Leadership AI分野で15年以上の経験 Weights & Biases: 世界No.1のAI開発者プラットフォーム AI開発者のための最高のツールを提供することをミッションとしています Technology エンドツーエンドのAI開発基盤 Customers

    1,400社以上のリーディング 企業が導入 12 パートナーシップ 100万人以上のAI実践者が利用 50,000以上のフレームワークとの統合 AIハイパースケーラー による買収 AI技術の幅と深さを支えるツール群 Training Fine-tuning Prompt engineering RAG Agents Guardrails 12
  8. 13

  9. AI開発には幅広いアプローチがある 基盤モデルから応用開発まで、AI開発の全工程をサポート 14 取り組んでいる企業の数 Low Model Customization OpenAI、Anthropic、Google、Amazon などの企業から 提供される既製モデルを使用します。モデルプロバイ

    ダーのAPIを用い、プロンプト・エージェントレベルの開 発 Moderate Customization Llama などのオープンウェイトモデルを使用し、ファイ ンチューニング In-house Model Development 自社で基盤モデルをトレーニング モデルカスタマイズのレベル 高 低
  10. 15 反復(品質向上) 精度・遅延・コスト・安全 性を評価・最適化  プロトタイプ AIアプリの初期バージョ ンを試作する デプロイ デプロイ・ ガードレール

    オブザーブ 監視・フィードバック収 集 Playground | Traces Guardrails Evaluations | Leaderboards User feedback Weave GenAI Application Development and more… • 入力・出力・メタデータ・コードをすべてトレース可 能することでモニタリングとデバッグを容易に • 評価の実行と追跡を中央で管理することで再現 性とチーム間コラボレーションを向上 • フレームワークやLLMに依存しない設計でありな がら、豊富なインテグレーションを提供 W&B Weave: Evaluate, monitor, and iterate
  11. 16 import weave weave.init() @weave.op() def get_relevant_documents(question:str): return docs get_relevant_documents(question)

    企業向けの安全なデプロイメント W&Bクライアント フロントエンド W&Bサーバー お客様セキュリティー領域 W&Bセキュリティー領域 W&B Weaveの基本的な使い方 @weave.op()デコレータひとつで生成AI APIの呼び出しに関連する すべてのコードがバージョン管理され、保存 ・共有されます
  12. 17 トレース • 開発時およびデプロイ後の挙動を 完全にモニタリング • Weaveはすべての入力データと出 力データを自動的に記録 • 簡単に操作できるトレースツリーに

    詳細な情報を記録 • レイテンシ、コストの記録も可能(イ ンテグレーションがあるモデルの場 合は自動で計算) • 幅広いインテグレーションを提供 and more…
  13. 19 評価 19 • テストデータセットとスコアラー(人手・オフ ライン・オンライン)を組み合わせて柔軟に 評価を行うフレームワーク • 強力なビジュアル比較機能を備え、結果 を直感的に分析可能

    • 高度な評価APIにより、任意のデータポイ ントのログ記録、カスタム集計、データセッ ト反復を完全に制御 • 評価データを中央で追跡し、再現性、コラ ボレーション、ガバナンスを確保
  14. Chapter 4 20 • ガードレールの目的 ◦ プロンプト・インジェクションのような悪意 のある行為を軽減 ◦ 幻覚や不適切なコンテンツの識別と防

    止 • 安全性と品質を確保するための事前構築されてい るスコアラーを提供 • 柔軟性: W&Bのスコアラーを使用したり、独自のサー ドパーティ製スコアラーや自家製スコアラーを利用 可能 ガードレール
  15. 21 Agenda • カラクリの会社紹介 • Weaveの使い方(W&Bさんより) • カスタマーサポートAIの概要 • カスタマーサポートAIの構築と改善

    ~ カスタマー向けチャットボットのスタートから運用までを体験 ~ • カスタマーサポートAIのTips・失敗例
  16. KARAKURI Inc. All rights reserved. 実行環境の準備 🌟 Google Colaboratoryでの実行を推奨します (大変申し訳ございません、本日午前中に更新したため、Colabの再保存をお願いいたします。)

    24 Colaboratoryへのアクセス方法 ・事前案内Notion ・GitHub:karakuri-ai/wandb-fully-conne cted -2025-karakuri-workshop ※ Google Colaboratoryを利用できない方は GitHubリポジトリのREADMEよりJupyter Notebook環境の構築をお願いします。
  17. KARAKURI Inc. All rights reserved.   Colab Works|環境構築 25 # GitHubからClone

    # ライブラリのインストール # OpenAIのAPIキー(ご自身の環境) # W&BのAPIキー(ご自身の環境) # Weaveのプロジェクト名(ご自身の環境) # プロジェクトコードのパス設定 # Weaveのセットアップ
  18. KARAKURI Inc. All rights reserved.   Colab Works|チャット & Weaveのログ確認 (2/2)

    ✓ langchainと書かれたレコードが沢山ある ✓ ときどきプロンプトのような情報がある ✓ Functionを呼び出している形跡がある 詳細は後ほど...🔎 27
  19. KARAKURI Inc. All rights reserved. カスタマーサポートにおけるチャットボットの役割 ① 困りごと解決 • パスワードを忘れた

    • 注文をキャンセルしたい • 配送日を変更したい ② 企業ブランド・イメージの維持 • 期待に添えない場合の代替案提示 • 商品レコメンド • 企業に対する信頼性・ロイヤリティ向上 31
  20. KARAKURI Inc. All rights reserved. カスタマーサポートにおけるチャットボットの役割 ① 困りごと解決 • パスワードを忘れた

    • 注文をキャンセルしたい • 配送日を変更したい ② 企業ブランド・イメージの維持 • 期待に添えない場合の代替案提示 • 商品レコメンド • 企業に対する信頼性・ロイヤリティ向上 32 精度評価 独自観点 チューニング
  21. 35 Agenda • カラクリの会社紹介 • Weaveの使い方(W&Bさんより) • カスタマーサポートAIの概要 • カスタマーサポートAIの構築と改善

    ~ カスタマー向けチャットボットのスタートから運用までを体験 ~ • カスタマーサポートAIのTips・失敗例
  22. KARAKURI Inc. All rights reserved. ハンズオンの流れ 皆さんはとあるSaaS企業のお問い合わせチャットボットを全面的に構築することになりました! 初期構築からリリース、運用改善までの流れを体験していただきながら、カスタマーサポートにおける 評価・改善のプロセスを見ていきます。 36

    初期構築 リリース前改善 運用改善 ・外部ツールの実装 ・参照ナレッジの準備 ・初期プロンプト設計 ・精度評価  ・正答率  ・ハルシネーション ・独自観点のチューニング  ・応対スタイル  ・ブランディング ・精度改善  ・ナレッジ改善 ★リリース
  23. KARAKURI Inc. All rights reserved. ハンズオンの流れ 37 初期構築 リリース前改善 運用改善

    ・初期プロンプト設計 ・外部ツール、参照データの 準備 ・精度評価  ・正答率  ・ハルシネーション ・独自観点のチューニング  ・応対スタイル  ・ブランディング ・精度改善  ・ナレッジ改善 ★リリース
  24. KARAKURI Inc. All rights reserved. 初期構築|FAQ検索ツール 処理の流れ 1. query を

    OpenAIのEmbeddingsを使ってベクトル化 2. 事前計算したFAQのベクトルとのコサイン類似度計算 3. 類似度上位 top_k 件を返却 40 src/tools.py
  25. KARAKURI Inc. All rights reserved. 初期構築|プロンプト 本ハンズオンでは簡易的なプロンプトからスタートします 44 ## 基本情報

    あなたはカスタマーサポート向けSaaSのカスタマーサ ポート担当です。 サービス名はカラクリCSデジタルシリーズです。 丁寧な対応を心掛けてください。 ## ルール - 回答する前に、FAQを参照してください
  26. KARAKURI Inc. All rights reserved.   Colab Works|(再実施)チャット & Weaveのログ確認 (2/2)

    Weaveのトレースを再度眺めると... ・構築したエージェントの処理フロー ・中間処理の入出力 ・各処理で掛かった時間、費用 が分かる! 46
  27. KARAKURI Inc. All rights reserved. ハンズオンの流れ 47 初期構築 リリース前改善 運用改善

    ・精度評価  ・正答率  ・ハルシネーション ・独自観点のチューニング  ・応対スタイル  ・ブランディング ・精度改善  ・ナレッジ改善 ★リリース ・外部ツールの実装 ・参照ナレッジの準備 ・初期プロンプト設計
  28. KARAKURI Inc. All rights reserved. リリース前改善|精度評価 LLM-as-a-Judge 方式で以下の3観点を評価する • 正答率(問い合わせに答えられているか)

    • ハルシネーションチェック(コンテキスト) • ハルシネーションチェック(一般常識発言) 48 Colab - 精度評価セル
  29. KARAKURI Inc. All rights reserved. リリース前改善|精度評価 Weave画面 Evals > Trace

    > Click to view table 評価結果をテーブルで確認可能 51
  30. KARAKURI Inc. All rights reserved. リリース前改善|精度評価 Weave画面 (Dataset) Assets >

    Datasets Datasetとして定義することで、Weaveの画面からも確認可能 52
  31. KARAKURI Inc. All rights reserved. RAGAS - Agentic Goal Accuracy

    ・ユーザーの目標を特定し、達成する際のLLMのパフォーマンスを評価するために使用できる指標 ・二値指標であり、1はAIが目標を達成したことを示し、0はAIが目標を達成しなかったことを示す → AIエージェントの途中経過よりも最終出力の妥当性に着目した評価指標 54 https://docs.ragas.io/en/stable/concepts/metrics/available_metrics/agents/#agent-goal-accuracy
  32. KARAKURI Inc. All rights reserved. RAGAS - Faithfulness ★ ポイント

    回答のハルシネーションを0/1で二値 分類するのではなく、「主張」に分解 して判断する 56 根拠のある主張の数 回答に含まれる主張の数
  33. KARAKURI Inc. All rights reserved. ハンズオンの流れ 58 初期構築 リリース前改善 運用改善

    ・精度評価  ・正答率  ・ハルシネーション ・独自観点のチューニング  ・応対スタイル  ・ブランディング ・精度改善  ・ナレッジ改善 ★リリース ② ・外部ツールの実装 ・参照ナレッジの準備 ・初期プロンプト設計
  34. KARAKURI Inc. All rights reserved. リリース前改善|独自観点のチューニング 62 改善前 改善後 ##

    基本情報 あなたはカスタマーサポート向けSaaSのカスタマーサ ポート担当です。 サービス名はカラクリCSデジタルシリーズです。 丁寧な対応を心掛けてください。 ## ルール - 回答する前に、FAQを参照してください ## 基本情報 あなたはカスタマーサポート向けSaaS『カラクリCSデジタルシリーズ』のカスタマーサポー ト担当です。 常に丁寧かつ迅速な対応を心掛けてください。 ## 回答ルール 1. 回答前に必ずFAQや社内ドキュメントを参照し、該当情報がある場合はその内容に基づい て回答してください。 2. FAQやドキュメントに情報が無い場合は、 - 無理に深掘りしたり曖昧な追加質問をせず、 - 「恐れ入りますが、こちらの内容については現在FAQや社内ドキュメントに情報がござい ません。詳細なご案内が必要な場合は、下記問い合わせフォームよりご連絡ください。」と案 内し、問い合わせフォーム(https://example.com/inquiry)への導線を必ず提示してくださ い。 (途中省略) ## 注意事項 - 期待を煽るような表現や、根拠のない推測での回答は避けてください。 - ユーザーが迷わないよう、案内や誘導は明確に行ってください。 - 常にユーザーの立場に立ち、分かりやすく誠実な対応を心掛けてください。 ※ 出力例
  35. KARAKURI Inc. All rights reserved. ハンズオンの流れ 65 初期構築 リリース前改善 運用改善

    ・精度評価  ・正答率  ・ハルシネーション ・独自観点のチューニング  ・応対スタイル  ・ブランディング ・精度改善  ・ナレッジ改善 ★リリース ・外部ツールの実装 ・参照ナレッジの準備 ・初期プロンプト設計
  36. 70 Agenda • カラクリの会社紹介 • Weaveの使い方(W&Bさんより) • カスタマーサポートAIの概要 • カスタマーサポートAIの構築と改善

    ~ カスタマー向けチャットボットのスタートから運用までを体験 ~ • カスタマーサポートAIのTips・失敗例
  37. KARAKURI Inc. All rights reserved. KKGの評価施策:KKG Eval (Manual→FAQ) 75 +

    最低限FAQ候補になるであろう 内容をリストアップ 人手で準備
  38. KARAKURI Inc. All rights reserved. KKGの評価施策:KKG Eval (Manual→FAQ) 76 最低限FAQ候補になるであろう

    内容をリストアップ KKGで生成されたFAQ カバレッジ評価 (LLM-as-a-Judge) ハルシネーション評価 (LLM-as-a-Judge)
  39. KARAKURI Inc. All rights reserved. KKGの評価施策:KKG Eval - 苦労話 •

    ゴールデンデータの準備が大変 ◦ 自動評価で完結する観点を増やせれば良かったかも・・ • ハルシネーション評価自体がハルシネーションする ◦ 何がハルシネーションかを明確に定義する必要あり ◦ few-shot exampleも有効 77
  40. KARAKURI Inc. All rights reserved. KKGの評価施策:KKG Eval - 嬉しかった話 •

    モデル切り替え時のデグレ検知 ◦ Gemini, GPT等のモデル更新時、生成結果が定性的に大きく変化するケースを検知 78