【ライブデモ＆全フロー実演】AI品質向上の全体像が超具体でわかる！ LLMOps 実践会

LLMOps 実践会 LLMOps 実践会 DAIJOBU株式会社 DAIJOBU株式会社代表取締役代表取締役山中裕貴(ふぇね) 山中裕貴(ふぇね)
2025/8/19(火) 　19:30-21:00 ＠渋谷【ライブデモ＆全フロー実演】 AI品質向上の全体像が超具体でわかる！！

⏰️ タイムテーブル

前回(第1回)のイベント抽象的な議論中心

本日のイベントの目的 LLMの品質、評価の仕方、まじわからん！！！！

本日のイベントの目的具体の手法、全体像が全然見えない...

本日のイベントの目的今回は、ある程度具体で中身を公開し、ざっくり概要を理解する！！

LLMOps 実践会を盛り上げるために、、、 #LLMOps実践会　でツイートお願いします

DAIJOBU株式会社代表取締役 CEO 山中裕貴（ふぇね） 2001 年奈良県出身。京都大学人間科学部に進学後、 VeryLongAnimals など複数の Web3
プロジェクトで事業開発を経験。 2024 年 1 月 DAIJOBU 株式会社設立。 DAIJOBU 社の品質保証室の立ち上げや複数の Web3/AI 領域を率いた後、現在は LLMops/BPOD 領域「AI Agent 品質担保くん」の立ち上げを主導し、 LLM/AI エージェントの品質向上に携わる。

DAIJOBU株式会社　AIエンジニア　かけだし　かけだし LangWatchのセルフホストについて担当 Web３テストデータ作成好きな評価指標はn-gram Ｘ：@kakedashi_xyz

DAIJOBU株式会社　AIエンジニア　　 RAGと生成AIまわりをいじってます趣味で音声合成モデルを触ったりもしています！ DAIJOBU内ではLangWatch評価を担当

RAGとは

RAGとは？出典：https://www.fronteo.com/ai-learning/about-rag

LangWatchを使ったRAG評価の実践【ライブ・デモ＆ワークフロー実演】

背景 RAGの品質評価がブラックボックス化している現状に対し、 LangWatchのようなツールで可視化・数値化する動きが重要

実は...??? 実はPoCの8割は失敗に終わっている

AIエージェント品質担保くんとは？もう品質課題に迷わ
ない「AI Agent品質担保くん」は、 AIエージェントの特性に最適化されたテスト自動化と品質保証を実現するサービスです。

LLMOpsとは？ LLMOps = LLMの「開発・運用・改善」までの一連のプロセスを指す例：プロンプト設計 → RAG構築 → 推論精度モニタリング →
改善ループ RAGも「Retrieval部分の精度管理」が特に重要で、LangWatchのような評価ツールが必要

評価ツールの紹介 LangWatchの他に: LangSmith（OpenAI・Anthropic対応） TruLens（オープンソース、メトリクス豊富） Langfuseなど

なぜLangWatchにしたか Python/CLIとUIの柔軟性データの視覚化サンプルコード豊富セルフホストが可能

早見表-1 出典：https://www.ai-shift.co.jp/techblog/6009

早見表-2 出典：https://www.ai-shift.co.jp/techblog/6009

評価指標の説明用いた指標： F1（調和平均）、Precision（適合率）、Recall（再現率）例：「質問:首相は誰？回答:石破茂」→ 正解: 石破茂
その他紹介： Exact Match（完全一致）→ GPT系では厳しすぎ Semantic Similarity（Embedding cosine類似）

n-gram 文字レベルのn-gram（Character n-gram）：「今日は良い天気です」を2-gram（文字）で分割すると：「今日」「日は」「は良」「良い」「い天」
「天気」「気で」「です」単語レベルのn-gram（Word n-gram）：同じ文章を2-gram（単語）で分割すると：「今日は」「は良い」「良い天気」「天気です」

LangWatchで評価フロー

チャンクとは 2 長い文章を小さく区切った“ひとかたまり” RAGでは、この単位ごとに検索・利用する例元の文章：「私は昨日、図書館で本を借りて、そのあと友達とカフェに行きました。」チャンクに分けると：チャンク1：
「私は昨日、図書館で本を借りて、」チャンク2：「そのあと友達とカフェに行きました。」質問：「昨日どこへ行った？」 ➡ チャンク1から答えが見つかる

7つのユースケースごとに分類された評価指標 2

評価指標について 2 正解チャンク = {A:「ログイン手順」, B:「パスワード変更」, C:「二段階認証の説明」 } 取得チャンク =
{A:「ログイン手順」, B:「パスワード変更」, X:「会社概要」, Y:「採用情報」, Z:「問い合わせ先」 } とすると Recall 正解3つ中、2つ取得（A, B） Recall = 2/3 = 66% Precision 取得5つ中、正解は2つ（A, B） Precision = 2/5 = 40%

評価指標について F1 F1 = Recall と Precision のバランスを見る指標両方が高くないとF1も上がらない 2

langwatch内のデータセットの場所 2 使用した評価用データセット Allganize RAG Leaderboard 5つの業種ドメイン（金融、情報通信、製造、公共、流通・小売）において、日本語のRAGの性能評価を実施したものです。

langwatch内のデータセットの場所 2 Q.法人企業景気予測調査（令和６年４～６月期調査）の景況判断 BSIについて、化学工業は前回調査からどの程度上昇しましたか？ A.化学工業は前回調査はマイナス5.5の判断でしたが、今回調査ではプラス9.5に大幅上昇しました。 +参考にした資料(pdf)

langwatch内のデータセットの場所 2

ソースコードの処理フローここで評価 2

評価指標について 2 ここで評価

ソースコードについて llmを使用した際にtraceを出力する 2

評価指標について並列化して評価値を表示する 2 この記載だけで評価値をlangwatchに可視化

F1 precision Recall 2 評価値を計算正誤判定

正誤判定 1.完全一致チャンク全文が一致していれば同一と判定 2.n-gram 類似度 40%以上部分一致でも一定以上の語順・語形が同じならOK 3.LLM as a
Judge LLMで意味的に同一か判定 → いずれかに当てはまれば同一チャンクとみなす 2

正誤判定 2

実行結果 2

実行結果 2 エラー発生するが、問題なく動作。並列実行時に発生。

langwatchでllmの使用量を可視化(trace)： 2

langwatchでllmの使用量を可視化(trace)： 2 LLMに何を入力したのか可視化想定外の入力をここで確認可能

langwatchでllmの使用量を可視化(trace)： 2 トークン数,コスト,実行時間を可視化一目でコストを確認できる

langwatch内の評価値 2

langwatch内の評価値 2 モデルの性能を可視化

質疑応答

アンケート

ミニ交流会

もう品質課題に迷わな
い

【ライブデモ＆全フロー実演】AI品質向上の全体像が超具体でわかる！ LLMOps 実践会

【ライブデモ＆全フロー実演】AI品質向上の全体像が超具体でわかる！ LLMOps 実践会

More Decks by DAIJOBU Inc.

Featured

Transcript