Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
【ライブデモ&全フロー実演】AI品質向上の全体像が超具体でわかる! LLMOps 実践会
Search
DAIJOBU Inc.
August 20, 2025
0
59
【ライブデモ&全フロー実演】AI品質向上の全体像が超具体でわかる! LLMOps 実践会
DAIJOBU Inc.
August 20, 2025
Tweet
Share
More Decks by DAIJOBU Inc.
See All by DAIJOBU Inc.
第三者検証スタートアップが web3業界に見る未来
daijobu
1
160
Featured
See All Featured
We Have a Design System, Now What?
morganepeng
53
7.8k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
PRO
185
54k
Imperfection Machines: The Place of Print at Facebook
scottboms
268
13k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
194
16k
Bash Introduction
62gerente
614
210k
jQuery: Nuts, Bolts and Bling
dougneiner
64
7.9k
Become a Pro
speakerdeck
PRO
29
5.5k
Into the Great Unknown - MozCon
thekraken
40
2k
Typedesign – Prime Four
hannesfritz
42
2.8k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
29
2.8k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
34
3.1k
4 Signs Your Business is Dying
shpigford
184
22k
Transcript
LLMOps 実践会 LLMOps 実践会 DAIJOBU株式会社 DAIJOBU株式会社 代表取締役 代表取締役 山中裕貴(ふぇね) 山中裕貴(ふぇね)
2025/8/19(火) 19:30-21:00 @渋谷 【ライブデモ&全フロー実演】 AI品質向上の全体像が超具体でわかる!!
⏰️ タイムテーブル
前回(第1回)のイベント 抽象的な議論中心
本日のイベントの目的 LLMの品質、評価の仕方、まじわからん!!!!
本日のイベントの目的 具体の手法、全体像が全然見えない...
本日のイベントの目的 今回は、ある程度具体で中身を公開し、 ざっくり概要を理解する!!
LLMOps 実践会を盛り上げるために、 、 、 #LLMOps実践会 でツイートお願いします
None
DAIJOBU株式会社 代表取締役 CEO 山中 裕貴(ふぇね) 2001 年奈良県出身。京都大学人間科学部に進学後、 VeryLongAnimals など複数の Web3
プロジェクトで 事業開発を経験。 2024 年 1 月 DAIJOBU 株式会社設立。 DAIJOBU 社の品質保証室の立ち上げや複数の Web3/AI 領域を率いた後、 現在は LLMops/BPOD 領域「AI Agent 品質担保くん」 の立ち上げを主導し、 LLM/AI エージェントの品質向上に携わる。
DAIJOBU株式会社 AIエンジニア かけだし かけだし LangWatchのセルフホストについて担当 Web3テストデータ作成 好きな評価指標はn-gram X:@kakedashi_xyz
DAIJOBU株式会社 AIエンジニア RAGと生成AIまわりをいじってます 趣味で音声合成モデルを触ったりもしています! DAIJOBU内ではLangWatch評価を担当
RAGとは
RAGとは? 出典:https://www.fronteo.com/ai-learning/about-rag
LangWatchを使ったRAG評価の実践 【ライブ・デモ&ワークフロー実演】
背景 RAGの品質評価がブラックボックス化している現状に対し、 LangWatchのようなツールで可視化・数値化する動きが重要
実は...??? 実はPoCの8割は失敗に終わっている
AIエージェント品質担保くんとは? も う 品 質 課 題 に 迷 わ
な い 「AI Agent品質担保くん」は、 AIエージェントの特性に最適化された テスト自動化と品質保証を 実現するサービスです。
LLMOpsとは? LLMOps = LLMの「開発・運用・改善」までの一連のプロセスを指す 例:プロンプト設計 → RAG構築 → 推論精度モニタリング →
改善ループ RAGも「Retrieval部分の精度管理」が特に重要で、LangWatchのよう な評価ツールが必要
評価ツールの紹介 LangWatchの他に: LangSmith(OpenAI・Anthropic対応) TruLens(オープンソース、メトリクス豊富) Langfuseなど
なぜLangWatchにしたか Python/CLIとUIの柔軟性 データの視覚化 サンプルコード豊富 セルフホストが可能
早見表-1 出典:https://www.ai-shift.co.jp/techblog/6009
早見表-2 出典:https://www.ai-shift.co.jp/techblog/6009
評価指標の説明 用いた指標: F1(調和平均) 、Precision(適合率) 、Recall(再現率) 例: 「質問:首相は誰? 回答:石破茂」→ 正解: 石破茂
その他紹介: Exact Match(完全一致)→ GPT系では厳しすぎ Semantic Similarity(Embedding cosine類似)
n-gram 文字レベルのn-gram(Character n-gram) : 「今日は良い天気です」を2-gram(文字)で分割すると: 「今日」 「日は」 「は良」 「良い」 「い天」
「天気」 「気で」 「です」 単語レベルのn-gram(Word n-gram) : 同じ文章を2-gram(単語)で分割すると: 「今日は」 「は良い」 「良い天気」 「天気です」
LangWatchで評価フロー
チャンクとは 2 長い文章を小さく区切った“ひとかたまり” RAGでは、この単位ごとに検索・利用する 例 元の文章: 「私は昨日、図書館で本を借りて、そのあと友達とカフェに行きました。 」 チャンクに分けると: チャンク1:
「私は昨日、図書館で本を借りて、 」 チャンク2: 「そのあと友達とカフェに行きました。 」 質問: 「昨日どこへ行った?」 ➡ チャンク1から答えが見つかる
7つのユースケースごとに分類された評価指標 2
7つのユースケースごとに分類された評価指標 2
評価指標について 2 正解チャンク = {A:「ログイン手順」, B:「パスワード変更」, C:「二段階認証の説明」 } 取得チャンク =
{A:「ログイン手順」, B:「パスワード変更」, X:「会社概要」, Y:「採用情 報」, Z:「問い合わせ先」 } とすると Recall 正解3つ中、2つ取得(A, B) Recall = 2/3 = 66% Precision 取得5つ中、正解は2つ(A, B) Precision = 2/5 = 40%
評価指標について F1 F1 = Recall と Precision のバランスを見る指標 両方が高くないとF1も上がらない 2
langwatch内のデータセットの場所 2 使用した評価用データセット Allganize RAG Leaderboard 5つの業種ドメイン(金融、情報通信、製造、公共、流通・小 売)において、日本語のRAGの性能評価を実施したものです。
langwatch内のデータセットの場所 2 Q.法人企業景気予測調査(令和6年4~6月期調査)の景況判断 BSIについて、化学工業は前回調査からどの程度上昇しましたか? A.化学工業は前回調査はマイナス5.5の判断でしたが、今回調査で はプラス9.5に大幅上昇しました。 +参考にした資料(pdf)
langwatch内のデータセットの場所 2
ソースコードの処理フロー ここで評価 2
評価指標について 2 ここで評価
ソースコードについて llmを使用した際にtraceを出力する 2
評価指標について 並列化して評価値を表示する 2 この記載だけで評価値 をlangwatchに可視化
F1 precision Recall 2 評価値を計算 正誤判定
正誤判定 1.完全一致 チャンク全文が一致していれば同一と判定 2.n-gram 類似度 40%以上 部分一致でも一定以上の語順・語形が同じならOK 3.LLM as a
Judge LLMで意味的に同一か判定 → いずれかに当てはまれば同一チャンクとみなす 2
正誤判定 2
実行結果 2
実行結果 2 エラー発生するが、問 題なく動作。 並列実行時に発生。
langwatchでllmの使用量を可視化(trace): 2
langwatchでllmの使用量を可視化(trace): 2 LLMに何を入力したのか可視化 想定外の入力をここで確認可能
langwatchでllmの使用量を可視化(trace): 2 トークン数,コスト,実行時間を可視化 一目でコストを確認できる
langwatch内の評価値 2
langwatch内の評価値 2 モデルの性能を可視化
質疑応答
アンケート
ミニ交流会
も う 品 質 課 題 に 迷 わ な
い