Slide 1

Slide 1 text

LLMOps 実践会 LLMOps 実践会 DAIJOBU株式会社 DAIJOBU株式会社 代表取締役 代表取締役 山中裕貴(ふぇね) 山中裕貴(ふぇね) 2025/8/19(火)  19:30-21:00 @渋谷 【ライブデモ&全フロー実演】 AI品質向上の全体像が超具体でわかる!!

Slide 2

Slide 2 text

⏰️ タイムテーブル

Slide 3

Slide 3 text

前回(第1回)のイベント 抽象的な議論中心

Slide 4

Slide 4 text

本日のイベントの目的 LLMの品質、評価の仕方、まじわからん!!!!

Slide 5

Slide 5 text

本日のイベントの目的 具体の手法、全体像が全然見えない...

Slide 6

Slide 6 text

本日のイベントの目的 今回は、ある程度具体で中身を公開し、 ざっくり概要を理解する!!

Slide 7

Slide 7 text

LLMOps 実践会を盛り上げるために、 、 、 #LLMOps実践会 でツイートお願いします

Slide 8

Slide 8 text

No content

Slide 9

Slide 9 text

DAIJOBU株式会社 代表取締役 CEO 山中 裕貴(ふぇね) 2001 年奈良県出身。京都大学人間科学部に進学後、 VeryLongAnimals など複数の Web3 プロジェクトで 事業開発を経験。 2024 年 1 月 DAIJOBU 株式会社設立。 DAIJOBU 社の品質保証室の立ち上げや複数の Web3/AI 領域を率いた後、 現在は LLMops/BPOD 領域「AI Agent 品質担保くん」 の立ち上げを主導し、 LLM/AI エージェントの品質向上に携わる。

Slide 10

Slide 10 text

DAIJOBU株式会社  AIエンジニア かけだし  かけだし LangWatchのセルフホストについて担当 Web3テストデータ作成 好きな評価指標はn-gram X:@kakedashi_xyz

Slide 11

Slide 11 text

DAIJOBU株式会社  AIエンジニア   RAGと生成AIまわりをいじってます 趣味で音声合成モデルを触ったりもしています! DAIJOBU内ではLangWatch評価を担当

Slide 12

Slide 12 text

RAGとは

Slide 13

Slide 13 text

RAGとは? 出典:https://www.fronteo.com/ai-learning/about-rag

Slide 14

Slide 14 text

LangWatchを使ったRAG評価の実践 【ライブ・デモ&ワークフロー実演】

Slide 15

Slide 15 text

背景 RAGの品質評価がブラックボックス化している現状に対し、 LangWatchのようなツールで可視化・数値化する動きが重要

Slide 16

Slide 16 text

実は...??? 実はPoCの8割は失敗に終わっている

Slide 17

Slide 17 text

AIエージェント品質担保くんとは? も う 品 質 課 題 に 迷 わ な い 「AI Agent品質担保くん」は、 AIエージェントの特性に最適化された テスト自動化と品質保証を 実現するサービスです。

Slide 18

Slide 18 text

LLMOpsとは? LLMOps = LLMの「開発・運用・改善」までの一連のプロセスを指す 例:プロンプト設計 → RAG構築 → 推論精度モニタリング → 改善ループ RAGも「Retrieval部分の精度管理」が特に重要で、LangWatchのよう な評価ツールが必要

Slide 19

Slide 19 text

評価ツールの紹介 LangWatchの他に: LangSmith(OpenAI・Anthropic対応) TruLens(オープンソース、メトリクス豊富) Langfuseなど

Slide 20

Slide 20 text

なぜLangWatchにしたか Python/CLIとUIの柔軟性 データの視覚化 サンプルコード豊富 セルフホストが可能

Slide 21

Slide 21 text

早見表-1 出典:https://www.ai-shift.co.jp/techblog/6009

Slide 22

Slide 22 text

早見表-2 出典:https://www.ai-shift.co.jp/techblog/6009

Slide 23

Slide 23 text

評価指標の説明 用いた指標: F1(調和平均) 、Precision(適合率) 、Recall(再現率) 例: 「質問:首相は誰? 回答:石破茂」→ 正解: 石破茂 その他紹介: Exact Match(完全一致)→ GPT系では厳しすぎ Semantic Similarity(Embedding cosine類似)

Slide 24

Slide 24 text

n-gram 文字レベルのn-gram(Character n-gram) : 「今日は良い天気です」を2-gram(文字)で分割すると: 「今日」 「日は」 「は良」 「良い」 「い天」 「天気」 「気で」 「です」 単語レベルのn-gram(Word n-gram) : 同じ文章を2-gram(単語)で分割すると: 「今日は」 「は良い」 「良い天気」 「天気です」

Slide 25

Slide 25 text

LangWatchで評価フロー

Slide 26

Slide 26 text

チャンクとは 2 長い文章を小さく区切った“ひとかたまり” RAGでは、この単位ごとに検索・利用する 例 元の文章: 「私は昨日、図書館で本を借りて、そのあと友達とカフェに行きました。 」 チャンクに分けると: チャンク1: 「私は昨日、図書館で本を借りて、 」 チャンク2: 「そのあと友達とカフェに行きました。 」 質問: 「昨日どこへ行った?」 ➡ チャンク1から答えが見つかる

Slide 27

Slide 27 text

7つのユースケースごとに分類された評価指標 2

Slide 28

Slide 28 text

7つのユースケースごとに分類された評価指標 2

Slide 29

Slide 29 text

評価指標について 2 正解チャンク = {A:「ログイン手順」, B:「パスワード変更」, C:「二段階認証の説明」 } 取得チャンク = {A:「ログイン手順」, B:「パスワード変更」, X:「会社概要」, Y:「採用情 報」, Z:「問い合わせ先」 } とすると Recall 正解3つ中、2つ取得(A, B) Recall = 2/3 = 66% Precision 取得5つ中、正解は2つ(A, B) Precision = 2/5 = 40%

Slide 30

Slide 30 text

評価指標について F1 F1 = Recall と Precision のバランスを見る指標 両方が高くないとF1も上がらない 2

Slide 31

Slide 31 text

langwatch内のデータセットの場所 2 使用した評価用データセット Allganize RAG Leaderboard 5つの業種ドメイン(金融、情報通信、製造、公共、流通・小 売)において、日本語のRAGの性能評価を実施したものです。

Slide 32

Slide 32 text

langwatch内のデータセットの場所 2 Q.法人企業景気予測調査(令和6年4~6月期調査)の景況判断 BSIについて、化学工業は前回調査からどの程度上昇しましたか? A.化学工業は前回調査はマイナス5.5の判断でしたが、今回調査で はプラス9.5に大幅上昇しました。 +参考にした資料(pdf)

Slide 33

Slide 33 text

langwatch内のデータセットの場所 2

Slide 34

Slide 34 text

ソースコードの処理フロー ここで評価 2

Slide 35

Slide 35 text

評価指標について 2 ここで評価

Slide 36

Slide 36 text

ソースコードについて llmを使用した際にtraceを出力する 2

Slide 37

Slide 37 text

評価指標について 並列化して評価値を表示する 2 この記載だけで評価値 をlangwatchに可視化

Slide 38

Slide 38 text

F1 precision Recall 2 評価値を計算 正誤判定

Slide 39

Slide 39 text

正誤判定 1.完全一致 チャンク全文が一致していれば同一と判定 2.n-gram 類似度 40%以上 部分一致でも一定以上の語順・語形が同じならOK 3.LLM as a Judge LLMで意味的に同一か判定 → いずれかに当てはまれば同一チャンクとみなす 2

Slide 40

Slide 40 text

正誤判定 2

Slide 41

Slide 41 text

実行結果 2

Slide 42

Slide 42 text

実行結果 2 エラー発生するが、問 題なく動作。 並列実行時に発生。

Slide 43

Slide 43 text

langwatchでllmの使用量を可視化(trace): 2

Slide 44

Slide 44 text

langwatchでllmの使用量を可視化(trace): 2 LLMに何を入力したのか可視化 想定外の入力をここで確認可能

Slide 45

Slide 45 text

langwatchでllmの使用量を可視化(trace): 2 トークン数,コスト,実行時間を可視化 一目でコストを確認できる

Slide 46

Slide 46 text

langwatch内の評価値 2

Slide 47

Slide 47 text

langwatch内の評価値 2 モデルの性能を可視化

Slide 48

Slide 48 text

質疑応答

Slide 49

Slide 49 text

アンケート

Slide 50

Slide 50 text

ミニ交流会

Slide 51

Slide 51 text

も う 品 質 課 題 に 迷 わ な い