Upgrade to Pro — share decks privately, control downloads, hide ads and more …

【ライブデモ&全フロー実演】AI品質向上の全体像が超具体でわかる! LLMOps 実践会

Avatar for DAIJOBU Inc. DAIJOBU Inc.
August 20, 2025
59

【ライブデモ&全フロー実演】AI品質向上の全体像が超具体でわかる! LLMOps 実践会

Avatar for DAIJOBU Inc.

DAIJOBU Inc.

August 20, 2025
Tweet

Transcript

  1. LLMOps 実践会 LLMOps 実践会 DAIJOBU株式会社 DAIJOBU株式会社 代表取締役 代表取締役 山中裕貴(ふぇね) 山中裕貴(ふぇね)

    2025/8/19(火)  19:30-21:00 @渋谷 【ライブデモ&全フロー実演】 AI品質向上の全体像が超具体でわかる!!
  2. DAIJOBU株式会社 代表取締役 CEO 山中 裕貴(ふぇね) 2001 年奈良県出身。京都大学人間科学部に進学後、 VeryLongAnimals など複数の Web3

    プロジェクトで 事業開発を経験。 2024 年 1 月 DAIJOBU 株式会社設立。 DAIJOBU 社の品質保証室の立ち上げや複数の Web3/AI 領域を率いた後、 現在は LLMops/BPOD 領域「AI Agent 品質担保くん」 の立ち上げを主導し、 LLM/AI エージェントの品質向上に携わる。
  3. AIエージェント品質担保くんとは? も う 品 質 課 題 に 迷 わ

    な い 「AI Agent品質担保くん」は、 AIエージェントの特性に最適化された テスト自動化と品質保証を 実現するサービスです。
  4. LLMOpsとは? LLMOps = LLMの「開発・運用・改善」までの一連のプロセスを指す 例:プロンプト設計 → RAG構築 → 推論精度モニタリング →

    改善ループ RAGも「Retrieval部分の精度管理」が特に重要で、LangWatchのよう な評価ツールが必要
  5. 評価指標の説明 用いた指標: F1(調和平均) 、Precision(適合率) 、Recall(再現率) 例: 「質問:首相は誰? 回答:石破茂」→ 正解: 石破茂

    その他紹介: Exact Match(完全一致)→ GPT系では厳しすぎ Semantic Similarity(Embedding cosine類似)
  6. n-gram 文字レベルのn-gram(Character n-gram) : 「今日は良い天気です」を2-gram(文字)で分割すると: 「今日」 「日は」 「は良」 「良い」 「い天」

    「天気」 「気で」 「です」 単語レベルのn-gram(Word n-gram) : 同じ文章を2-gram(単語)で分割すると: 「今日は」 「は良い」 「良い天気」 「天気です」
  7. チャンクとは 2 長い文章を小さく区切った“ひとかたまり” RAGでは、この単位ごとに検索・利用する 例 元の文章: 「私は昨日、図書館で本を借りて、そのあと友達とカフェに行きました。 」 チャンクに分けると: チャンク1:

    「私は昨日、図書館で本を借りて、 」 チャンク2: 「そのあと友達とカフェに行きました。 」 質問: 「昨日どこへ行った?」 ➡ チャンク1から答えが見つかる
  8. 評価指標について 2 正解チャンク = {A:「ログイン手順」, B:「パスワード変更」, C:「二段階認証の説明」 } 取得チャンク =

    {A:「ログイン手順」, B:「パスワード変更」, X:「会社概要」, Y:「採用情 報」, Z:「問い合わせ先」 } とすると Recall 正解3つ中、2つ取得(A, B) Recall = 2/3 = 66% Precision 取得5つ中、正解は2つ(A, B) Precision = 2/5 = 40%