Slide 1

Slide 1 text

LLMOps: Eval-Centric を前提としたMLOps Asei Sugiyama

Slide 2

Slide 2 text

自己紹介 杉山 阿聖 (@K_Ryuichirou) Software Engineer @ Citadel AI Google Cloud Innovators Champion @ Cloud AI/ML MLSE 機械学習オペレーション WG mlops community 運営 機械学習図鑑 事例でわかる MLOps 共著 決闘者 @ マスターデュエル

Slide 3

Slide 3 text

TOC MLOps 振り返り <- LLMOps 再考

Slide 4

Slide 4 text

MLOps 振り返り MLOps とは MLOps で取り組む課題 機械学習チームの悲劇 MLOps のベストプラクティス 継続的な改善 継続的な訓練

Slide 5

Slide 5 text

MLOps とは 機械学習の成果をスケー ルさせるためのさまざま な取り組み 2018 年の Google Cloud Next がおそらく初出

Slide 6

Slide 6 text

MLOps で取り組む課題 前処理が難しい モデルの更新などの運用 が煩雑 機械学習チームの悲劇 西田 佳史, 遠藤 侑介, 有賀 康顕 著 「n 月刊ラムダノート Vol.1, No.1(2019)」 ラムダノート株式会社 2019年 https://eiyo21.com/book/9784789554596/

Slide 7

Slide 7 text

機械学習チームの悲劇 機械学習専門のチームが誕生 機械学習モデルを作成し、PoC で成果を確認 モデルをプロダクトに組み込むためのタスクが作成される モデルをプロダクトに組み込む作業の見積もりが大きくなる 典型的な機能開発のほうが小さな見積もりになり、優先度が上がる プロダクトに組み込まれないため機械学習専門のチームの成果が出 ない 投資対象を見直すことになりチーム解散

Slide 8

Slide 8 text

MLOps のベストプラク ティス 事例でわかる MLOps 技術・プロセス・文化 活用フェーズごとに整理 杉山 阿聖, 太田 満久, 久井 裕貴 編著 「事例でわかるMLOps 機械学習の成果 をスケールさせる処方箋」 講談社 2024年 https://www.kspub.co.jp/book/detail/5369562.html

Slide 9

Slide 9 text

継続的な改善 DevOps の原 則のひとつ フィードバッ クサイクルに よる改善 Explore Continuous Improvement - Training | Microsoft Learn https://learn.microsoft.com/en- us/training/modules/characterize-devops- continous-collaboration-improvement/3-explore- continuous-improvement

Slide 10

Slide 10 text

継続的な訓練 MLOps にお ける継続的な 改善の実装 モデルを継続 的に訓練して 改善 MLOps: Continuous delivery and automation pipelines in machine learning | Cloud Architecture Center | Google Cloud https://cloud.google.com/architecture/mlops- continuous-delivery-and-automation-pipelines-in- machine-learning

Slide 11

Slide 11 text

TOC MLOps 振り返り LLMOps 再考 <-

Slide 12

Slide 12 text

LLMOps 再考 既存の LLMOps 既存の LLMOps の問題点 市場調査 LLM の活用における課題 Eval-Centric AI LLMOps の取り組み 継続的な評価 フレームワークの検証

Slide 13

Slide 13 text

既存の LLMOps LLM の出現時に LLMOps というドキュメントが出 現した 既存の MLOps のプラクテ ィスを LLM に適用するも の LLMOps: What it is and how it works | Google Cloud https://cloud.google.com/discover/what-is-llmops?hl=en

Slide 14

Slide 14 text

既存の LLMOps の問題点 MLOps は CT (継続的な訓練) を中心とした継続的な改善 LLM の活用においては CT を前提とできないため、フィードバック ループを構成できていない 解決したい課題を明確にしないままに MLOps をベースに定義して しまった

Slide 15

Slide 15 text

市場調査 LLM を活用しているエンジニアにインタビュー (自由形式) 似たような課題・対策を行っていることが見えてきた LLM の活用における課題を再考し、LLMOps を再定義したい

Slide 16

Slide 16 text

LLM の活用における課題 システムの正しい振る舞 いを、誰も明確に記述で きない 品質評価の観点を事前に 列挙することは困難で、 出力から事後的に得られ ることが大半 機械学習による言語パフォーマンスの評価 - Speaker Deck https://speakerdeck.com/langstat/ji-jie-xue-xi-niyoruyan-yu- pahuomansunoping-jia

Slide 17

Slide 17 text

Eval-Centric AI

Slide 18

Slide 18 text

LLMOps の取り組み Eval-Centric を前提とした LLM の活用のための取り 組みを収集 技術・プロセス・文化の 観点で整理 The Rise of LLMOps - Speaker Deck https://speakerdeck.com/asei/the-rise- of-llmops

Slide 19

Slide 19 text

LLMOps の取り組み: 技術 RAG プロンプトエンジニアリング LLM-as-a-Judge 継続的な評価 オズの魔法使いパターン ユーザーテスト トレース ガードレール プロンプトのバージョン管理

Slide 20

Slide 20 text

LLMOps の取り組み: プロセス・文化 事例共有会 計測 学習する文化 セキュリティ Red Teaming AI ガバナンス

Slide 21

Slide 21 text

プロンプトエンジニアリング 入力文章を調整して、言語モ デルを効率的に使おうとする 手法群 指示文を人が見たときにわか りやすくなるよう、明確に記 述することが基本 Gemini の記事が参考になる CoT (Chain of Thought) などの テクニックもある Gemini から欲しい回答を引き出すプロンプト術|Gemini - Google の AI https://note.com/google_gemini/n/n60a9c426694e

Slide 22

Slide 22 text

LLM-as-a-Judge プロンプトを用いて LLM に出力の良さを評価させ る手法 新たな評価観点が得られ た場合、その評価観点に 基づく評価方法の手順書 を書くと、その観点に基 づく評価が LLM で可能 LLMによるLLMの評価「LLM-as-a-Judge」入門〜基礎から運用まで徹底解 説 https://zenn.dev/pharmax/articles/2d07bf0498e212

Slide 23

Slide 23 text

継続的な評価による継続的な改善

Slide 24

Slide 24 text

Prompt Playground

Slide 25

Slide 25 text

フレームワークの検証 開発者を対象としたヒアリング 学術的な団体での議論 公的な団体での議論 コミュニティによるイベントへの 参加

Slide 26

Slide 26 text

ウィンターワークショップ2025・イン・下関

Slide 27

Slide 27 text

まとめ MLOps は機械学習の成果をスケールさせるためのさまざまな取り 組み MLOps のプラクティスのひとつである継続的な訓練は継続的な改 善を実現させるためのもの LLM の活用においては Eval-Centric なアプローチが必要であり、評 価を通じた改善サイクルの再定義が必要 LLM-as-a-Judge などの技術を用いて、品質評価の観点をイテレー ティブに獲得する継続的な評価が鍵