LLMOps: Eval-Centric を前提としたMLOps

by Asei Sugiyama

Slide 1

Slide 1 text

LLMOps: Eval-Centric を前提としたMLOps Asei Sugiyama

Slide 2

Slide 2 text

自己紹介杉山阿聖 (@K_Ryuichirou) Software Engineer @ Citadel AI Google Cloud Innovators Champion @ Cloud AI/ML MLSE 機械学習オペレーション WG mlops community 運営機械学習図鑑事例でわかる MLOps 共著決闘者 @ マスターデュエル

Slide 3

Slide 3 text

TOC MLOps 振り返り <- LLMOps 再考

Slide 4

Slide 4 text

MLOps 振り返り MLOps とは MLOps で取り組む課題機械学習チームの悲劇 MLOps のベストプラクティス継続的な改善継続的な訓練

Slide 5

Slide 5 text

MLOps とは機械学習の成果をスケールさせるためのさまざまな取り組み 2018 年の Google Cloud Next がおそらく初出

Slide 6

Slide 6 text

MLOps で取り組む課題前処理が難しいモデルの更新などの運用が煩雑機械学習チームの悲劇西田佳史, 遠藤侑介, 有賀康顕著「n 月刊ラムダノート Vol.1, No.1(2019)」ラムダノート株式会社 2019年 https://eiyo21.com/book/9784789554596/

Slide 7

Slide 7 text

機械学習チームの悲劇機械学習専門のチームが誕生機械学習モデルを作成し、PoC で成果を確認モデルをプロダクトに組み込むためのタスクが作成されるモデルをプロダクトに組み込む作業の見積もりが大きくなる典型的な機能開発のほうが小さな見積もりになり、優先度が上がるプロダクトに組み込まれないため機械学習専門のチームの成果が出ない投資対象を見直すことになりチーム解散

Slide 8

Slide 8 text

MLOps のベストプラクティス事例でわかる MLOps 技術・プロセス・文化活用フェーズごとに整理杉山阿聖, 太田満久, 久井裕貴編著「事例でわかるMLOps 機械学習の成果をスケールさせる処方箋」講談社 2024年 https://www.kspub.co.jp/book/detail/5369562.html

Slide 9

Slide 9 text

継続的な改善 DevOps の原則のひとつフィードバックサイクルによる改善 Explore Continuous Improvement - Training | Microsoft Learn https://learn.microsoft.com/en- us/training/modules/characterize-devops- continous-collaboration-improvement/3-explore- continuous-improvement

Slide 10

Slide 10 text

継続的な訓練 MLOps における継続的な改善の実装モデルを継続的に訓練して改善 MLOps: Continuous delivery and automation pipelines in machine learning | Cloud Architecture Center | Google Cloud https://cloud.google.com/architecture/mlops- continuous-delivery-and-automation-pipelines-in- machine-learning

Slide 11

Slide 11 text

TOC MLOps 振り返り LLMOps 再考 <-

Slide 12

Slide 12 text

LLMOps 再考既存の LLMOps 既存の LLMOps の問題点市場調査 LLM の活用における課題 Eval-Centric AI LLMOps の取り組み継続的な評価フレームワークの検証

Slide 13

Slide 13 text

既存の LLMOps LLM の出現時に LLMOps というドキュメントが出現した既存の MLOps のプラクティスを LLM に適用するもの LLMOps: What it is and how it works | Google Cloud https://cloud.google.com/discover/what-is-llmops?hl=en

Slide 14

Slide 14 text

既存の LLMOps の問題点 MLOps は CT (継続的な訓練) を中心とした継続的な改善 LLM の活用においては CT を前提とできないため、フィードバックループを構成できていない解決したい課題を明確にしないままに MLOps をベースに定義してしまった

Slide 15

Slide 15 text

市場調査 LLM を活用しているエンジニアにインタビュー (自由形式) 似たような課題・対策を行っていることが見えてきた LLM の活用における課題を再考し、LLMOps を再定義したい

Slide 16

Slide 16 text

LLM の活用における課題システムの正しい振る舞いを、誰も明確に記述できない品質評価の観点を事前に列挙することは困難で、出力から事後的に得られることが大半機械学習による言語パフォーマンスの評価 - Speaker Deck https://speakerdeck.com/langstat/ji-jie-xue-xi-niyoruyan-yu- pahuomansunoping-jia

Slide 17

Slide 17 text

Eval-Centric AI

Slide 18

Slide 18 text

LLMOps の取り組み Eval-Centric を前提とした LLM の活用のための取り組みを収集技術・プロセス・文化の観点で整理 The Rise of LLMOps - Speaker Deck https://speakerdeck.com/asei/the-rise- of-llmops

Slide 19

Slide 19 text

LLMOps の取り組み: 技術 RAG プロンプトエンジニアリング LLM-as-a-Judge 継続的な評価オズの魔法使いパターンユーザーテストトレースガードレールプロンプトのバージョン管理

Slide 20

Slide 20 text

LLMOps の取り組み: プロセス・文化事例共有会計測学習する文化セキュリティ Red Teaming AI ガバナンス

Slide 21

Slide 21 text

プロンプトエンジニアリング入力文章を調整して、言語モデルを効率的に使おうとする手法群指示文を人が見たときにわかりやすくなるよう、明確に記述することが基本 Gemini の記事が参考になる CoT (Chain of Thought) などのテクニックもある Gemini から欲しい回答を引き出すプロンプト術｜Gemini - Google の AI https://note.com/google_gemini/n/n60a9c426694e

Slide 22

Slide 22 text

LLM-as-a-Judge プロンプトを用いて LLM に出力の良さを評価させる手法新たな評価観点が得られた場合、その評価観点に基づく評価方法の手順書を書くと、その観点に基づく評価が LLM で可能 LLMによるLLMの評価「LLM-as-a-Judge」入門〜基礎から運用まで徹底解説 https://zenn.dev/pharmax/articles/2d07bf0498e212

Slide 23

Slide 23 text

継続的な評価による継続的な改善

Slide 24

Slide 24 text

Prompt Playground

Slide 25

Slide 25 text

フレームワークの検証開発者を対象としたヒアリング学術的な団体での議論公的な団体での議論コミュニティによるイベントへの参加

Slide 26

Slide 26 text

ウィンターワークショップ2025・イン・下関

Slide 27

Slide 27 text

まとめ MLOps は機械学習の成果をスケールさせるためのさまざまな取り組み MLOps のプラクティスのひとつである継続的な訓練は継続的な改善を実現させるためのもの LLM の活用においては Eval-Centric なアプローチが必要であり、評価を通じた改善サイクルの再定義が必要 LLM-as-a-Judge などの技術を用いて、品質評価の観点をイテレーティブに獲得する継続的な評価が鍵