LLMOps: Eval-Centric を前提としたMLOps
by
Asei Sugiyama
Link
Embed
Share
Beginning
This slide
Copy link URL
Copy link URL
Copy iframe embed code
Copy iframe embed code
Copy javascript embed code
Copy javascript embed code
Share
Tweet
Share
Tweet
Slide 1
Slide 1 text
LLMOps: Eval-Centric を前提としたMLOps Asei Sugiyama
Slide 2
Slide 2 text
自己紹介 杉山 阿聖 (@K_Ryuichirou) Software Engineer @ Citadel AI Google Cloud Innovators Champion @ Cloud AI/ML MLSE 機械学習オペレーション WG mlops community 運営 機械学習図鑑 事例でわかる MLOps 共著 決闘者 @ マスターデュエル
Slide 3
Slide 3 text
TOC MLOps 振り返り <- LLMOps 再考
Slide 4
Slide 4 text
MLOps 振り返り MLOps とは MLOps で取り組む課題 機械学習チームの悲劇 MLOps のベストプラクティス 継続的な改善 継続的な訓練
Slide 5
Slide 5 text
MLOps とは 機械学習の成果をスケー ルさせるためのさまざま な取り組み 2018 年の Google Cloud Next がおそらく初出
Slide 6
Slide 6 text
MLOps で取り組む課題 前処理が難しい モデルの更新などの運用 が煩雑 機械学習チームの悲劇 西田 佳史, 遠藤 侑介, 有賀 康顕 著 「n 月刊ラムダノート Vol.1, No.1(2019)」 ラムダノート株式会社 2019年 https://eiyo21.com/book/9784789554596/
Slide 7
Slide 7 text
機械学習チームの悲劇 機械学習専門のチームが誕生 機械学習モデルを作成し、PoC で成果を確認 モデルをプロダクトに組み込むためのタスクが作成される モデルをプロダクトに組み込む作業の見積もりが大きくなる 典型的な機能開発のほうが小さな見積もりになり、優先度が上がる プロダクトに組み込まれないため機械学習専門のチームの成果が出 ない 投資対象を見直すことになりチーム解散
Slide 8
Slide 8 text
MLOps のベストプラク ティス 事例でわかる MLOps 技術・プロセス・文化 活用フェーズごとに整理 杉山 阿聖, 太田 満久, 久井 裕貴 編著 「事例でわかるMLOps 機械学習の成果 をスケールさせる処方箋」 講談社 2024年 https://www.kspub.co.jp/book/detail/5369562.html
Slide 9
Slide 9 text
継続的な改善 DevOps の原 則のひとつ フィードバッ クサイクルに よる改善 Explore Continuous Improvement - Training | Microsoft Learn https://learn.microsoft.com/en- us/training/modules/characterize-devops- continous-collaboration-improvement/3-explore- continuous-improvement
Slide 10
Slide 10 text
継続的な訓練 MLOps にお ける継続的な 改善の実装 モデルを継続 的に訓練して 改善 MLOps: Continuous delivery and automation pipelines in machine learning | Cloud Architecture Center | Google Cloud https://cloud.google.com/architecture/mlops- continuous-delivery-and-automation-pipelines-in- machine-learning
Slide 11
Slide 11 text
TOC MLOps 振り返り LLMOps 再考 <-
Slide 12
Slide 12 text
LLMOps 再考 既存の LLMOps 既存の LLMOps の問題点 市場調査 LLM の活用における課題 Eval-Centric AI LLMOps の取り組み 継続的な評価 フレームワークの検証
Slide 13
Slide 13 text
既存の LLMOps LLM の出現時に LLMOps というドキュメントが出 現した 既存の MLOps のプラクテ ィスを LLM に適用するも の LLMOps: What it is and how it works | Google Cloud https://cloud.google.com/discover/what-is-llmops?hl=en
Slide 14
Slide 14 text
既存の LLMOps の問題点 MLOps は CT (継続的な訓練) を中心とした継続的な改善 LLM の活用においては CT を前提とできないため、フィードバック ループを構成できていない 解決したい課題を明確にしないままに MLOps をベースに定義して しまった
Slide 15
Slide 15 text
市場調査 LLM を活用しているエンジニアにインタビュー (自由形式) 似たような課題・対策を行っていることが見えてきた LLM の活用における課題を再考し、LLMOps を再定義したい
Slide 16
Slide 16 text
LLM の活用における課題 システムの正しい振る舞 いを、誰も明確に記述で きない 品質評価の観点を事前に 列挙することは困難で、 出力から事後的に得られ ることが大半 機械学習による言語パフォーマンスの評価 - Speaker Deck https://speakerdeck.com/langstat/ji-jie-xue-xi-niyoruyan-yu- pahuomansunoping-jia
Slide 17
Slide 17 text
Eval-Centric AI
Slide 18
Slide 18 text
LLMOps の取り組み Eval-Centric を前提とした LLM の活用のための取り 組みを収集 技術・プロセス・文化の 観点で整理 The Rise of LLMOps - Speaker Deck https://speakerdeck.com/asei/the-rise- of-llmops
Slide 19
Slide 19 text
LLMOps の取り組み: 技術 RAG プロンプトエンジニアリング LLM-as-a-Judge 継続的な評価 オズの魔法使いパターン ユーザーテスト トレース ガードレール プロンプトのバージョン管理
Slide 20
Slide 20 text
LLMOps の取り組み: プロセス・文化 事例共有会 計測 学習する文化 セキュリティ Red Teaming AI ガバナンス
Slide 21
Slide 21 text
プロンプトエンジニアリング 入力文章を調整して、言語モ デルを効率的に使おうとする 手法群 指示文を人が見たときにわか りやすくなるよう、明確に記 述することが基本 Gemini の記事が参考になる CoT (Chain of Thought) などの テクニックもある Gemini から欲しい回答を引き出すプロンプト術|Gemini - Google の AI https://note.com/google_gemini/n/n60a9c426694e
Slide 22
Slide 22 text
LLM-as-a-Judge プロンプトを用いて LLM に出力の良さを評価させ る手法 新たな評価観点が得られ た場合、その評価観点に 基づく評価方法の手順書 を書くと、その観点に基 づく評価が LLM で可能 LLMによるLLMの評価「LLM-as-a-Judge」入門〜基礎から運用まで徹底解 説 https://zenn.dev/pharmax/articles/2d07bf0498e212
Slide 23
Slide 23 text
継続的な評価による継続的な改善
Slide 24
Slide 24 text
Prompt Playground
Slide 25
Slide 25 text
フレームワークの検証 開発者を対象としたヒアリング 学術的な団体での議論 公的な団体での議論 コミュニティによるイベントへの 参加
Slide 26
Slide 26 text
ウィンターワークショップ2025・イン・下関
Slide 27
Slide 27 text
まとめ MLOps は機械学習の成果をスケールさせるためのさまざまな取り 組み MLOps のプラクティスのひとつである継続的な訓練は継続的な改 善を実現させるためのもの LLM の活用においては Eval-Centric なアプローチが必要であり、評 価を通じた改善サイクルの再定義が必要 LLM-as-a-Judge などの技術を用いて、品質評価の観点をイテレー ティブに獲得する継続的な評価が鍵