[20240220 第38回MLOps勉強会] MLflowを用いたLLMモデル開発と評価

Slide 1

Slide 1 text

Slide 2

Slide 2 text

©2024 Databricks Inc. — All rights reserved 2 自己紹介 • 2023年10月にDatabricks ML OSSチームに参加 • 業務の9割方はMLﬂowの開発 • 前職ではMLチームのSDE • 趣味：テニス・イラスト Your subtitle here Yuki Watanabe Harutaka Kawamura • 2019年に MLﬂow にコントリビュートし始める • 2020年に Databricks に入社 • 趣味：韓国語（初心者）

Slide 3

Slide 3 text

Slide 4

Slide 4 text

Slide 5

Slide 5 text

Slide 6

Slide 6 text

©2024 Databricks Inc. — All rights reserved 6 モデル学習やハイパラチューニングの実験管理を行いたい複数モデルの評価/比較を効率的に行いたいプロジェクト間で異なるライブラリや開発環境を整理したい (DSが訓練した)モデルを安全に本番環境にデプロイしたいモデルのバージョン管理やロールバックを簡単に行いたいデプロイや運用を含んだ包括的なシステム管理をしたいチームのコラボレーションを円滑にしたいモデルやコードなどのチームの資産を一元管理したい開発チームの生産性をビジネスゴールに集中させたいデータサイエンティスト ML エンジニアマネージャー ML開発プロセス全体の課題を解決するプラットフォーム

Slide 7

Slide 7 text

Slide 8

Slide 8 text

Slide 9

Slide 9 text

Slide 10

Slide 10 text

©2024 Databricks Inc. — All rights reserved 10 LLMOps 従来のML開発プロセスとの違い学習はより手軽に ● 訓練せずにプロンプトのみでタスクへの適用が可能 ● 基盤モデルへのアクセスはSaaSやHuggingFace経由で簡単に ● リサーチ・エンジニアリング知識なしでもPOCが行える評価はより難しく ● 非構造で非決定的 ● タスクの多様化と複雑化によるベンチマーク評価の難しさ ● 基盤モデル＋プロンプトの膨大な組み合わせ ※Zero-shotやFine-tuningを含めた広義の「学習」フェーズ

Slide 11

Slide 11 text

Slide 12

Slide 12 text

Slide 13

Slide 13 text

Slide 14

Slide 14 text

Slide 15

Slide 15 text

Slide 16

Slide 16 text

Slide 17

Slide 17 text

Slide 18

Slide 18 text

©2024 Databricks Inc. — All rights reserved 18 LLMの評価方法データセット公開ベンチマーク (GLUE, ANLI, ..) 自作データセット生成データセットプロダクションログオンライン評価（A/Bテスト）人手での評価ヒューリスティック (ROUGE, JGLUE, …) 18 評価指標 LLM-as-a-Judge ● ユーザーのニーズを反映した分布のデータが得られる ● フィードバックをアノテーション代わりに ● 最低限世の中に出せるという保証は必要

Slide 19

Slide 19 text

Slide 20

Slide 20 text

©2024 Databricks Inc. — All rights reserved 20 LLMの評価方法 1. オフライン評価でなるべく効率よく候補を絞る　　 -> MLflow LLM Evaluation / Prompt Engineering UI 2. 評価の高いモデルに対して(UXの基準をパスした上で) 高速にオンライン評価のイテレーションを行う -> MLflow Models / MLflow Deployment Server -> Databricks Model Serving / Inference Table 現状の（おそらく）最善手

Slide 21

Slide 21 text

Slide 22

Slide 22 text

©2024 Databricks Inc. — All rights reserved 22 MLﬂow Evaluation オフライン評価を効率化する標準API ● 従来の評価指標 - Rouge, 有害性 ● LLM-as-a-Judge - 正確性, Faithfulness ● Retriever - コンテキストのPrecition/Recall ● 非機能要件 - Latency, トークン使用数 ● カスタム指標も実装可能

Slide 23

Slide 23 text

Slide 24

Slide 24 text

©2024 Databricks Inc. — All rights reserved 24 MLﬂow Models 可搬性の要となる標準フォーマット ● モデルと推論に必要なメタデータをまとめてパッケージ ○ 依存ライブラリとバージョン ○ 入出力形式 (Model signature) ○ プロンプト ● 単一のAPIで推論 ● ローコードでデプロイ ○ コンテナ化してクラウドやk8sに ○ Databricks Model Serving

Slide 25

Slide 25 text

Slide 26

Slide 26 text

©2024 Databricks Inc. — All rights reserved 26 Databricks Model Serving ScalabilityとObservabilityを実現する推論インフラ ● MLﬂow Modelをノーコードでデプロイ ● Scale-to-zero オートスケーリング ● 複数モデルのルーティング ● Inference Table ○ 推論ログを即SQL可能 ○ モデルの性能やデータドリフトが自動でダッシュボード化

Slide 27

Slide 27 text

Slide 28

Slide 28 text

©2024 Databricks Inc. — All rights reserved 28 MLflowによるLLM開発仮想シナリオ：SaaS API・Public Modelを用いた日本食QAボット開発ステップ 1. 評価用データセットを用意 2. OpenAIやMixtral8x7bとプロンプトの組み合わせでMLflow Models作成 3. 各モデルをMLflow Evaluationで評価 4. 最も良いモデルをDatabricks Model Servingにデプロイ

Slide 29

Slide 29 text

Slide 30

Slide 30 text

Slide 31

Slide 31 text

Slide 32

Slide 32 text

Slide 33

Slide 33 text

Slide 34

Slide 34 text

Slide 35

Slide 35 text

Slide 36

Slide 36 text

©2024 Databricks Inc. — All rights reserved 36 Step 3. モデルの評価 Evaluationビューで詳細な生成結果やLLM-as-a-Judgeの理由も確認可能 Mixtralはそもそも日本語があまり得意でない Correctness: 3 Correctness: 5 Correctness: 5 Correctness: 2 Correctness: 4 Correctness: 3 Correctness: 2 Correctness: 2 Correctness: 1 情報を足そうとして間違った回答を生み出してしまうパターン (味噌カツは鶏ではない ) LLMによると2点をつけた理由は「Natto-kinを入れている」ことだが、正直微妙なライン

Slide 37

Slide 37 text

©2024 Databricks Inc. — All rights reserved 37 Step 4. デプロイメント ① Model Registryにモデルを登録 ② “Serve Model”を実行複数モデルにTrafﬁcを振り分けることも可能カタログ名とモデルを指定して mlﬂow.register_model() 自動でバージョンが作成される．コメントやエイリアスも任意で設定． Inference Tableを有効化

Slide 38

Slide 38 text

Slide 39

Slide 39 text

Slide 40

Slide 40 text

©2024 Databricks Inc. — All rights reserved 40 MLﬂowのこれから開発メンバーも増え（󰐵 2 󰏦 2 󰎩 1 󰑔 1）、非常にアクティブに開発しています ● LLM・Deep Learningへのサポートをさらに強化 ● より分かりやすいドキュメントやチュートリアルの拡充 ● 新しいML開発パラダイムに向けた大規模な機能追加・刷新 • Prompt Engineering - 学習を行わずにモデルをコントロール • RAG - モデル開発だけでなく、システムの一部としてモデルを運用する

Slide 41

Slide 41 text

©2024 Databricks Inc. — All rights reserved 41 MLflowのはじめ方 MLflow、始めやすくなっています • まずは新しい公式サイトに • ドキュメントも刷新されました • すぐに動かせるNotebookが大量に増えました（LLM全般の学習にも） • Databricks Community Edition で環境やストレージの設定なしで無料で試せます • Contributionも大歓迎です！！(good-first-issueも沢山あります）

Slide 42

Slide 42 text