LLMOpsのためのCICD環境構築

Slide 1

Slide 1 text

Slide 2

Slide 2 text

Akira Shibata Country Manager Weights & Biases Machine Learning Engineer Weights & Biases Keisuke Kamata

Slide 3

Slide 3 text

About company

Slide 4

Slide 4 text

Team Background | チームの出身会社 Lukas Biewald, CEO Co-Founder & CEO Figure Eight, Powerset, OpenAI Chris Van Pelt, CISO Co-Founder & CISO Figure Eight, Powerset Shawn Lewis, CTO Co-Founder & CTO Beep, Google ● OpenAI ● Google ● Waymo ● Microsoft ● DataRobot ● Stanford ● Harvard ● Berkeley ● Twitter ● Databricks Figure Eight (acquired by Appen) ● Meta ● Github ● Domino ● JP Morgan ● Alteryx $200m in Funding | $200Mを超える資金調達 Angels & Advisors | アドバイザー Richard Socher — Chief Scientist, Salesforce Greg Brockman — CTO, OpenAI Nat Friedman — CEO, GitHub Tom Preston-Werner — Founder, GitHub Anthony Goldbloom — Founder and CEO, Kaggle Vladlen Koltun — Chief Scientist, Intel W&Bは2017年にSFで創業

Slide 5

Slide 5 text

TRIではコンピュータビジョンを使って完全自動運転車の開発を進めています「W&Bは早いペースで最先端の開発を大規模に行うチームにはなくてはならないインフラです。」 Adrien Gaidon Toyota Research Institute OpenAIは深層学習と自然言語処理を使って、超高性能なチャットボットを開発しています「W&Bは、一人の研究者のインサイトをチームに波及させ、一台のマシンに閉じ込めず、何千台にスケールさせることができます。」 WOJCIECH ZAREMBA Co-founder of OpenAI Genentechは深層学習を使って感染病に有効な新しい抗生物質を探しています「W&Bのおかげで、私たちは意味のある科学研究により多くの時間を費やすことができます。」 Stephen Ra Machine Learning Lead 世界をリードするMLチームが私たちのお客様です

Slide 6

Slide 6 text

ハイテク HPC 最先端のAI開発企業 - 大規模言語モデル（ LLM）・生成系AI ゲームヘルスケア・ライフサイエンス金融メディア小売・流通製造・自動運転 Confidential あらゆるインダストリーのMLOps Best practice toolに

Slide 7

Slide 7 text

データ収集探索的解析データ準備モデリング・チューニング結果の共有と評価モデル・サービス監視異常・ドリフト検知ビジネス評価モニタリングデータサイエンティスト MLエンジニアプロダクトマネージャープロダクトマネージャーデータエンジニアシステム実装結合テストサービスインシステムエンジニア MLOps エンジニア推論API実装リスク評価モデルリリース評価・デプロイメントサーバーエンジニアプロダクトマネージャー監査担当モデル開発監査担当バージョン管理と継続開発モデルライフサイクルを支えるWeights & Biases Tables Sweeps Artifacts Experiments Reports Prompt Launch Models Weave Monitoring Automation

Slide 8

Slide 8 text

8 AIの開発でありがちな課題 ● 実験結果を手元のスプレッドシートで管理しているが、手に負えなくなってきた ● すごいモデルができた！けれど誰も結果を再現することができない ● モデルがなぜおかしな結果を出しているのか自分だけでは解決できない ● 自分の見つけたインサイトをチームメンバーに効果的に伝えたい ● ハイパーパラメータをいじったことはあるけれどチューニングまでは・・・ ● 構築した開発ワークフローを継続開発の観点から自動化したい

Slide 9

Slide 9 text

Training script / notebook wandb.init() … wandb.log({“my_metric”: 0.5”}) … wandb.log_artifact(my_model) … wandb.finish() W&B Dashboard Weights & Biasesの実行環境

Slide 10

Slide 10 text

Announcements

Slide 11

Slide 11 text

https://fullyconnected.jp

Slide 12

Slide 12 text

https://fullyconnected.jp

Slide 13

Slide 13 text

今週から公開！ W&B Japan コミュニティー wandb.me/jp-slack

Slide 14

Slide 14 text

Wandbotα日本語版も使える

Slide 15

Slide 15 text

Wandb Report Challenge🏆!! 1 2 記事をFully ConnectedのReportで作成 #report-shareに作成したReportをshare! @hereとmentionをつけてください ● 素晴らしいreportはwandb fully connectedのオフィシャルページにも投稿！ ● 素晴らしいreportを書かれた方を、年に1度（今年は年末を予定） Fully Connected Report Championとして表彰し、豪華なスワッグをプレゼントします ※ 投稿量だけではなく、中身も重視します応募方法

Slide 16

Slide 16 text

LLMOps

Slide 17

Slide 17 text

LLMアプリケーション Liu et al. TRUSTWORTHY LLMS: A SURVEY AND GUIDELINE FOR EVALUATING LARGE LANGUAGE MODELS’ ALIGNMENT

Slide 18

Slide 18 text

LLMアプリケーション +α https://github.com/facebookresearch/esm Pictur: https://twitter.com/alexrives/status/1561693284912828420?s=20 ● タンパク質の構造推定 ● 結合推定 ● 局在の予測 …

Slide 19

Slide 19 text

LLMアプリケーション開発フローデータ準備アーキテクチャ構築基盤モデルの構築特定タスクへのファインチューニング LLMチェインの構築・プロンプトエンジニアリング ● データ収集 ● データクレンジング ● トークン化モデリング ● モデルのアーキテクチャ開発 ● 少数パラメーターでの実験 ● 並列化処理 ● ハイパーパラメータ探索データ準備基盤モデルの選択 ● データ収集 ● データクレンジング ● トークン化 ● 対象タスクで性能評価 ● モデルのサイズ決定 ● ライセンス・コスト確認ファインチューニング ● 並列化処理 ● ハイパーパラメータ探索 ● インストラクショチューニング ● 報酬関数構築と強化学習データ準備デプロイ・とインテグレーション ● 独自データの集約 ● データクレンジング ● ベクトルDBの作成 ● LLMチェインの構築 ● プロンプトエンジニアリング ● 品質・脆弱性評価 ● 推論APIの実装 ● リスク評価 ● モデルリリース ● システム・アプリケーションの実装 ● 結合テスト ● サービスインモニタリングと継続的な開発 ● モデル・サービス監視 ● フィードバック収集 ● データ解析・異常検知 ● ビジネス評価 ● 継続的なモデルの更新アプリケーション構築開発の方針決定 ● コスト ● 開発時間 ● 計算リソース ● 開発基盤 ● 人的リソース・専門性 ● ライセンス ● リスク ● 精度 ● 再現可能性、などどこから開始するのかを決定する LLMチェインの設計 ● LLMチェインの設計 ● モデルの選択 ● 評価系の構築プロダクション 1 2 3 1 2 3

Slide 20

Slide 20 text

2 0 概要と目次：・学習済みLLMモデルの構築と購入の比較・スケーリング法則・ハードウェア・データセットの収集・データセットの前処理・事前学習のステップ・モデル評価・バイアスと有害性・インストラクションチューニング・人間のフィードバックによる強化学習

Slide 21

Slide 21 text

モデルの抽象度と評価方法汎用的タスクダウンストリームタスク基盤モデル ● Val_Loss ● 評価タスク ● 資格試験・入試 ● Model Base ● Human データ準備アーキテクチャ構築基盤モデルの構築特定タスクへのファインチューニング独自データからの知識統合 ● データ収集 ● データクレンジング ● トークン化モデリング ● モデルのアーキテクチャ開発 ● 少数パラメーターでの実験 ● 並列化処理 ● ハイパーパラメータ探索データ準備基盤モデルの選択 ● データ収集 ● データクレンジング ● トークン化 ● 対象タスクで性能評価 ● モデルのサイズ決定 ● ライセンス・コスト確認ファインチューニング ● 並列化処理 ● ハイパーパラメータ探索 ● インストラクショチューニング ● 報酬関数構築と強化学習データ準備 ● 独自データの集約 ● データクレンジング ● ベクトルDBの作成 ● LLMチェインの構築 ● プロンプトエンジニアリング ● 品質・脆弱性評価アプリケーション構築 LLMチェインの設計 ● LLMチェインの設計 ● モデルの選択 ● 評価系の構築 1 2 3

Slide 22

Slide 22 text

PaLM 2 Technical Reportの評価データセット例分類（PaLM 2 TR*より）評価データセット言語能力テスト ● Chinese: HSK ● Japanese: J-Test ● Common European Framework of Reference for Languages ● … 分類 & QA ● MMLU ● DROP ● TriviaQA ● Natural Questions ● Web Quesitons ● LAMBADA ● StoryCloze ● Winograd ● SQuAD v2 ● RACE ● PIQA ● OpenBookQA ● SuperGLUE ● ANLI ● TyDi QA 推論 ● HellaSwag ● AI2 Reasoning Challenge ● WinoGrande ● GSM-8K ● StrategyQA ● ● CommonsenseQA ● XCOPA ● BIG-Bench Hard ● MATH ● MGSM コーディング ● HumanEval ● MBPP ● ARCADE 翻訳 ● WMT 2021 ● FRMT 自然言語生成 ● XLSum ● WikiLingua ● XSum ● ParlAI Dialogue Safety ● Multilingual Representational Bias ● BBQ Bias Benchmark for QA ● RealToxicityPrompts * PaLM 2 Technical Report, Google, 2023

Slide 23

Slide 23 text

● 試行錯誤が伴う領域であるが故に、チームとしてのアセット管理が重要 ● 検討・実施するべき項目が多く、毎回手動で実行していると時間がかかるため、自動化できるところは自動化して開発プロセスを短縮化することが求められる開発に向けて必要なプラットフォーム基盤モデルの構築特定タスクへのファインチューニングデータ収集・クレンジングデータ収集・クレンジングプロダクション LLMチェインの構築・プロンプトエンジニアリングモデル構築モデル構築評価 LLM チェイン構築評価データ管理が複雑！データ収集・クレンジング過去の記録やコードの管理が煩雑！過去のプロジェクトを再現できないモデル管理が複雑！評価に時間がかかる！デプロイテスト・評価監視データ収集新しいバージョンのリリースに時間がかかる！モニタリングダッシュボードが欲しい！修正をするポイントが多すぎる！開発が複雑！

Slide 24

Slide 24 text

大規模モデルの開発

Slide 25

Slide 25 text

Fine-tuning

Slide 26

Slide 26 text

リーダーボード（評価結果） Reports 評価データ / モデル管理計算資源データ管理 ● Hugging Face ● artifacts on W&B server Launch Artifacts 評価 / 実験管理 Experiments 実験管理ジョブを作成 Report上でリーダーボード運営 W&B Launchを用いた自動評価 Nejumi Leaderboard GPUで自動実行プロセスを構築

Slide 27

Slide 27 text

LLM Chainの構築プロンプトエンジニアリング

Slide 28

Slide 28 text

Question Embedding model Docs Document Store / Vector DB Similarity search K neighbors PROMPT Prompt template LLM Answer Sampling

Slide 29

Slide 29 text

29 WandBot..

Slide 30

Slide 30 text

今週から公開！ W&B Japan コミュニティー wandb.me/jp-slack Wandbotα日本語版も使える!

Slide 31

Slide 31 text

Weights & Biases CEO Lukas Biewald LangChain CEO Harrison Chase 私が気になるのは、評価です。私がReplitのCEOであるAmjadと話をしていたときに、彼らがProductionに入れた言語モデルは、Vibes（直感的な感覚）によるテストしか行っていないということを聞きました。つまり、それが前のバージョンよりも良くなったか悪くなったかを見るだけだということです。実際、そうしたやり方をあちこちで見かけますが、改善の方法はあると思っています。あなたはそれについてどのように考えていますか？また、その問題を解決するためにどのようしたいと考えていますか？ "The Vibes"（直感的な感覚）はちょっと馬鹿げて聞こえるかもしれませんが、全く馬鹿げたことではないということです。多くの人々から、アウトプットを実際にみることで、何が良くて何が悪いのか、何がうまくいかない可能性があるのか、という直感を得ていると聞いています。そのために、何が内部で行われているのかを可視化するのは非常に有益で、 Weights and Biasesは最近この領域でたくさんのことをやっていますね、本当にそれは役に立つと思います