Slide 1

Slide 1 text

1

Slide 2

Slide 2 text

Akira Shibata Country Manager Weights & Biases Machine Learning Engineer Weights & Biases Keisuke Kamata

Slide 3

Slide 3 text

About company

Slide 4

Slide 4 text

Team Background | チームの出身会社 Lukas Biewald, CEO Co-Founder & CEO Figure Eight, Powerset, OpenAI Chris Van Pelt, CISO Co-Founder & CISO Figure Eight, Powerset Shawn Lewis, CTO Co-Founder & CTO Beep, Google ● OpenAI ● Google ● Waymo ● Microsoft ● DataRobot ● Stanford ● Harvard ● Berkeley ● Twitter ● Databricks Figure Eight (acquired by Appen) ● Meta ● Github ● Domino ● JP Morgan ● Alteryx $200m in Funding | $200Mを超える資金調達 Angels & Advisors | アドバイザー Richard Socher — Chief Scientist, Salesforce Greg Brockman — CTO, OpenAI Nat Friedman — CEO, GitHub Tom Preston-Werner — Founder, GitHub Anthony Goldbloom — Founder and CEO, Kaggle Vladlen Koltun — Chief Scientist, Intel W&Bは2017年にSFで創業

Slide 5

Slide 5 text

TRIではコンピュータビジョンを使って 完全自動運転車の開発を進めてい ます 「W&Bは早いペースで最先端の開発 を大規模に行うチームにはなくては ならないインフラです。」 Adrien Gaidon Toyota Research Institute OpenAIは深層学習と自然言語処理を 使って、超高性能なチャットボットを開 発しています 「W&Bは、一人の研究者のインサイトを チームに波及させ、一台のマシンに閉 じ込めず、何千台にスケールさせること ができます。」 WOJCIECH ZAREMBA Co-founder of OpenAI Genentechは深層学習を使って感染 病に有効な新しい抗生物質を 探しています 「W&Bのおかげで、私たちは意味の ある科学研究により多くの時間を費 やすことができます。」 Stephen Ra Machine Learning Lead 世界をリードするMLチームが私たちのお客様です

Slide 6

Slide 6 text

ハイテク HPC 最先端のAI開発企業 - 大規模言語モデル( LLM)・生成系AI ゲーム ヘルスケア・ライフサイエンス 金融 メディア 小売・流通 製造・自動運転 Confidential あらゆるインダストリーのMLOps Best practice toolに

Slide 7

Slide 7 text

データ収集 探索的解析 データ準備 モデリング・ チューニング 結果の共有と 評価 モデル・サービス 監視 異常・ドリフト 検知 ビジネス評価 モニタリング データサイ エンティスト MLエンジニア プロダクト マネージャー プロダクト マネージャー データ エンジニア システム実装 結合テスト サービスイン システム エンジニア MLOps エンジニア 推論API実装 リスク評価 モデルリリース 評価・デプロイメント サーバー エンジニア プロダクト マネージャー 監査担当 モデル開発 監査担当 バージョン管理と継続開発 モデルライフサイクルを支えるWeights & Biases Tables Sweeps Artifacts Experiments Reports Prompt Launch Models Weave Monitoring Automation

Slide 8

Slide 8 text

8 AIの開発でありがちな課題 ● 実験結果を手元のスプレッドシートで管理しているが、手に負えなくなってきた ● すごいモデルができた!けれど誰も結果を再現することができない ● モデルがなぜおかしな結果を出しているのか自分だけでは解決できない ● 自分の見つけたインサイトをチームメンバーに効果的に伝えたい ● ハイパーパラメータをいじったことはあるけれどチューニングまでは・・・ ● 構築した開発ワークフローを継続開発の観点から自動化したい

Slide 9

Slide 9 text

Training script / notebook wandb.init() … wandb.log({“my_metric”: 0.5”}) … wandb.log_artifact(my_model) … wandb.finish() W&B Dashboard Weights & Biasesの実行環境

Slide 10

Slide 10 text

Announcements

Slide 11

Slide 11 text

https://fullyconnected.jp

Slide 12

Slide 12 text

https://fullyconnected.jp

Slide 13

Slide 13 text

今週から公開! W&B Japan コミュニティー wandb.me/jp-slack

Slide 14

Slide 14 text

Wandbotα日本語版 も使える

Slide 15

Slide 15 text

Wandb Report Challenge🏆!! 1 2 記事をFully ConnectedのReportで作成 #report-shareに作成したReportをshare! @hereとmentionをつけてください ● 素晴らしいreportはwandb fully connectedのオ フィシャルページにも投稿! ● 素晴らしいreportを書かれた方を、年に1度(今年 は年末を予定) Fully Connected Report Championとして 表彰し、豪華なスワッグをプレゼントします ※ 投稿量だけではなく、中身も重視します 応募方法

Slide 16

Slide 16 text

LLMOps

Slide 17

Slide 17 text

LLMアプリケーション Liu et al. TRUSTWORTHY LLMS: A SURVEY AND GUIDELINE FOR EVALUATING LARGE LANGUAGE MODELS’ ALIGNMENT

Slide 18

Slide 18 text

LLMアプリケーション +α https://github.com/facebookresearch/esm Pictur: https://twitter.com/alexrives/status/1561693284912828420?s=20 ● タンパク質の構造推定 ● 結合推定 ● 局在の予測 …

Slide 19

Slide 19 text

LLMアプリケーション開発フロー データ準備 アーキテクチャ構築 基盤モデルの構築 特定タスクへのファインチューニング LLMチェインの構築・プロンプトエンジニアリング ● データ収集 ● データクレンジング ● トークン化 モデリング ● モデルのアーキテクチャ 開発 ● 少数パラメーターでの実 験 ● 並列化処理 ● ハイパーパラメータ探索 データ準備 基盤モデルの選択 ● データ収集 ● データクレンジング ● トークン化 ● 対象タスクで性能評価 ● モデルのサイズ決定 ● ライセンス・コスト確認 ファインチューニング ● 並列化処理 ● ハイパーパラメータ探索 ● インストラクショチューニン グ ● 報酬関数構築と強化学習 データ準備 デプロイ・とインテグ レーション ● 独自データの集約 ● データクレンジング ● ベクトルDBの作成 ● LLMチェインの構築 ● プロンプトエンジニアリン グ ● 品質・脆弱性評価 ● 推論APIの実装 ● リスク評価 ● モデルリリース ● システム・アプリケーショ ンの実装 ● 結合テスト ● サービスイン モニタリングと 継続的な開発 ● モデル・サービス監視 ● フィードバック収集 ● データ解析・異常検知 ● ビジネス評価 ● 継続的なモデルの更新 アプリケーション構築 開発の方針決定 ● コスト ● 開発時間 ● 計算リソース ● 開発基盤 ● 人的リソース・専門性 ● ライセンス ● リスク ● 精度 ● 再現可能性、など どこから開始するのかを決 定する LLMチェインの設計 ● LLMチェインの設計 ● モデルの選択 ● 評価系の構築 プロダクション 1 2 3 1 2 3

Slide 20

Slide 20 text

2 0 概要と目次: ・学習済みLLMモデルの構築と購入の比較 ・スケーリング法則 ・ハードウェア ・データセットの収集 ・データセットの前処理 ・事前学習のステップ ・モデル評価 ・バイアスと有害性 ・インストラクションチューニング ・人間のフィードバックによる強化学習

Slide 21

Slide 21 text

モデルの抽象度と評価方法 汎用的タスク ダウンストリーム タスク 基盤モデル ● Val_Loss ● 評価タスク ● 資格試験・入試 ● Model Base ● Human データ準備 アーキテクチャ構築 基盤モデルの構築 特定タスクへのファインチューニング 独自データからの知識統合 ● データ収集 ● データクレンジング ● トークン化 モデリング ● モデルのアーキテクチャ 開発 ● 少数パラメーターでの実 験 ● 並列化処理 ● ハイパーパラメータ探索 データ準備 基盤モデルの選択 ● データ収集 ● データクレンジング ● トークン化 ● 対象タスクで性能評価 ● モデルのサイズ決定 ● ライセンス・コスト確認 ファインチューニング ● 並列化処理 ● ハイパーパラメータ探索 ● インストラクショチューニン グ ● 報酬関数構築と強化学習 データ準備 ● 独自データの集約 ● データクレンジング ● ベクトルDBの作成 ● LLMチェインの構築 ● プロンプトエンジニアリン グ ● 品質・脆弱性評価 アプリケーション構築 LLMチェインの設計 ● LLMチェインの設計 ● モデルの選択 ● 評価系の構築 1 2 3

Slide 22

Slide 22 text

PaLM 2 Technical Reportの評価データセット例 分類 (PaLM 2 TR*より) 評価データセット 言語能力テスト ● Chinese: HSK ● Japanese: J-Test ● Common European Framework of Reference for Languages ● … 分類 & QA ● MMLU ● DROP ● TriviaQA ● Natural Questions ● Web Quesitons ● LAMBADA ● StoryCloze ● Winograd ● SQuAD v2 ● RACE ● PIQA ● OpenBookQA ● SuperGLUE ● ANLI ● TyDi QA 推論 ● HellaSwag ● AI2 Reasoning Challenge ● WinoGrande ● GSM-8K ● StrategyQA ● ● CommonsenseQA ● XCOPA ● BIG-Bench Hard ● MATH ● MGSM コーディング ● HumanEval ● MBPP ● ARCADE 翻訳 ● WMT 2021 ● FRMT 自然言語生成 ● XLSum ● WikiLingua ● XSum ● ParlAI Dialogue Safety ● Multilingual Representational Bias ● BBQ Bias Benchmark for QA ● RealToxicityPrompts * PaLM 2 Technical Report, Google, 2023

Slide 23

Slide 23 text

● 試行錯誤が伴う領域である が故に、チームとしてのア セット管理が重要 ● 検討・実施するべき項目が 多く、毎回手動で実行してい ると時間がかかるため、自 動化できるところは自動化し て開発プロセスを短縮化す ることが求められる 開発に向けて必要なプラットフォーム 基盤モデルの構 築 特定タスクへの ファインチューニ ング データ収集 ・クレンジン グ データ収集 ・クレンジン グ プロダクション LLMチェインの 構築・プロンプト エンジニアリング モデル構築 モデル構築 評価 LLM チェイン 構築 評価 データ管理 が複雑! データ収集 ・クレンジン グ 過去の記録やコードの管理が煩雑! 過去のプロジェクトを再現できない モデル管理 が複雑! 評価に時間 がかかる! デプロイ テスト・評価 監視 データ収集 新しいバージョンの リリースに 時間がかかる! モニタリング ダッシュボードが 欲しい! 修正をするポイントが多すぎる! 開発が 複雑!

Slide 24

Slide 24 text

大規模モデルの開発

Slide 25

Slide 25 text

Fine-tuning

Slide 26

Slide 26 text

リーダーボード (評価結果) Reports 評価データ / モデル管理 計算資源 データ管理 ● Hugging Face ● artifacts on W&B server Launch Artifacts 評価 / 実験管理 Experiments 実験管理 ジョブを作成 Report上でリーダー ボード運営 W&B Launchを用いた自動評価 Nejumi Leaderboard GPUで自動実行プロ セスを構築

Slide 27

Slide 27 text

LLM Chainの構築 プロンプトエンジニアリング

Slide 28

Slide 28 text

Question Embedding model Docs Document Store / Vector DB Similarity search K neighbors PROMPT Prompt template LLM Answer Sampling

Slide 29

Slide 29 text

29 WandBot..

Slide 30

Slide 30 text

今週から公開! W&B Japan コミュニティー wandb.me/jp-slack Wandbotα日本語版も使える!

Slide 31

Slide 31 text

Weights & Biases CEO Lukas Biewald LangChain CEO Harrison Chase 私が気になるのは、評価です。私がReplitのCEOであるAmjadと話をしていた ときに、彼らがProductionに入れた言語モデルは、Vibes(直感的な感覚)によ るテストしか行っていないということを聞きました。つまり、それが前のバージョ ンよりも良くなったか悪くなったかを見るだけだということです。実際、そうした やり方をあちこちで見かけますが、改善の方法はあると思っています。あなた はそれについてどのように考えていますか?また、その問題を解決するため にどのようしたいと考えていますか? "The Vibes"(直感的な感覚)はちょっと馬鹿げて聞こえるかもしれませんが、 全く馬鹿げたことではないということです。多くの人々から、アウトプットを実際 にみることで、何が良くて何が悪いのか、何がうまくいかない可能性があるの か、という直感を得ていると聞いています。 そのために、何が内部で行われているのかを可視化するのは非常に有益で、 Weights and Biasesは最近この領域でたくさんのことをやっていますね、本 当にそれは役に立つと思います

Slide 32

Slide 32 text

Production Monitoring

Slide 33

Slide 33 text

Monitoring

Slide 34

Slide 34 text

Q&A