W&B webinar LLM leaderboard Neo

Slide 1

Slide 1 text

1 Nejumi Leaderboard Neo

Slide 2

Slide 2 text

Speakers Namgi Han 東京大学大学院情報理工学係研究科コンピューター学専攻特任研究員 Meng Lee Stability AI Keisuke Kamata Weights & Biases Yuya Yamamoto Weights & Biases

Slide 3

Slide 3 text

16:00 ~ 16:20 Announcement & Nejumi LLMリーダーボードNeoのご紹介とそこからのインサイト W&B Keisuke Kamata 16:20 ~ 16:40 Jasterデータセットを使ったLLMモデルの評価 LLM-JP, 東京大学 Namgi Han 16:40 ~ 17:00 Q&A および休憩 17:00 ~ 17:20 MT-Bench-Jpデータセットを使った LLMモデルの評価 Stability AI, Meng Lee 17:20 ~ 17:40 Nejumiリーダーボード評価の走らせ方 W&B Yuya Yamamoto 17:40 ~ 18:00 Q&A / アンケート

Slide 4

Slide 4 text

Slide 5

Slide 5 text

Keisuke Kamata @olachinkei ● Applied Predictive Technologies, Engagement Manager ビジネス実験・効果検証 ● DataRobot, Lead Data Scientist 機械学習・ヘルスケア・コロナ対策 ● Weights & Biases, Success ML Engineer ディープラーニング・ LLM・ヘルスケア ● 京都大学・大学院動物実験・生体信号処理

Slide 6

Slide 6 text

Weights & Biasesとは AIの専門家が創業 W&Bの創業者は 2つのMLカテゴリーを創出業界を代表するVCが出資 (総額$250M以上) MLコミュニティーの中核世界で70万人以上のML実践者が信頼グローバル企業のための製品 ~1000 を超えるエンタープライズ企業が利用 2万を超えるフレームワーク・リポジトリと統合業界を代表するパートナー企業

Slide 7

Slide 7 text

私たちのお客様は機械学習であらゆるインダストリーを変革しています TRIではコンピュータビジョンを使って完全自動運転車の開発を進めています「W&Bは早いペースで最先端の開発を大規模に行うチームにはなくてはならないインフラです。」 Adrien Gaidon Toyota Research Institute OpenAIは深層学習と自然言語処理を使って、超高性能なチャットボットを開発しています「W&Bは、一人の研究者のインサイトをチームに波及させ、一台のマシンに閉じ込めず、何千台にスケールさせることができます。」 WOJCIECH ZAREMBA Co-founder of OpenAI Genentechは深層学習を使って感染病に有効な新しい抗生物質を探しています「W&Bのおかげで、私たちは意味のある科学研究により多くの時間を費やすことができます。」 Stephen Ra Machine Learning Lead

Slide 8

Slide 8 text

世界をリードするML企業が Weights＆Biasesを利用しています

Slide 9

Slide 9 text

W&Bをご活用されている日本のお客様・ユーザー様生成AIを開発する上でWeights & Biasesプラットフォームは必要不可欠なサービスとなっています。性能のモニタリング/チーム内での共有のような実験管理から、 LLMアプリケーションのための検証まで、様々な役立つ機能が提供されており、生成AI開発における羅針盤のような役割を果たしています。 WandBは、生成AI開発において効率化と高速化を実現する優れたプラットフォームであり、その採用により、富士通のAI開発のさらなる加速を目指します。特に、スーパーコンピュータ「富岳」を活用した大規模言語モデルの分散並列学習手法の開発においては、 WandBが大規模言語モデルの開発・運用・管理を効率化することで、イノベーションの創出に大きく貢献すると期待しています。 ... 機械学習エンジニア石上亮介氏執行役員EVP 富士通研究所長岡本青史氏 Woven by Toyotaでは、W&Bのテーブルをリーダーボードのように使うことで、クロスファンクションで、誰が何をしていて、どの方法がうまく機能しているかをみることができ、どのチームがどの成果を出しているかがみれる仕組みを作っています。 Woven By Toyota Evan Cushing氏毎朝、起床してWandBを開くのが楽しみで仕方ありません。 ... WandBを用いると、複数の学習の過程を比較したり、チーム内で議論したりといった分析が容易になるため、より優れた実験の計画を立て、効果的に試行することができます。このように、 Stability AIにおける生成基盤モデルの構築にあたって、WandBはなくてはならない存在です。 Senior Research Scientist 秋葉拓哉氏国内実績43社から主要企業を抜粋

Slide 10

Slide 10 text

マンスリーミートアップ外部コミュニティーへの貢献エグゼクティブコミュニティー国内開発者・事業者コミュニティーへの貢献年次ユーザーカンファレンス ML/LLM開発者や、MLOps実務者が登壇・参加する月次イベント。国内コミュニティー登録者は 1300人（2023年11月時点）国内は東京京橋での開催、ヨーロッパ、アメリカなどの各拠点でも開催。 ML/LLM業界を代表するスピーカーが登壇する年次イベント。国内初開催は 2023年10月（登録者数550） 2023年のサンフランシスコでのイベントでは、 OpenAI、 LangChainなどからもスピーカーが登壇し、 2000人以上の集客。世界各地で随時開催のエグゼクティブコミュニティーイベント。2023年国内イベントではNEC、ELYZA、など先端的LLM開発企業のエグゼクティブが参加。 with LLM-jp 勉強会 NIIが主催する国産基盤モデル開発プロジェクト LLM-jpのモデル開発に貢献（弊社 MLエンジニア鎌田が開発コントリビューターリストに掲載） JDLA正会員、経産省「新 AI事業者ガイドライン」「基盤モデル開発加速支援」検討委員（シバタアキラ）

Slide 11

Slide 11 text

1/26 (金) 17:00- グランフロント大阪！ “WandB 大阪” で検索 WandBのconpassに詳細を載せています

Slide 12

Slide 12 text

import wandb wandb.init() … wandb.log({“my_metric”: 0.5”}) … wandb.finish() 企業向けの安全なデプロイメント W&Bクライアントフロントエンド W&Bサーバーお客様セキュリティー領域 W&Bセキュリティー領域学習用インフラ (GPUなど) W&Bサーバーとは別環境 W&Bの基本的な使い方

Slide 13

Slide 13 text

Slide 14

Slide 14 text

Weights & Biases: AI開発・MLOpsプラットフォームすべてのML実験を管理 & 可視化最適化 & ハイパーパラメータチューニングモデルの登録 & 管理重要なワークフローの自動トリガー MLワークロードをパッケージ化して実行 W&B Models モデルの構築 & ファインチューニング MLパイプラインのバージョン管理データとメトリクスの可視化 & 探索ライブレポートでのインサイト共有拡張可能なアプリケーションフレームワーク W&B Core Platform 企業向けの安全なデプロイメント柔軟なマルチクラウドサポート LLMチェイン & プロンプトの探索とデバッグ LLMの管理監視 W&B Prompts LLMベースのアプリケーション開発 & モニタリング

Slide 15

Slide 15 text

W&Bが提供する充実したアセットドキュメントクイックスタートから詳細な APIの使い方の説明が記載されていますコース W&Bだけではなく、ML・DLのベストプラクティスを学べるいくつかのコースを無料で提供しています。 Wand community / WandBot Wandbはcommunity チャネルを運用しています wandb.me/jp-slack そこではLLMを用いたWandBotも使用することができます Github wandbのgithubではコード例なども共有されています Fully Connected 様々な公開レポートや業界のリーダーと対談したPodcastが集約されています

Slide 16

Slide 16 text

W&B NOTE W&Bのスタッフが日本語で記事を NOTE上に書いています是非フォローしてください

Slide 17

Slide 17 text

Weights & Biases Japan Youtubeチャネル Fully Connected Tokyoの動画を随時公開！

Slide 18

Slide 18 text

Nejumi Leaderboard …

Slide 19

Slide 19 text

世界には大規模なLLMリーダーボードがある https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard

Slide 20

Slide 20 text

JGLEUだけの評価の限界 (旧 Nejumi リーダーボード) JGLEUでフィンチューニングをすると、テストデータを使っていなくとも、精度が非常に高く出ることがわかった JGLUEだけの評価することの限界 ● 評価ベンチマークの拡大 ● 生成タスクの追加

Slide 21

Slide 21 text

Nejumi Leaderboard Neo ● Jasterを使用して、評価ベンチマークデータセットを拡張 💪 ● MT-bench (JP)を用いて、生成タスクに対する評価も追加 🚀 ● 結果の可視化も強化 👁 Release with Stability AI!

Slide 22

Slide 22 text

llm-jp-eval (Jaster)とは？ https://github.com/llm-jp/llm-jp-eval Llm-jp-evalは、llm-jp勉強会で構築された日本語の大規模言語モデルを自動評価するツール ● JSICK ● JSQuAD ● JSTS ● NIILC ● chABSA ● Wikipedia Annotated Corpus (複数) ● Jamp ● JaNLI ● JCommonsenseQA ● JEMHopQA ● JNLI ● JSeM JCommonsenseQAの例 instruction: 質問と回答の選択肢を入力として受け取り、選択肢から回答を選択してください。なお、回答は選択肢の番号（例：0）でするものとします。回答となる数値をint型で返し、他には何も含めないことを厳守してください。 input: 質問：電子機器で使用される最も主要な電子回路基板の事をなんと言う？選択肢：0.掲示板,1.パソコン,2.マザーボード,3.ハードディスク,4.まな板 ● 既存の日本語評価データを利用し、テキスト生成タスクの評価データセットに変換 ● 複数データセットを横断して大規模言語モデルの評価を実行 ● 評価データのプロンプトと同形式のインストラクションデータ (jaster) を生成

Slide 23

Slide 23 text

MT-benchとは？ llm-sysによって開発されたマルチターンの質問を含む、 LLMのベンチマーク ● LLMがマルチターンダイアログのモデルの会話の流れと指示に従う能力の評価を目的としており、「一般的なユースケース」と「挑戦的な指示」の両方が含まれている ● 2つのモデルの対決 or 単体モデルの絶対評価の2通りができる ● デフォルトはgpt-4で評価する ● Stability AIが日本語タスクを作成し、公開している ● 質問の数は80問であり、8つのカテゴリに分類をされる https://github.com/lm-sys/FastChat https://github.com/Stability-AI/FastChat ● Math ● Coding ● Knowledge I (STEM) ● Knowledge II (humanities/social science) ● Writing ● Roleplay ● Extraction ● Reasoning Writingの例 1st turn 新入社員へのビジネスメールのエチケットについての指導書を作成してください。敬語の正しい使い方や、日本のビジネス文化での注意点を取り入れてください。 2nd turn 自分の作成した指導書を客観的に評価し、改善点があれば指摘してください。

Slide 24

Slide 24 text

新しい評価からわかったこと llm-jp-eval MT-bench

Slide 25

Slide 25 text

結果の深掘り例 Swallow vs Llama2 Swallowのjasterの能力向上 ● Llama2からの継続学習により、日本語能力を獲得 ● 日本語のデータセットを用いた instruction tuningが効いている可能性あり Swallowは生成タスクで減点 ● 継続学習のデータセットに codeデータセットが入っていないため、一部忘却した可能性あり？新しいリーダーボードでは、確認したいモデルを選択してインタラクティブに深掘りが可能 llm-jp-eval MT-bench

Slide 26

Slide 26 text

令和こそこそ話 ● 商用APIや実装に様々な癖をもつ LLMを llm-jp-evalとMT-benchという2つの評価体系で完全に回る評価体系の構築 ○ 大量の分岐... ○ モデルごとの適切なプロンプトや End of Tokenなどの細かいTokenizerの設定が大変 ○ 特にlm-sysのFastChatに対応していないモデルへの対応が大変 ● 評価体系の少しの修正でモデルの回し直しが伴うが、数十Bのモデルをいくつも含む全てのモデルを一気に回し直すのは骨折り作業 ● LLM領域の進展が激しいので、それを取り入れながら随時更新をしていかなければならない

Slide 27

Slide 27 text

自分でも評価できるgithubも公開! リーダーボードへのアクセス自分でリーダーボードを作成！ nejumi.ai github wandb/llm-leaderboard で検索（conpassにもlinkを載せています）で検索(リーダーボード内にも掲載）

Slide 28

Slide 28 text

Slide 29

Slide 29 text

Slide 30

Slide 30 text

Slide 31

Slide 31 text

Slide 32

Slide 32 text

17:05 - start!

Slide 33

Slide 33 text

山本祐也 (Yuya YAMAMOTO) ● 機械学習エンジニア - Customer Success@W&B ● Kaggle Competitions Grandmaster ○ ID: nejumi

Slide 34

Slide 34 text

1. Nejumiリーダーボードの基本的な使い方 2. 自分専用のNejumiリーダーボードを作る方法 3. ちょっとしたTips（時間があれば）本日のアジェンダ

Slide 35

Slide 35 text

Nejumiリーダーボードの基本的な使い方

Slide 36

Slide 36 text

WandB LLMリーダーボードのワークフローモデルの準備 Configの設定評価実行評価実行ダッシュボードで結果を確認リーダーボードに追加 wandb.Artifact または、Hugging Face $ python3 run_eval.py or 評価はW&B Launchで実行あるいは、直接スクリプトから実行 Launch Config あるいは、config.yaml

Slide 37

Slide 37 text

直接スクリプトから実行（README.mdの通り）

Slide 38

Slide 38 text

各種環境変数の設定を行う # 環境変数の設定 export WANDB_API_KEY= export OPENAI_API_KEY= # 必要に応じて、以下の APIキーも設定してください export ANTHROPIC_API_KEY= export GOOGLE_API_KEY= export COHERE_API_KEY= export MISTRAL_API_KEY= # Bedrock用のAWS認証情報が必要な場合は設定してください export AWS_ACCESS_KEY_ID= export AWS_SECRET_ACCESS_KEY= export AWS_DEFAULT_REGION= # 必要に応じて、 huggingfaceにログインしてください huggingface-cli login # 必要に応じて export LANG=ja_JP.UTF-8 OPENAI_API_KEYとWANDB_API_KEY 以外は使うもののみで OK

Slide 39

Slide 39 text

# LLMリーダーボードリポジトリのクローンとサブモジュールの初期化 git clone https://github.com/wandb/llm-leaderboard.git cd llm-leaderboard git submodule init git submodule update --remote # config/config.yamlを用意しておく # Python仮想環境のセットアップと依存関係のインストール python3 -m venv llmjp source llmjp/bin/activate pip install -r requirements.txt # LLM評価の実行 python3 scripts/run_eval.py llm-leaderboardのセットアップと評価実行

Slide 40

Slide 40 text

wandb: log: True entity: "wandb-japan" project: "llm-leaderboard" run_name: 'mistralai/Mistral-7B-Instruct-v0.2' # use run_name defined above github_version: v2.0.0 #for recording testmode: true # if you don't use api, please set "api" as "false" # if you use api, please select from "openai", "anthoropic", "google", "cohere" api: false model: use_wandb_artifacts: false artifacts_path: "" pretrained_model_name_or_path: 'mistralai/Mistral-7B-Instruct-v0.2' #if you use openai api, put the name of model trust_remote_code: true device_map: "auto" load_in_8bit: false load_in_4bit: false generator: top_p: 1.0 top_k: 0 temperature: 0.1 repetition_penalty: 1.0 tokenizer: use_wandb_artifacts: false artifacts_path: "" pretrained_model_name_or_path: "mistralai/Mistral-7B-Instruct-v0.2" use_fast: true conﬁg.yamlの設定（概要、モデルとトークナイザ）

Slide 41

Slide 41 text

# for llm-jp-eval max_seq_length: 2048 dataset_artifact: "wandb-japan/llm-leaderboard/jaster:v3" #if you use artifacts, please fill here (if not, fill null) dataset_dir: "/jaster/1.1.0/evaluation/test" target_dataset: "all" # {all, jamp, janli, jcommonsenseqa, jemhopqa, jnli, jsem, jsick, jsquad, jsts, niilc, chabsa} log_dir: "./logs" torch_dtype: "bf16" # {fp16, bf16, fp32} custom_prompt_template: " [INST] {instruction}\n{input}[/INST]" custom_fewshots_template: null # Please include {input} and {output} as variables # example of fewshots template # "\n### 入力：\n{input}\n### 回答：\n{output}" metainfo: basemodel_name: "mistralai/Mistral-7B-Instruct-v0.2" model_type: "open llm" # {open llm, commercial api} instruction_tuning_method: "None" # {"None", "Full", "LoRA", ...} instruction_tuning_data: ["None"] # {"None", "jaster", "dolly_ja", "oasst_ja", ...} num_few_shots: 0 llm-jp-eval-version: "1.1.0" conﬁg.yamlの設定（llm-jp-eval）

Slide 42

Slide 42 text

# for mtbench mtbench: question_artifacts_path: 'wandb-japan/llm-leaderboard/mtbench_ja_question:v0' # if testmode is true, small dataset will be used referenceanswer_artifacts_path: 'wandb-japan/llm-leaderboard/mtbench_ja_referenceanswer:v0' # if testmode is true, small dataset will be used judge_prompt_artifacts_path: 'wandb-japan/llm-leaderboard/mtbench_ja_prompt:v1' bench_name: 'japanese_mt_bench' model_id: null # cannot use '<', '>', ':', '"', '/', '\\', '|', '?', '*', '.' question_begin: null question_end: null max_new_token: 1024 num_choices: 1 num_gpus_per_model: 1 num_gpus_total: 1 max_gpu_memory: null dtype: bfloat16 # None or float32 or float16 or bfloat16 # for gen_judgment judge_model: 'gpt-4' mode: 'single' baseline_model: null parallel: 1 first_n: null # for conv template # added custom_conv_template: true # the following variables will be used when custom_conv_template is set as true conv_name: "custom" conv_system_message: "" conv_roles: "('[INST]', '[/INST]')" conv_sep: " " conv_stop_token_ids: "[2]" conv_stop_str: " " conv_role_message_separator: " " conv_role_only_separator: " " conﬁg.yamlの設定（Japanese MT-Bench）

Slide 43

Slide 43 text

conﬁg.yamlは過去実行分が全てキャプチャされている公開されているnejumi.aiのプロジェクトから過去実行分のconfig.yamlも全部見れるので、参考にすると良い

Slide 44

Slide 44 text

WandB Launchで自動化

Slide 45

Slide 45 text

WandB Launchとは？

Slide 46

Slide 46 text

キューの設定 ① Launchから Create a queueをクリック ② Queueを紐づけるentityとリソース、 Configuraitonを設定する。

Slide 47

Slide 47 text

エージェントの実行 ① 作成したキューのAgents画面からAdd an agentをクリックする ② 表示されたコマンドをジョブを実行する計算機環境上で実行する

Slide 48

Slide 48 text

ジョブの実行 ① Jobsをクリック ② For Launchをクリック ③ configをやりたい内容に編集する ④ キューを選択する ⑤ 実行する

Slide 49

Slide 49 text

自分専用の Nejumiリーダーボードを作る方法 npakaさんの記事 https://note.com/npaka/n/n44252e28e70a

Slide 50

Slide 50 text

自分/自社専用の非公開リーダーボードを作ろう！ Nejumiリーダーボードの作り込まれたアセットと網羅的な評価結果をそのままコピーして自分だけの非公開ページを作ることができる！

Slide 51

Slide 51 text

リーダーボード用のプロジェクトを作成する（任意）リーダーボードを格納するプロジェクトを作成する（既存のプロジェクトを用いる場合は不要）

Slide 52

Slide 52 text

リーダーボード用のプロジェクトを作成する（任意）プロジェクト名とentity （個人ないしチーム）を指定する

Slide 53

Slide 53 text

Nejumiリーダーボードを複製する「··· 」アイコンをクリックして Make a copyを選択コピー先のentity/projectを指定してClone report

Slide 54

Slide 54 text

wandb: log: True entity: "yuya-team" project: "private-llm-leaderboard" run_name: 'mistralai/Mistral-7B-Instruct-v0.2' # use run_name defined above github_version: v2.0.0 #for recording testmode: true # if you don't use api, please set "api" as "false" # if you use api, please select from "openai", "anthoropic", "google", "cohere" api: false model: use_wandb_artifacts: false artifacts_path: "" pretrained_model_name_or_path: 'mistralai/Mistral-7B-Instruct-v0.2' #if you use openai api, put the name of model trust_remote_code: true device_map: "auto" load_in_8bit: false load_in_4bit: false generator: top_p: 1.0 top_k: 0 temperature: 0.1 repetition_penalty: 1.0 tokenizer: use_wandb_artifacts: false artifacts_path: "" pretrained_model_name_or_path: "mistralai/Mistral-7B-Instruct-v0.2" use_fast: true conﬁg.yamlのwandb.entityとprojectを対応して変更する実際にはレポートには任意のプロジェクトから結果を挿入できるが、対応させた方が管理するのに良いだろう

Slide 55

Slide 55 text

自分の評価結果を追記する（各Grid Panelに対して行う）＋アイコンをクリックしてタブを追加し、追加したRUNを含む entity/project を指定する目のアイコンをクリックして visibleにするのを忘れずに！ ● 弊社評価分もちゃんとコピーされている ● 多数のモデルの評価は自動化されていてもやはり手間なのでこれは嬉しい特典！

Slide 56

Slide 56 text

可視化パネルもそのまま使える！

Slide 57

Slide 57 text

その他の部分も自分好みに編集しよう！ ● レポート名と説明文、画像を変更した例 ● NotionライクなUIで自在に編集することができる ● 最後にPublishをクリック

Slide 58

Slide 58 text

ちょっとしたTips

Slide 59

Slide 59 text

レーダーチャートはVega-Liteのカスタムチャートを使用 https://wandb.ai/wandb-japan-partners/custom_test/reports/Vega-Lite-WandB---Vmlldzo2MDc0NTcz

Slide 60

Slide 60 text

run.nameを使った小技 RUNの名前は後から編集できる Weaveクエリで抽出してカラムとして追加することもできる

Slide 61

Slide 61 text

Slide 62

Slide 62 text

Configの設定評価実行リーダーボードに追加 WandB LLMリーダーボードのワークフロー環境構築 <計算環境> ● GPUの確保 ● Wandb llm-jp のgithub repositoryをclone ● 必要なlibraryをimport と環境変数の設定 <計算環境> ● 評価するモデルを設定 - Hugging Face - wandb.Artifacts - 商用API ● プロンプトの設定 <計算環境> ● scripts/run_eval.pyを実行 ● [初回Only] リーダーボードのテンプレートを Reportsで作成 ● リーダーボードに掲載をしたい場合は、Run のtagに”leaderboard” を追加 $python3 scripts/run_eval.py

Slide 63

Slide 63 text

Config / GPUの設定・評価実行リーダーボードに追加 WandB LLMリーダーボードのワークフロー with Launch 環境構築 <計算環境 & W&B> ● GPUの設定 ● 評価のジョブ化（一度評価をwandbで行うとジョブ化される） ● 評価するモデルを設定 - Hugging Face - wandb.Artifacts - 商用API ● プロンプトの設定 ● GPUの選択 ● Launchボタンの実行 ● リーダーボードに掲載をしたい場合は、Run （実行）のtag に”leaderboard”を追加 … 評価者はここからスタート Launchの画面 MLエンジニアが設定

Slide 64

Slide 64 text

Youtube チャンネル登録お願いします！ 2023/12 Monthly meetup 「大規模言語モデル開発を支える分散学習技術」 by 東京工業大学　横田理央先生

Slide 65

Slide 65 text

アンケートへのご回答お願いします https://forms.gle/TeCB8RNjS1gh9C1M6