Chatbot Arena 大規模言語モデル（LLM）のベンチマーク・プラットフォーム

Slide 1

Slide 1 text

Chatbot Arena 大規模言語モデル（LLM）のベンチマーク・プラットフォーム © dotEQ, Ltd.

Slide 2

Slide 2 text

Chatbot Arena 大規模言語モデル（LLM）のベンチマーク・プラットフォーム人間によるペアワイズ比較を用いた投票による LLM の性能を評価 Elo レーティングにより、投票結果のベンチマークスコアを計算参照：Chatbot Arena: Benchmarking LLMs in the Wild with Elo Ratings | LMSYS Org © dotEQ, Ltd. 1 1

Slide 3

Slide 3 text

優れたベンチマークシステムに求められる特性スケーラビリティ（Scalability）可能性のあるすべてのモデルペアについて十分なデータを収集することが不可能な場合、システムは多数のモデルに対してスケールすべきである増分性（Incrementality）比較的少ない試行回数で新しいモデルを評価できること一意の順序（Unique order）システムは、すべてのモデルに対して一意な順序を提供すべきである 2 つのモデルがあった場合、どちらの順位が高いか、あるいは同順位かどうかを知ることができなければならない © dotEQ, Ltd. 2 2

Slide 4

Slide 4 text

既存の LLM ベンチマークシステムの問題点 HELM/lm-evaluation-harness など古典的な LLM ベンチマークフレームワークペアワイズ比較にもとづいていないため、自由形式の質問の回答評価には適していない OpenAI evals プロジェクト参加モデルすべてのランキングを提供していない「Vicuna」の、GPT-4 ベースの評価パイプラインスケーラブルで段階的な評価のためのソリューションを提供していない © dotEQ, Ltd. 3 3

Slide 5

Slide 5 text

ペアワイズ比較に基づいた優れたベンチマークシステムクラウドソース方式でユーザに匿名ランダム化バトルを提供するスケーラビリティ（Scalability）ユーザは 2 つの匿名モデルを並べてチャットし、どちらが優れているか投票する増分性（Incrementality）投票結果をもとに、Elo レーティングを計算し、モデルの順位を決定する一意の順序（Unique order）レーティングは各バトル後に、線形に更新されるスケーラビリティ（Scalability）、増分性（Incrementality） © dotEQ, Ltd. 4 4

Slide 6

Slide 6 text

Collection：評価データの収集 Chatbot Arenaにアクセスユーザは 2 つの匿名モデルを並べてチャットを開始するユーザは、匿名モデル 2 つから返答をもらった後、チャットを続けるか、より良いと思うモデルに投票する投票が送信されると、モデル名が公開されるシステムはすべてのユーザーとのやりとりを記録する © dotEQ, Ltd. 5 5

Slide 7

Slide 7 text

Eval：Elo レーティングチェスやスポーツなどの対戦ゲームで広く用いられているレーティングシステムプレイヤー（LLM）の相対的な強さを計算する方法複数の LLM 間でペアワイズ比較に基づくバトルの投票から計算する評価は、モデル名が隠されているときの投票のみを使用する Anthropic LLM の論文も Elo レーティングシステムを採用している © dotEQ, Ltd. 6 6

Slide 8

Slide 8 text

LLM の相対的な強さを求める公式：LLM A のレーティング：LLM B のレーティング：LLM A が勝つ確率 © dotEQ, Ltd. 7 7

Slide 9

Slide 9 text

公式の解説 1. レーティング差の計算：で、LLM B と LLM A のレーティング差を計算この差が大きいほど、レーティングの高い LLM が勝つ確率が高くなる 2. 指数関数の計算：レーティング差を 400 で割り、底 10 の指数として使用するレーティング差が 400 ポイントごとに勝率が約 10 倍変わることを意味する 3. 勝率の計算：計算された指数関数の値に 1 を加え、その逆数を取るこれにより LLM A が勝つ確率を得る © dotEQ, Ltd. 8 8

Slide 10

Slide 10 text

公式の例例えば、LLM A のレーティングが 1600、LLM B のレーティングが 2000 の場合、計算は以下のようになる： 1. 2. 3. つまり、この場合 LLM A が勝つ確率は約 9.09% となる © dotEQ, Ltd. 9 9

Slide 11

Slide 11 text

LLM A が勝つ確率の更新公式 LLM のレーティングは、各バトルの後に線形に更新できる仮に LLM A のレーティングが、勝つ確率点を獲得すると予想されていたが、実際には点を獲得した場合のレーティングを更新式は次のようになる：・ © dotEQ, Ltd. 10 10

Slide 12

Slide 12 text

公式の重要なポイントのまとめレーティング差が大きいほど、高いレーティングの LLM の勝率が高くなる指数関数により、レーティング差が直線的ではなく、指数的に勝率に影響する勝率の計算は簡単な逆数の操作で得られるレーティングの更新は線形に行われるこの式は、ゲームの結果を予測するために非常に有用であり、容易な更新で、LLM の相対的な強さの差を定量的に評価できる © dotEQ, Ltd. 11 11

Slide 13

Slide 13 text

Slide 14

Slide 14 text

各モデルの組み合わせ対戦回数ランキングの全体的な網羅性を高めるために、一様サンプリングを使用終盤に追加された新しいモデルは一様でない結果となっている参照：LMSYS Chatbot Arena Leaderboard © dotEQ, Ltd. 13 13

Slide 15

Slide 15 text

Slide 16

Slide 16 text

Slide 17

Slide 17 text

参考文献 Chatbot Arena: Benchmarking LLMs in the Wild with Elo Ratings | LMSYS Org Chatbot Arena - Elo を使用した LLM ベンチマーク｜ npaka We extend our heartfelt thanks to the authors and researchers whose work has been referenced in this presentation. © dotEQ, Ltd. 16 16