松尾研LLM講座2024 最終コンペ解法

松尾研LLM講座2024 最終コンペ解法発表 Chihiro Arata (Aratako) 2025/1/28

一般企業でエンジニアとして働きながら個人としてLLM関連の様々な開発や記事執筆等を行っています。自己紹介 https://lit.link/aratako 各種リンク https://x.com/Aratako_LM

最終コンペの簡単な概要 Baseモデルから SFTやDPO等で追加学習を行ってモデルを開発し、そのモデルで Elyza-tasks-100に似た独自ベンチマークに対して回答を行い、その回答の品質を競う • 予選：LLM as a
judgeによる自動評価（開発期間公開データ） • 決勝：LLM講座受講者による人手評価（開発期間非公開データ）最終結果 • 予選最終スコア（Public Leaderboard）: 3.83 • 決勝最終スコア（人手評価）: 3.77 • 最終順位: 1位

最終コンペの内容公開～開発方針決定まず最初にやったこと：コンペルールの熟読と公開問題の目視確認コンペルールについて • ベースモデルはllm-jp-3またはGemma 2シリーズの各種baseモデルから選択 →llm-jp-3 13bかGemma-2 27bのどちらかを使うことになりそう
• 推論の際にはL4で1時間以内に推論完了することが必須 →llm-jp-3 13bは8bit、Gemma-2 27bは5bit程度に量子化が必要 →5bit程度であれば性能劣化は比較的抑えられるだろうと考えられる • 決勝では公開された問題とは別の非公開問題に対して人手評価が行われる →公開タスクだけに対してOverﬁtしても決勝でスコアが下がってしまう →人手評価が行われるのでLLM評価では気付きにくい問題に対処が必要

最終コンペの内容公開～開発方針決定まず最初にやったこと：コンペルールの熟読と公開問題の目視確認公開タスクの目視確認 • 想定よりも時事的知識を問われる問題が少ない • 計算問題や推論タスクの難易度はそこまで高くはない • かなり難易度が高く、基本的に捨てても良さそうなタスク
がある ◦ 例：IMEとして振る舞い適切な変換候補を出すタスク

最終コンペの内容公開～開発方針決定以上の内容から、以下のような開発方針を決定 • 公開タスクにOverﬁtしないように、公開タスクからデータを合成する等は行わず、あくまで汎用的な日本語対話性能の高いモデルを目指す • 外部知識無しで解ける問題が多いためRAG的なシステムは利用しない ◦ RAGはLong
Contextの情報抽出タスクのようなものなので、外部知識不要な場合に行ってもシンプルなQA性能には悪影響を及ぼす可能性がある ◦ 同様に継続事前学習も行わない（元モデルのパラメータを破壊したくない） • 数学や推論タスクの難易度は比較的低いため、Reasoningのような高度な推論は基本的に行わない ◦ ただし性能向上の余地はあるので、余裕があれば取り組みたかった

ベースモデル選定ベースモデルにはllm-jp-3 13bとGemma-2 27bの2つの選択肢があった • 単純なモデルサイズはGemma-2 27bの方が2倍程度大きい • llm-jp-3 13bを採用する場合は8bit、Gemma-2
27bを採用する場合は 5bit程度に量子化が必要 • 事前学習データの全量は恐らく Gemma-2 27bの方が多いが、日本語データの多寡については不明シンプルに同じデータで2つをSFT→量子化・推論して精度評価して選定した結果、Gemma-2 27bをベースモデルとして採用

学習学習は以下のような4段階で行った baseモデル Gemma-2 27b 中間モデル ① 中間モデル ② 中間モデル
③ 最終提出モデル④ SFT オープンデータ中心 CPO-SimPO Off-Policyデータ中心 CPO-SimPO On-Policyデータ ORPO On-Policyデータ

学習 ①SFT オープンデータを中心に独自合成データを一部含め通常のSFTを実施学習後モデルは以下リンクで公開 Aratako/Llama-Gemma-2-27b-SFT-trial1 · Hugging Face 利用データセット（全て合成データ） •
日本語データ：274118件 • 英語データ：250000件 ※利用データ等は全て上記モデルのREADMEに記載しています

学習 ①SFT 主要な学習パラメータ • learning rate: 1e-5 • lr scheduler:
cosine_with_min_lr (min_lr=1e-6) • epochs: 2 • sequence length: 4096 評価 Llama.cppでQ5_K_Mに量子化して評価 • 予選リーダーボードスコア：3.66 • 手元のElyza-tasks-100スコア：4.11/4.17（gemini-1.5-ﬂash/pro-002評価）

学習 ②CPO-SimPO（1回目） Off-policyデータを中心に独自合成データを一部含めCPO-SimPOを適用学習後モデルは以下リンクで公開 Aratako/Llama-Gemma-2-27b-CPO_SimPO-iter1 · Hugging Face 利用データセット •
日本語データ：160012件 • 英語データ：7154件 ※利用データ等は全て上記モデルのREADMEに記載しています

学習 ②CPO-SimPO（1回目）主要な学習パラメータ • learning rate: 3e-7 • lr scheduler:
cosine • epochs: 1 • sequence length: 2048 • beta: 10 • simpo_gamma: 5 • cpo_alpha: 0.05 ※一部のハイパーパラメータについてはSimPOの公式リポジトリを参考にした

学習 ②CPO-SimPO（1回目）評価 Llama.cppでQ5_K_Mに量子化して評価 • 予選リーダーボードスコア：3.66 • 手元のElyza-tasks-100スコア：4.17/4.18（gemini-1.5-ﬂash/pro-002評価）スコアは学習元のSFT後モデルとほぼ同じだが、目視で以下のような変化を確認 •
推論能力が向上し、難しめのタスクが解けるようになっている • 出力に日本語以外の言語（英語など）が一部混ざったり、微妙に不自然な日本語が増えた（いわゆるcode switching）

学習 ②CPO-SimPO（1回目）出力例（ Elyza-tasks-100）質問: 82歳の男性が24歳の友人と、ここ数十年で政治がどれだけ変わったかについて話していました。 Q: 誰が政治の変化を批判しているのでしょうか？選択肢 -
82歳の男性 - 24歳の友人 - 情報不足回答: 情報から具体的に誰が批判的な意見を持っているのかは明確にわからない状況です。特に年齢差による立場だけでなく、会話の流れや個別の経験・価値観によって変化を感じたり批評したりする傾向が異なる可能性もあります。具体的な発言があれば別ですが、この質問の選択肢には「情報不足」が含まれていると思います。

学習 ③CPO-SimPO（2回目）独自に合成したOn-policyデータで2回目のCPO-SimPOを適用学習後モデルは以下リンクで公開 Aratako/Llama-Gemma-2-27b-CPO_SimPO-iter2 · Hugging Face 前回の学習後モデルの出力を使って On-Policyな合成選好データを作成し利用

学習 ③CPO-SimPO（2回目）選好データの合成の流れ 1. Magpieの手法をteam-hatakeyama-phase2/Tanuki-8x8B-dpo-v1.0-GPTQ-8bitに適用し、約10万件のinstruction を作成 2. cl-nagoya/ruri-largeを使ってinstructionの埋め込み表現を取得 3. 取得した埋め込み表現を元に、
Mini Batch K-Meansによってinstructionをクラスタリング 4. 各クラスタから最大3個までinstructionを抽出 5. 抽出した約2万6500件のinstructionに対し、Qwen/Qwen2.5-72B-Instruct-GPTQ-Int8を使ってEvol-Instructを適用 6. 上記で作成したinstructionデータに対し、前回の学習済みモデルを用いて temperature=1で回答を1件あたり5回生成 7. 5個の回答それぞれに対して、 Qwen/Qwen2.5-72B-Instruct-GPTQ-Int8を用いて0～5点のスコア付けを実施 8. 1つのinstructionに対する5個の回答について、最もスコアが高いものを chosen、低いものをrejectedに配置 9. 上記の流れで合計15664件の選好データを作成し利用

学習 ③CPO-SimPO（2回目）主要な学習パラメータ • learning rate: 3e-7 • lr scheduler:
cosine • epochs: 1 • sequence length: 2048 • beta: 10 • simpo_gamma: 5 • cpo_alpha: 0.05

学習 ③CPO-SimPO（2回目）評価 GPTQ 4bitに量子化して評価 • 予選リーダーボードスコア：3.78 • 手元のElyza-tasks-100スコア：4.19（gemini-1.5-ﬂash評価）スコアの向上だけでなく、日本語出力の安定化を確認

学習 ④ORPO 新たに合成したOn-policyデータでORPOを適用学習後モデルは以下リンクで公開 Aratako/Llama-Gemma-2-27b-ORPO-iter3 · Hugging Face

学習 ④ORPO 選好データの合成の流れ 1. 2回目のCPO_SimPOの学習時に利用した合成 instructionデータ Aratako/Magpie-Tanuki-Instruction-Selected-Evolved-26.5kに対し、Qwen/Qwen2.5-72B-Instruct-GPTQ-Int8を使ってinstructionのカテゴリをラベル付け 2. 同じカテゴリに分類された
3つのinstructionをseed taskとしてQwen/Qwen2.5-72B-Instruct-GPTQ-Int8に与え、Self-Instructの手法で7個のinstructionを生成 3. 上記の流れで合計約6万件のinstructionデータを作成 4. 上記の流れで作成したinstructionデータに対し、前回の学習済みモデルを用いて temperature=1で回答を 1件あたり5回生成 5. 5個の回答それぞれに対して、 Qwen/Qwen2.5-72B-Instruct-GPTQ-Int8を用いて0～5点のスコア付けを実施 6. 1つのinstructionに対する5個の回答について、最もスコアが高いものを chosen、低いものをrejectedに配置 7. 上記の流れで合計25166件の選好データを作成し利用

学習 ④ORPO なぜ急にORPOに手法を変更した？ →3回目のCPO-SimPOをしたモデルの出力に繰り返しが頻繁に発生してしまった質問: 次の文章を読んで、その人がどの程度怒っているか、 1〜10の尺度で評価してください。 (1＝怒っていない、 10＝非常に怒っている )。
1. またテストで赤点か。君は全く ... 2. テストで赤点？今回は難しかったね。回答: 1. またテストで赤点か。君は全く… - この文は6〜7程度。直接的な怒りの表現「全く」が使われ、具体的な不満や失望が強調されており、強い苛立ちや怒りが感じられますが、怒りが極端な暴力的な表現にまでは至っていないため、10の最高レベルには少し届かないと解釈できます。\n\n2. テストで赤点？今回は難しかったね。 - この二番目の文章は1〜2程度。失望や同情と混ざった反応であり、具体的な怒りよりも心配や困惑が含まれており、怒りとしては弱いです。どちらかというと、状況に対する理解と少しの懸念の表現が主です。しかし文脈によっては怒りのニュアンスを示唆する可能性もゼロではないものの、明示的にはほとんどありません。ただし、単に感情の強さで言えば非常に低く評価する方の解釈が適切で、質問文の評価としては、怒りはほとんどないと判断しやすく、ここでは1〜2程度が妥当ですが、厳密に「怒り」の評価だけを考慮すると、この評価はより怒りを示す言葉がないため、具体的怒りとしては下限付近と評価しています。より正確には、怒りに関する評価としてより明確な基準で言えば、この文脈では1に近いとしていますが、初回の回答で明確に「怒り」の度合いを問う場合の直接的なアナライズ結果として、その評価よりも具体的な怒りの言葉として受け取るよりは、1〜2の範囲で怒りを含む表現下の感情を示唆しているというより、前提として提示された怒りの尺度の適用において実際の怒りの表現が弱いという観点から、ここでは具体的な怒りのスケール感を強調するために6〜7との最初の評価に比べて補足的に説明を加えますが、直接の怒りの評価として提示された文からは、再確認すると怒りの度合いを測るには2の方が適切とは言えど、回答の文脈と一致させるために、具体的な評価として怒りの度合いに集中するとこの回答では二番目に対しては一つの誤解を避けるために1〜2と補足しながらも、あなたの問いかけに対する明確さを追求する観点からは誤りとなる部分を強調せず、私の説明の範囲で既に提供したように、初回の評価に加えて、再度具体的な怒りの表現としてよりも感情のトーンについてもう一度見直すと、あなたの具体的な要求（怒りの評価）に対しては厳密に適用しますが、この二番目の文についての怒りの強い評価を再評価せずとも、回答の意図に寄り添うと怒りとしては最小限としつつ、あなたの質問の回答としては他の文と比較した分類においても補足を記載したものの、最も適切な怒りの評価を下限寄りとする部分は明確ですが、ここでは特定「怒りの言葉の不在」からして評価の再考が発生しつつも、具体的な答えとしてあなたの尋ねた尺度での数値化に寄るため、初回の具体的な怒り評価として与えつつも、あなたが特に求めている怒りの強度として第一文との対比で提示するよりも、二番目の文の具体的なあなたの評価要求に対する回答の補足として位置づけつつも、ここではあなたが示された尺度で厳密に怒りを評価する観点から、最初の実質的な答えを支持しつつも、補足として怒りの具体性に言及せずに見過ごすべきではないと補足したくなるような複雑さを避けるため、最終的な二番目の文に対して怒り度を再度明確にしつつも、以下のような評価は依然として初回の説明における怒りの度合いの基準に従いながらも、あなたの質問に対する正確な理解のために、怒り評価の意味合いでの補足を避けたい意図もあったが、本質的にはこの評価においてはすでに近い値域での評価として説明しましたが、再評価を避けつつ補足すると完全に無視することはせずに、あなたの要求に応じて具体的なスケールでの数値として再度強調はせず、初回答の注釈を加える範囲で、怒りの具体的指標に沿った明確な怒りとしては文章自体の示唆から見ると、初回同様、最後にはこの質問に対する回答として二番目の文を怒りの低さという観点からより明確に示唆した意味を強調するために細かく述べつつも、解答の根拠となる怒りの評価を再度確認する際には...

学習 ④ORPO 主要な学習パラメータ • learning rate: 8e-7 • lr scheduler:
cosine • epochs: 1 • sequence length: 2560 • beta: 0.1 評価 ExLlamaV2で5.8bpwに量子化して評価 • 予選リーダーボードスコア：3.83 • 手元のElyza-tasks-100スコア：4.6/4.52（gemini-1.5-ﬂash/pro-002評価）

学習最終提出モデルの選定 ③と④の学習後の2モデルを以下のように比較し、最終提出モデルを④に決定 1. gpt-4o-2024-08-06によるpairwise judge ◦ 位置バイアスの影響を考慮し、前後の位置を入れ替えて 200件評価 2.
目視確認での人手評価による pairwise judge

量子化・推論 ExLlamaV2によるEXL2形式への量子化・推論を選択理由は以下の通り • EXL2ではユーザーが任意の量子化ビット数（bpw）を指定して量子化出来る。これにより性能劣化を出来るだけ抑えることが出来る • 推論がllama.cpp等の他推論ライブラリより早い（といわれている） 5.8bpwに量子化し、Q8 KV
Cacheを利用してVRAM利用量を削減し推論

もう少し取り組みたかったこと • 学習に利用するデータセット・パラメータ等の試行錯誤 ◦ 決め打ったものによる一発での学習だったのでもう少し試行錯誤したかった • 学習手法の試行錯誤と結果の比較 ◦ 今回はCPO-SimPOとORPOを採用したが特に比較して選択したわけではないので、試行錯誤の上で有効なものを選択したかった
• 推論側での工夫 ◦ 推論側の工夫を取り入れられていないので、シンプルな few-shot promptingのようなものからより高度な推論スケーリングなど様々な手法を試したかった

まとめざっくりとした解法まとめ • ベースモデル: Gemma-2 27b • 学習: 以下のような4段階での学習 ◦
SFT: オープンデータ中心、日英混合約50万件 ◦ CPO-SimPO（1回目）: Off-Policyデータ中心、日英混合約16万件 ◦ CPO-SimPO（2回目）: On-Policyデータ、日本語約1万5千件 ◦ ORPO: On-Policyデータ、日本語約2万5千件 • 量子化: ExLlamaV2による5.8bpwへの量子化 • 推論: Q8 KV Cacheを使ってVRAM消費量を削減し推論

謝辞関係者の皆様の協力のもと、今回のLLM講座および最終コンペに取り組むことが出来ました。 • 松尾・岩澤研究室の皆様 • 各回の講義を担当していただいた講師の皆様 • 講義やコンペの運営に携わっていた皆様 •
様々な知見等を共有いただいたコミュニティの皆様 • 様々なオープンデータを開発・公開していただいた皆様 • llm-jpおよびGemmaモデルの開発者の皆様 • その他の講座関係者の皆様 • 一部計算資源を個人的に貸与いただいたSpiral.AI株式会社様この場を借りて感謝申し上げます。ありがとうございました。

松尾研LLM講座2024 最終コンペ解法

松尾研LLM講座2024 最終コンペ解法

Aratako

More Decks by Aratako

Featured

Transcript