関東Kaggler会LT: 人狼コンペとLLM量子化について

1 人狼コンペとLLM量子化について Yuya Yamamoto

2 山本祐也 (Yuya YAMAMOTO) • AI Solution Engineer -
Customer Success@W&B - 前職はDataRobotで製造業担当 • Kaggle Competitions Grandmaster ◦ ID: nejumi

3 Agenda 1. 人狼コンペの概要 2. モデルの量子化で発生した問題 3. LLM量子化のおさらい 4. 問題の解析
5. 対応策 6. 結果とまとめ

関西の某Kaggleコミュニティ向けに人狼コンペを開催 • LLM同士の人狼ゲームログから「誰が人狼か」と「どちらの陣営が勝つか」を予測するコンペ • コンペ自体の詳細は Ryushiさんの以下のSpeaker Deckを参照のこと

コンペデータ生成のためのシミュレータを実装 • コンペ用のデータを用意するために、簡単なシミュレータを実装した • YAMLでキャラ設定やゲーム構成、モデル情報を指定して実行すると、商用API,
Local LLM含め様々なモデルがゲームをプレイしてログがJSONL で出力される

自宅環境で実行するために GPTQによる量子化を行う • 自宅マシンのVRAMは限られるため、量子化モデルが必要だが、かつて何でも量子化してくれていたTheBloke氏は 2024/2以降姿を消してしまった・・・ •
自分でやるしかない

Llama 3系の70Bモデルに対する GPTQの影響 • オーバーオールのベンチスコア平均点はさほど低下しないが MT-Bench のReasoningの項目で顕著な低下が認められた。 •
人狼ゲームでは論理的推論能力こそが大事なので、これは困る。

Llama 3系の70Bモデルに対する GPTQの影響あなたが人々と一緒にレースをしていると想像してみてください。あなたがちょうど 2番目の人を追い越したとしたら、あなたの現在の位置は何番目でしょうか？あなたが追い越した人の位置はどこでしょうか？楽しい質問ですね！順を追って考えてみましょう :
1. **あなたがちょうど2番目の人を追い越した ** ということは、レースの中で 2番目の人をあなたが追い越したということです。 2. **あなたの現在の位置は何番目でしょうか？ ** - あなたは2番目の人を追い越したので、自動的にあなたは 2番目の位置に移動します。つまり、**あなたの現在の位置は 2番目**です。 3. **あなたが追い越した人の位置はどこでしょうか？ ** - あなたが2番目の人を追い越したので、その人はいったん 2番目だった位置をあなたに譲りました。つまり、その人はあなたの後ろに移動し、 **あなたが追い越した人の現在の位置は3番目**です。まとめると: - **あなたの現在の位置 :** 2番目 - **あなたが追い越した人の現在の位置 :** 3番目楽しい質問です！😊 ここで、状況を分析してみましょう : 1. **あなたがちょうど2番目の人を追い越した ** ということは、以下の 2点を意味します: * あなたは、2番目の人より後ろにいた（最初は）。 * あなたは、2番目の人を追い越したので、現在は 2番目の人より前にいる。 2. **あなたの現在の位置は何番目 ?** * 2番目の人を追い越したので、現在は 2番目の人より前にいることを意味します。 * したがって、あなたの現在の位置は **1番目** です。 3. **あなたが追い越した人の位置はどこ ?** * あなたが2番目の人を追い越したので、 2番目の人は現在、あなたの後ろにいることを意味します。 * したがって、あなたが追い越した人の現在の位置は **2番目** です。 **答え:** * **あなたの現在の位置 :** **1番目** * **あなたが追い越した人の現在の位置 :** **2番目** 󰝋👏 Score: 10 Score: 2 量子化モデル元モデル

ここでLLMの量子の概略をおさらい Quantization Dequantization • 例えばint8への量子化であれば、半精度浮動小数点数 (fp16/bf16) の重みをint8 (0-255) に
割り付ける • zero-point (sym=Trueの場合は128固定) と scale factorをメモっておいて、量子化 /逆量子化を行う出典: A Visual Guide to Quantization

ナイーブな量子化の問題点と各手法のアプローチ出典: LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale
• 実際には単純にastype(“int8”) 的な変換をするとモデルが破綻する • これは、Activation空間における外れ値の影響が支配的となるため ◦ LLM.int8()ではActivationが大きい（ないしヒューリスティックに基づいてそのように予測される）特徴を 16-bitのまま保護 ◦ GPTQは逆ヘッセ行列の対角成分を用いた重みの重み付き誤差を最小化することで、間接的にActivation誤差を線形代数的に抑制 ◦ AWQではActivationの大きさに応じて重みをスケール

量子化誤差の発生状況 wandbを用いて誤差の発生箇所を調べたところ、ごく一部の層で発生していることがわかった。誤差が非常に大きい : model.layers.33.self_attn.gate_proj model.layers.33.self_attn.up_proj 誤差がやや大きい: model.layers.9.self_attn.gate_proj
model.layers.9.self_attn.up_proj

量子化誤差の発生状況（補足） • こちらは、各層において以下をカラム平均で保存しておいて、ヒートマップにしたもの ◦ 重みの重み付き誤差 ◦ 入力Activation ◦ 量子化前の重み •
model.layer.33.gate_proj , up_projに誤差のスパイクを示す輝点が確認できる。 ◦ ちなみに輝点の数は 127個 (= group_size - 1) だった。

問題のある層とない層の重みの分布の比較誤差がスパイクしている層問題ない層 (例: layer.32)

問題のある層とない層の重みの分布の比較誤差がスパイクしている層問題ない層 (例: layer.32) スパイクしている層にはありえん外れ値が含まれる → 同一group内の重みは量子化のbinningが外れ値に引
きずられて適切に割り当てられないのではないか？

LoRAの応用で極端な重みの外れ値に対応 +11.8 -11.6 -8.2 -5.4 ＋重みの外れ値を差分行列として分離し、SVDにかけてPEFT互換のLoRAアダプターとして保存する
＋重みの外れ値量子化

LoRAの応用で極端な重みの外れ値に対応アダプターなしアダプターありアダプターなしアダプターあり

LoRAの応用で極端な重みの外れ値に対応 Blue: 量子化前の元モデル Orange: 通常のGPTQ (8bit) Green: GPTQ + Outlier
LoRA (8bit) • ベンチマーク結果が改善し、論理的推論能力も元モデルと略同等レベルになっていることが確認できた。 • この方法は生成される量子化モデル自体は通常のGPTQによるものと完全な互換性があり、推論時にはカスタムなしのAutoGPTQで大丈夫。 • LoRAアダプターもPEFTとフォーマットを合わせている • 例えばvLLMはGPTQとLoRA両方サポートしているので、そのまま使える。 * ちなみにclipだけでもこの場合は一定改善するが、まだ性能低下が残る。また、場合によってはそれが重要箇所だとモデル性能の大幅低下を招くリスクもあると考える。

コミュニティコンペも無事終了 • 人狼予測は比較的予測性が高かった一方で、勝利陣営予測が非常に難しく、データ数も限られたために結構シェイクしてしまった。 • シェイクさせないこと自体が問題作成時の目的ではないのだが、評価指標は調整の余地があったかもしれない
と反省している。

GPTQはじめました

まとめ • 人狼シミュレータを実装してコンペ用データを生成するために、LLMの量子化を行ったところ、論理的推論能力に特異的な低下が認められた。 • 誤差の解析を行ったところ、一部の層の重みに著しい外れ値が発生していることがわかった。 ◦ 同一group内の重みが巻き添えになって適切なbinningが割り当てられなくなったと想定した。
• 外れ値を差分行列として分離し、SVDにかけてLoRAアダプターとして保存することで解決した。 • コンペは結構シェイクさせてしまった。

21 Thank you!

関東Kaggler会LT: 人狼コンペとLLM量子化について

関東Kaggler会LT: 人狼コンペとLLM量子化について

YuyaYAMAMOTO

More Decks by YuyaYAMAMOTO

Other Decks in Technology

Featured

Transcript

1 人狼コンペとLLM量子化について Yuya Yamamoto

2 山本祐也 (Yuya YAMAMOTO) • AI Solution Engineer -

3 Agenda 1. 人狼コンペの概要 2. モデルの量子化で発生した問題 3. LLM量子化のおさらい 4. 問題の解析

関西の某Kaggleコミュニティ向けに人狼コンペを開催 • LLM同士の人狼ゲームログから「誰が人狼か」と「どちらの陣営が勝つか」を予測するコンペ • コンペ自体の詳細は Ryushiさんの以下のSpeaker Deckを参照のこと

コンペデータ生成のためのシミュレータを実装 • コンペ用のデータを用意するために、簡単なシミュレータを実装した • YAMLでキャラ設定やゲーム構成、モデル情報を指定して実行すると、商用API,

自宅環境で実行するために GPTQによる量子化を行う • 自宅マシンのVRAMは限られるため、量子化モデルが必要だが、かつて何でも量子化してくれていたTheBloke氏は 2024/2以降姿を消してしまった・・・ •

Llama 3系の70Bモデルに対する GPTQの影響 • オーバーオールのベンチスコア平均点はさほど低下しないが MT-Bench のReasoningの項目で顕著な低下が認められた。 •

ここでLLMの量子の概略をおさらい Quantization Dequantization • 例えばint8への量子化であれば、半精度浮動小数点数 (fp16/bf16) の重みをint8 (0-255) に

ナイーブな量子化の問題点と各手法のアプローチ出典: LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale

量子化誤差の発生状況（補足） • こちらは、各層において以下をカラム平均で保存しておいて、ヒートマップにしたもの ◦ 重みの重み付き誤差 ◦ 入力Activation ◦ 量子化前の重み •

問題のある層とない層の重みの分布の比較誤差がスパイクしている層問題ない層 (例: layer.32)

問題のある層とない層の重みの分布の比較誤差がスパイクしている層問題ない層 (例: layer.32) スパイクしている層にはありえん外れ値が含まれる → 同一group内の重みは量子化のbinningが外れ値に引

LoRAの応用で極端な重みの外れ値に対応 +11.8 -11.6 -8.2 -5.4 ＋重みの外れ値を差分行列として分離し、SVDにかけてPEFT互換のLoRAアダプターとして保存する

LoRAの応用で極端な重みの外れ値に対応アダプターなしアダプターありアダプターなしアダプターあり

LoRAの応用で極端な重みの外れ値に対応 Blue: 量子化前の元モデル Orange: 通常のGPTQ (8bit) Green: GPTQ + Outlier

GPTQはじめました

21 Thank you!