量子化 × ファインチューニングはどの組み合わせから試すべき？

量子化 × ファインチューニングはどの組み合わせから試すべき？ sinchir0 / 齋藤慎一朗

- Kaggle - Kaggle 2x Master (Competitions, Notebooks) - 業務
- Sansan株式会社技術本部研究開発部 - ファインチューニングしたLLMを用いたプロダクトの改善 - 趣味 - マラソン(サブ 5.5） - Kagglerランニングクラブ所属自己紹介齋藤慎一朗

所属企業の統合報告書に載せてもらいました https://ir.corp-sansan.com/ja/ir/library/report.html

今日説明すること - 量子化とは何か - 浮動小数点数型で持つモデルの重みや活性を、よりメモリ消費量が少ない整数型に変換すること。 - 量子化にはどのような手法があるか - QLoRA、GPTQ、AWQ、SignRound -
Kaggle MAPコンペのデータにおける、量子化 × ファインチューニングの手法の性能比較 - フルファインチューニング -> 量子化が最もCVスコアが良かった。 - 量子化 × ファインチューニングはどの組み合わせから試すべきか？ - 私の考えとしては、まずはデファクトスタンダードの QLoRAを試すべき。選択肢として、フルファインチューニング -> 量子化という手法があることも覚えておくと良い。

アジェンダ - はじめに - 昔自分が困ったこと - 発表の目的 - 前提知識 -
量子化とは - 量子化誤差 - 較正（calibration） - ファインチューニング - 量子化 × ファインチューニングには、どのような組み合わせがあるのか？ - QLoRAファインチューニング vs ファインチューニング -> 量子化はどちらの性能が高い？ - まとめ - 最後に

はじめに - KaggleのLLMコンペは、よりパラメーターの大きいモデルのほうがよいスコアを出せる可能性が高い。 - パラメーターの大きいモデルは、メモリ消費量が大きい。 - Kaggle環境のメモリには制約がある。 - よって、パラメーターの大きいモデルをKaggle環境に載せるためには、省メモリ化
が必要である。 - 省メモリ化の手法の一つが量子化である。量子化は、モデルの重みや活性の数値表現を粗くする。

- Kaggle環境の一つであるT4x2において、Qwen/Qwen3-32Bの推論は OutOfMemoryになってしまい実行できない。 - 一方、Qwen/Qwen3-32Bを量子化すると推論可能である。量子化が活躍する例

- 自分が初めて量子化とファインチューニングをしようと思ったとき、どのような方針で進めれば良いか分からなかった。 - そもそも量子化って何？ - bitsandbytes? AWQ? - ファインチューニングの前に量子化すべき？後にすべき？
昔自分が困ったこと

発表の目的 - 聴講者がLLMコンペに挑む際に、量子化とファインチューニングの観点で何から試すべきかの方針を立てやすくする。 - 量子化とは何か、どのような手法が存在するか - Kaggle MAPコンペのデータにおける、量子化 ×
ファインチューニングの組み合わせの性能比較の結果

前提知識

- 浮動小数点数型で持つモデルの重みや活性を、よりメモリ消費量が少ない整数型に変換すること。 ※ 文献によって量子化の定義が異なるため、本資料においての定義とする。量子化 1.111 2.222 3.333 4.444
5.555 6.666 7.777 8.888 9.999 1 2 3 4 5 6 7 8 9 小数点切捨てによる量子化の簡単な例

- 浮動小数点数型から整数型にまとめる際に必ず誤差が生じる。この誤差のことを量子化誤差と呼ぶ。量子化すると性能が落ちる主な原因である。量子化誤差

量子化の主流な手法手法実現するためのライブラリ例説明 LLM.int8(), NF4 bitsandbytes LLM.int8()は、活性の外れ値はそのままの値を保持し、通常の値は8bit量子化を行う。 NF4は、bitsandbytesで利用される、量子化に適した
データ型である。 GPTQ GPTQModel, llm-compressor 勾配情報を用いて、重みを局所的に最適化しつつ量子化誤差を最小化する。 AWQ llm-awq, llm-compressor 活性の誤差が目立ちやすい部分のみスケーリングで補正する。 SignRound auto-round 符号に基づく近似誤差を利用して、丸め操作の方向を最適化する量子化アルゴリズム。

- 何らかのデータを入力した際に、元のモデルが出力する数値を計測し、それに基づいて量子化パラメータを決めること。 - 較正のために使うデータを較正データを呼ぶ。較正（calibration）

- フルファインチューニングは、モデルの全ての重みを更新して学習する方法である。性能は高いが、パラメータ数と計算コストは大きい。 - LoRAファインチューニングは、既存の重みを固定し、低ランク行列（LoRA）を追加して学習させることで、パラメータ数と計算コストを削減する。ファインチューニング

量子化 × ファインチューニングには、どのような組み合わせがあるのか？

組み合わせを考える観点 - 順番 - 量子化 → ファインチューニング - ファインチューニング →
量子化 - 量子化手法 - LLM.int8(), NF4（分かりやすさのため、以降これらをまとめて bitsandbytesと呼ぶ。） - GPTQ - AWQ - SignRound - ファインチューニング手法 - フルファインチューニング - LoRAファインチューニング

組み合わせの全候補 No. 順番量子化手法ファインチューニング 1 量子化 → ファインチューニング bitsandbytes
フル 2 LoRA 3 GPTQ フル 4 LoRA 5 AWQ フル 6 LoRA 7 SignRound フル 8 LoRA No. 順番ファインチューニング量子化手法 9 ファインチューニング -> 量子化フル bitsandbytes 10 GPTQ 11 AWQ 12 SignRound 13 LoRA bitsandbytes 14 GPTQ 15 AWQ 16 SignRound

実施する組み合わせ No. 順番量子化手法ファインチューニング実施する？ 1 量子化 → ファインチューニング
bitsandbytes フルしない。簡単に実現できる実装がない。 2 量子化 → ファインチューニング bitsandbytes LoRA する。 3 GPTQ フルしない。簡単に実現できる実装がない。 4 LoRA しない。簡単に実現できる実装がない。 5 AWQ フルしない。簡単に実現できる実装がない。 6 LoRA しない。簡単に実現できる実装がない。 7 SignRound フルしない。簡単に実現できる実装がない。 8 LoRA しない。簡単に実現できる実装がない。 No. 順番ファインチューニング量子化手法実施する？ 9 ファインチューニング -> 量子化フル bitsandbytes しない。bitsandbytes と AWQ/GPTQ の量子化は性質が異なるので対象外とする。 10 ファインチューニング -> 量子化フル GPTQ する。 11 ファインチューニング -> 量子化フル AWQ する。 12 ファインチューニング -> 量子化フル SignRound する。 13 LoRA bitsandbytes しない。No.2と傾向が近く、対象外とする。 14 GPTQ しない。No.10と傾向が近く、対象外とする。 15 AWQ しない。No.11と傾向が近く、対象外とする。 16 SignRound しない。No.12と傾向が近く、対象外とする。

QLoRA 整理し直すと、次のパターンが存在する。 No. 順番量子化手法ファインチューニング 1 量子化 → ファインチューニング
bitsandbytes LoRA 2 ファインチューニング -> 量子化 GPTQ フル 3 ファインチューニング -> 量子化 AWQ フル 4 ファインチューニング -> 量子化 SignRound フル知りたいことデファクトスタンダードの QLoRA(No.1)の性能が良い？もしくは、フルファインチューニングできる環境があるなら、フルファインチューニング -> 量子化(No.2~4)の方が性能が良い？

論文を調べてもピッタリなやつが見つからない... こういう時は実験しよう！ QLoRAファインチューニング vs ファインチューニング -> 量子化はどちらの性能が高い？

QLoRAファインチューニング vs ファインチューニング -> 量子化はどちらの性能が高い？

- 対象のコンペ - MAPコンペ - 数学の問題と生徒の回答のテキストから、誤解があるかどうか、ある場合はどのような誤解かを分類するコンペ。 - 評価指標 -
MAP@3 実験設定

実験設定 - 実験環境 - A100 40GB(会社の環境をお借りしました🙏) - モデル - Qwen/Qwen3-8B(本来はもっと大きなモデルが良いが、時間の関係上小さいモデルで実験した
) - ファインチューニングの設定 - SFTTrainerを利用した。 - Learning Rate: 2e-05 - Epoch: 2 - LoRAを利用する場合、r=8、alpha=64 - 量子化 - コンペデータをランダムに512件選び、較正を行った。 - GPTQ、AWQ、SignRoundでは、モデルの重みを4bit、活性を16bitにする。 - GPTQ、AWQの実装には、llm-compressorを利用した。SingRoundの実装にはauto-roundを利用した。 - 推論 - vllm(バージョン0.8.5.post1)を利用した。 - QLoRAについては、vllm.lora.request.LoRAAdapterを利用した。 - データ - 学習: 33,026件 - 評価: 3,670件

知りたいこと（再掲） No. 順番量子化手法ファインチューニング 1 量子化 → ファインチューニング bitsandbytes
LoRA 2 ファインチューニング -> 量子化 GPTQ フル 3 ファインチューニング -> 量子化 AWQ フル 4 ファインチューニング -> 量子化 SignRound フルデファクトスタンダードの QLoRA(No.1)の性能が良い？もしくは、フルファインチューニングできる環境があるなら、フルファインチューニング -> 量子化(No.2~4)の方が性能が良い？ - 実験する組み合わせ

実験結果今回の実験設定においては、No.2（フルファインチューニング -> GPTQ）のCVスコアが最も高かった。 No. 順番量子化手法ファインチューニング CVスコア↑
1 量子化 → ファインチューニング bitsandbytes LoRA 0.9364 2 ファインチューニング -> 量子化 GPTQ フル 0.9411 3 ファインチューニング -> 量子化 AWQ フル 0.8292 4 ファインチューニング -> 量子化 SignRound フル 0.9393 参考ファインチューニング（量子化なし） - フル 0.9445

推論時間は、推論時間はNo.1（QLoRA）が一番長かったちなみに... No. 順番量子化手法ファインチューニング CVスコア↑ 推論時間↓ 1 量子化
→ ファインチューニング bitsandbytes LoRA 0.9364 46秒 2 ファインチューニング -> 量子化 GPTQ フル 0.9411 36秒 3 ファインチューニング -> 量子化 AWQ フル 0.8292 39秒 4 ファインチューニング -> 量子化 SignRound フル 0.9393 33秒参考ファインチューニング（量子化なし） - フル 0.9445 31秒

- GPTQは較正データに過剰適合する性質がある。また、今回のデータは、学習データ(=較正データ)と評価データの性質が非常に近い。 - よって、今回の実験設定においては、GPTQがうまく機能した可能性がある。考察1 なぜNo.2（GPTQ）の性能が高いか No. 順番量子化手法
ファインチューニング CVスコア↑ 1 量子化 → ファインチューニング bitsandbytes LoRA 0.9364 2 ファインチューニング -> 量子化 GPTQ フル 0.9411 3 ファインチューニング -> 量子化 AWQ フル 0.8292 4 ファインチューニング -> 量子化 SignRound フル 0.9393 参考ファインチューニング（量子化なし） - フル 0.9445

- パラメーター調整不足、与えた較正データ数が不十分だった可能性がある。考察2 なぜNo.3（AWQ）の性能が低いか No. 順番量子化手法ファインチューニング CVスコア↑ 1
量子化 → ファインチューニング bitsandbytes LoRA 0.9364 2 ファインチューニング -> 量子化 GPTQ フル 0.9411 3 ファインチューニング -> 量子化 AWQ フル 0.8292 4 ファインチューニング -> 量子化 SignRound フル 0.9393 参考ファインチューニング（量子化なし） - フル 0.9445

- 推論時間はNo.1（QLoRA）が一番長い。これは、4bit量子化した重みを16bitのLoRAアダプターと合わせるために元に戻す処理(dequantize)に余計な時間がかかることが原因と考える。 - 4btiと16bitが混ざることによる推論速度低下は、量子化とLoRAファインチューニングをより効率的にする手法を提案した論文(L4Q)でも紹介されている。考察3 なぜNo.1（QLoRA）の推論時間が長いか No.
順番量子化手法ファインチューニング CVスコア↑ 推論時間↓ 1 量子化 → ファインチューニング bitsandbytes LoRA 0.9364 46秒 2 ファインチューニング -> 量子化 GPTQ フル 0.9411 36秒 3 ファインチューニング -> 量子化 AWQ フル 0.8292 39秒 4 ファインチューニング -> 量子化 SignRound フル 0.9393 33秒参考ファインチューニング（量子化なし） - フル 0.9445 31秒

- 今回の実験設定においては、フルファインチューニング -> 量子化の手法が性能がよかった。 - ただし、予備実験として行った0.6Bでの結果では、QLoRAファインチューニングの性能が最も高かった。そのため、結果が変わりうる可能性がある。「QLoRAファインチューニング vs
ファインチューニング -> 量子化はどちらの性能が高い？」の私なりの結論私の考えとしては、まずはデファクトスタンダードの QLoRAを試すべき。次に、条件によってはフルファインチューニング -> 量子化の方が有効な場合もあることも覚えておくと良い。

Kaggle MAPコンペ: https://www.kaggle.com/competitions/map-charting-student-math-misunderstandings QLoRA: https://arxiv.org/abs/2305.14314 GPTQModel: https://github.com/ModelCloud/GPTQModel GPTQ: https://arxiv.org/abs/2210.17323 llm-awq:
https://github.com/mit-han-lab/llm-awq AWQ: https://arxiv.org/abs/2306.00978 vllm: https://github.com/vllm-project/vllm auto-round: https://github.com/intel/auto-round SignRound: https://arxiv.org/abs/2309.05516 llm-compressor: https://github.com/vllm-project/llm-compressor L4Q: https://arxiv.org/abs/2402.04902 参考文献

ソースコード No.1: https://github.com/sinchir0/map-charting-student-math-misunderstandings/tree/main/exp/late_exp009_8b_qlora_3ep No.2: https://github.com/sinchir0/map-charting-student-math-misunderstandings/tree/main/exp/late_exp012 No.3: https://github.com/sinchir0/map-charting-student-math-misunderstandings/tree/main/exp/late_exp011 No.4: https://github.com/sinchir0/map-charting-student-math-misunderstandings/tree/main/exp/late_exp013 No.参考:
https://github.com/sinchir0/map-charting-student-math-misunderstandings/tree/main/exp/late_exp010_8b_fullft 参考文献

最後に...

共著「Kaggleではじめる大規模言語モデル入門」を出します。

sinchir0 メイン著者寄稿者レビュワーレビュワー & 推薦文 u++ さん
takaito さん sakami さん chumajin さん deoxy さん esprit さん kami さん RihanPiggy さん RabotniKuma さん Inoichan さん charmq さん Kohei さん iwiwi さん flowlight さん currypurin さん関わっていただいた全ての人に感謝いたします🙏

関わっていただいた全ての人に感謝いたします🙏 - 担当の横山真吾さんら、講談社サイエンティフィク・講談社の皆さま - データセットの利用をご快諾いただいたコンペ主催者の皆さま - 本書の草稿にコメントをいただいた「第 2 回国際人工知能オリンピック」日本代表の皆さま

大規模言語モデルに興味のある方はぜひご一読ください！

ご清聴ありがとうございました！

量子化 × ファインチューニングはどの組み合わせから試すべき？

量子化 × ファインチューニングはどの組み合わせから試すべき？

sin chir0

More Decks by sin chir0

Featured

Transcript

量子化 × ファインチューニングはどの組み合わせから試すべき？ sinchir0 / 齋藤慎一朗

- Kaggle - Kaggle 2x Master (Competitions, Notebooks) - 業務

所属企業の統合報告書に載せてもらいました https://ir.corp-sansan.com/ja/ir/library/report.html

今日説明すること - 量子化とは何か - 浮動小数点数型で持つモデルの重みや活性を、よりメモリ消費量が少ない整数型に変換すること。 - 量子化にはどのような手法があるか - QLoRA、GPTQ、AWQ、SignRound -

アジェンダ - はじめに - 昔自分が困ったこと - 発表の目的 - 前提知識 -

- Kaggle環境の一つであるT4x2において、Qwen/Qwen3-32Bの推論は OutOfMemoryになってしまい実行できない。 - 一方、Qwen/Qwen3-32Bを量子化すると推論可能である。量子化が活躍する例

前提知識

- 浮動小数点数型で持つモデルの重みや活性を、よりメモリ消費量が少ない整数型に変換すること。 ※ 文献によって量子化の定義が異なるため、本資料においての定義とする。量子化 1.111 2.222 3.333 4.444

- 浮動小数点数型から整数型にまとめる際に必ず誤差が生じる。この誤差のことを量子化誤差と呼ぶ。量子化すると性能が落ちる主な原因である。量子化誤差

量子化の主流な手法手法実現するためのライブラリ例説明 LLM.int8(), NF4 bitsandbytes LLM.int8()は、活性の外れ値はそのままの値を保持し、通常の値は8bit量子化を行う。 NF4は、bitsandbytesで利用される、量子化に適した

- 何らかのデータを入力した際に、元のモデルが出力する数値を計測し、それに基づいて量子化パラメータを決めること。 - 較正のために使うデータを較正データを呼ぶ。較正（calibration）

量子化 × ファインチューニングには、どのような組み合わせがあるのか？

組み合わせを考える観点 - 順番 - 量子化 → ファインチューニング - ファインチューニング →

組み合わせの全候補 No. 順番量子化手法ファインチューニング 1 量子化 → ファインチューニング bitsandbytes

実施する組み合わせ No. 順番量子化手法ファインチューニング実施する？ 1 量子化 → ファインチューニング

QLoRA 整理し直すと、次のパターンが存在する。 No. 順番量子化手法ファインチューニング 1 量子化 → ファインチューニング

論文を調べてもピッタリなやつが見つからない... こういう時は実験しよう！ QLoRAファインチューニング vs ファインチューニング -> 量子化はどちらの性能が高い？

QLoRAファインチューニング vs ファインチューニング -> 量子化はどちらの性能が高い？

- 対象のコンペ - MAPコンペ - 数学の問題と生徒の回答のテキストから、誤解があるかどうか、ある場合はどのような誤解かを分類するコンペ。 - 評価指標 -

実験設定 - 実験環境 - A100 40GB(会社の環境をお借りしました🙏) - モデル - Qwen/Qwen3-8B(本来はもっと大きなモデルが良いが、時間の関係上小さいモデルで実験した

知りたいこと（再掲） No. 順番量子化手法ファインチューニング 1 量子化 → ファインチューニング bitsandbytes

実験結果今回の実験設定においては、No.2（フルファインチューニング -> GPTQ）のCVスコアが最も高かった。 No. 順番量子化手法ファインチューニング CVスコア↑

推論時間は、推論時間はNo.1（QLoRA）が一番長かったちなみに... No. 順番量子化手法ファインチューニング CVスコア↑ 推論時間↓ 1 量子化

- パラメーター調整不足、与えた較正データ数が不十分だった可能性がある。考察2 なぜNo.3（AWQ）の性能が低いか No. 順番量子化手法ファインチューニング CVスコア↑ 1

Kaggle MAPコンペ: https://www.kaggle.com/competitions/map-charting-student-math-misunderstandings QLoRA: https://arxiv.org/abs/2305.14314 GPTQModel: https://github.com/ModelCloud/GPTQModel GPTQ: https://arxiv.org/abs/2210.17323 llm-awq:

最後に...

共著「Kaggleではじめる大規模言語モデル入門」を出します。

sinchir0 メイン著者寄稿者レビュワーレビュワー & 推薦文 u++ さん

大規模言語モデルに興味のある方はぜひご一読ください！

ご清聴ありがとうございました！