性能的にはほとんど変わらない(or ClassificationHeadのほうがいい)との投稿
• 振り返り(Late Sub)で比較実験
◦ サンプル数が少ない(16K)とLM Headで解いたほうが明らかに性能が良かった
◦ コンペデータを全部使う(30K以上)と大体同じ性能くらいになった
• この他にもLoRA、QLoRA、vllmを使った推論効率化など参考になるnotebook、ディスカッションが多いの でLLMのfinetuning周りが気になる方は覗いてみるのがオススメです
[1]:[Training] Llama3-8b 4-bit QLoRA SFT
[2]:Prediction Using Generation Header
LMSYSで試して実感があった解法をそのまま使う