LLM同士がプレイした人狼ゲームのログから、人狼3名の名前と勝利陣営予測を行った。
商用APIだけでなく、ローカルLLMも交えて多様性のあるデータセットの作成を試みた。
VRAMに収まるようにGPTQで量子化したところ、ベンチスコアは大して下がらないのにエージェントの推論能力に低下を認めた。
ごく一部の層の重み空間の外れ値起因であることを特定し、量子化を工夫することで、推論能力の低下を抑制した。具体的には外れ値を差分行列として分離・行列分解することで、LoRAアダプターとして保存、推論時に注入するように実装を行なった。
これにより、量子化誤差と推論能力の低下を抑制することに成功した。