Slide 10
Slide 10 text
AI 10
▪大規模モデルや複数モデルの知識(e.g. 出力)
を利用して小規模なモデルを学習[1]
▪学習データのみで学習するより高精度
▪最近の手法[2]だとResNet50で
ImageNet top-1 77.2→82.8
蒸留 (Distillation)
… …
学習画像
学習済みモデル
(教師モデル)
学習するモデル
(⽣徒モデル)
…
正解ラベル
(ハード
ターゲッ
ト)
…
ソフトターゲット
ソフト
ターゲット
ハード
ターゲット
[1] G. Hinton, et al., "Distilling the Knowledge in a Neural Network," in Proc. of NIPS Workshop, 2014.
[2] L. Beyer, "Knowledge distillation: A good teacher is patient and consistent," in Proc. of CVPR'22.