Slide 129
Slide 129 text
Method
▪ ResNet152x4をILSVRC2012, ImageNet-21k, JFT-300Mでそれぞれ学習
▪ それにより得られるモデルをそれぞれBiT-S, BiT-M, BiT-Lと呼ぶ
▪ BiT-Lの学習では512台のTPUv3を利用
▪ BNの代わりにGN+WSを利用
▪ その後、各種データセットでfine-tune
▪ データセットサイズと画像解像度に基づいてスケジュール、解像度、MixUpの利用有無を決定
▪ 他のハイパラは固定
▪ weight decayは利用しない
129