• validation accuracyがreward signalとしてRNNのtrainingに使われる • それぞれのdatasetに対して,controllerは約15,000のpolicyをサンプルする • RNNはone-layer LSTM with 100 hidden units at each layer • 2 x 5B softmax prediction for the two convolutional cells (B is typically 5) • 10B predictionのそれぞれはprobabilityに対応する • child networkのjoint probabilityは10B softmaxにおける全ての確率のproductになる • joint probabilityはcontroller RNNの更新のためのgradientの計算に⽤いる • PPO, lr=0.00035, entropy penalty with a weight of 0.00001 • baseline function : exponential moving average of precvious rewards with a weight of 0.95 • weightは-0.1 ~ 0.1の間で初期化 • 最後に5 policy (つまり25 sub-policy)をpickして,これをそれぞれのdatasetに対するモデルのtrainに使う 19