Training Neural Networks with Local Error Signals ver20190808

Backprop Free Learning と Biologically Plausible Neural Network 紹介論文 “Training
Neural Networks with Local Error Signals” Arild Nøkland, Lars H. Eidnes

論文の新規性 ✓ Neural Network を、2種類の Local Loss Functions のみで学習し、高い精度を達成
✓ 学習には Global な Back Propagation が必要不可欠ではないことを示す ✓ Biologically plausible な Neural Network を実現

Motivation

あまり Neural ではない Network ・・・・・・ X Y 全ての神経細胞と結合出所不明のY
(正解ラベル) 非スモールワールド性 Back-Propagationの使用

Backprop の６つの問題 1. Backprop は純線形だが、神経細胞は線形と非線形のくり返し 2. 逆行路は、対応する順行路の神経活動とその微分を保持する必要がある 3.
同様に、対応する重みも保持する必要がある 4. 神経活動は 0 or 1 であり、連続値を持てない 5. forward と backward の切り替えが必要 6. Output targets (Y) の情報源が明らかではない [Bengio et al. 2015] [Bengio et al. 2015] Bengio Y, Lee D, Bornschein J, Mesnard T, and Lin Z. Towards biologically plausible deep learning. CoRR, abs/1407.7906, 2014. URL http://arxiv.org/abs/1812.11446.

Bio-plausible な NN の意義（機能面） 1.生物の脳：fast / one-shot learning が可能 2.
“創造性” を持つNNの実現

Bio-plausible な NN の意義（実用面） 1. 並列計算が可能 ➢ Backprop では、 forward/backward
pass が完了するまで隠れ層の重みを更新できない 2. 隠れ層の activation を記録していたメモリを解放できる

Previous Work

逆行路は、順行路と同じ重みを保持する必要はない「3. 同様に、対応する重みも保持する必要がある」 [Lillicrap et al. 2016] Lillicrap TP, Cownden
D, Tweed DB, and Akerman CJ. Random synaptic feedback weights support error backpropagation for deep learning. Nature Communications, 7:13276, 2016. [Lillicrap et al. 2016 Fig. 1]

微小回路により、forward/backward を並列実行できる「5. forward と backward の切り替えが必要」 [Sacramento et al.
2018] Sacramento J, Costa RP, Bengio Y, and Senn W. Dendritic cortical microcircuits approximate the backpropagation algorithm. CoRR, abs/1810.11393, 2018. URL http://dblp.uni-trier.de/db/journals/corr/corr1810.html #abs-1810-11393. [Sacramento et al. 2018 Fig. 1A]

“想定外” に反応するドパミン作動性ニューロン「6. Output targets (Y) の情報源が明らかではない」 [Gadagkar et al.
2016] Gadagkar V, Puzerey PA, Chen R, Baird-Daniel E, Farhang AR, and Goldberg JH. Science, 354:1278- 1282, 2016. [Gadagkar et al. 2016 Fig. 1E&G, Fig. 2B]

Method

論文の新規性（再掲） ✓ Neural Network を、2種類の Local Loss Functions のみで学習し、高い精度を達成
✓ 学習には Global な Back Propagation が必要不可欠ではないことを示す ✓ Biologically plausible な Neural Network を実現

Local Error Signals ※BN: Batch Normalization 隠れ層ごとに２つのsub-network Local に計算した誤差で
学習を行う

Similarity Matching Loss (sim) 「同じクラスに分類されるデータ同士に対しては、隠れ層は同様の活動をする」 H ※NeuralNet(X) : Conv
による変換 H = (h 1 , h 2 , ..., h n ) : 隠れ層のactivation (batch) Y = (y 1 , y 2 , ..., y n ) : クラス label (batch, one-hot) S(X) : similarity matrix

“sim” は unsupervised learning 由来 CTC = I PCA (principal
component analysis) NMF (non-negative matrix factorization) H, C, G ≧ 0 Symmetric NMF S(X) = XTX and G ≧ 0 MDS (multidimensional scaling) S(X): Euclidian distance sim の最小化

Cross Entropy Loss (pred) 「隠れ層ごとに予測クラスを求める」 H ※W : Linear の重み
H = (h 1 , h 2 , ..., h n ) : 隠れ層のactivation (batch) Y = (y 1 , y 2 , ..., y n ) : クラス label (batch, one-hot)

Combined Loss (predsim) 「全体の loss は、 pred と sim を合わせたもの」
初期値 0.99

Is it “completely” plausible? Y = (y 1 , y
2 , ..., y n ) 全ての隠れ層で同一の Y が使える必要がある

Is it “completely” plausible? sub-network の区間内では backprop が残る Conv のθと
Linear の W （パラメータ）が trainable なぜならば

さらに plausible に（ Y についての制約） Y = (y 1 ,
y 2 , ..., y n ) f k+1 (Y) f k (Y) f k-1 (Y) 全ての隠れ層で同一の Y が必要となる制約を解除 Y を隠れ層ごとにランダムに変換

さらに plausible に（sim） H Trainable でない、ただの encoder に置換 sim-bpf
と呼称

さらに plausible に（pred） H pred-bpf と呼称 B (固定) [Lillicrap et
al. 2016] Lillicrap TP, Cownden D, Tweed DB, and Akerman CJ. Random synaptic feedback weights support error backpropagation for deep learning. Nature Communications, 7:13276, 2016. [Lillicrap et al. 2016 Fig. 1b&c] Feedback alignment に置換

Feedback alignment さらに plausible に（predsim） predsim-bpf と呼称 Y = (y
1 , y 2 , ..., y n ) f k+1 (Y) f k (Y) H f k-1 (Y) 初期値 0.01

お疲れ様でした。これで準備完了です。

では、実験に移りましょう。

Experiments

使用した Neural Network VGG8B: Conv128-Conv256-Pool-Conv256-Conv512-Pool- Conv512-Pool-Conv512-Pool-Fc1024-Fc VGG11B: Conv128-Conv128-Conv128-Conv256-Pool- Conv256-Conv512-Pool-Conv512-Conv512-Pool- Conv512-Pool-Fc1024-Fc
VGG8/11B(2x/3x): Conv filter 数が２倍/3倍 Conv: 3x3 (stride=1, padding=1) Pool: 2x2 (max-pooling) Fc: fully connected layer batch size = 128

CIFAR-10 (精度) 50,000 training images (32x32), class: 10 ※ backprop-free
の従来法では 16.9% (12.6%) ([Moskovitz et al. 2018]) 3The test error was 5.60% in epoch 399. CO: cutout (hole size = 16) WRN: WideResNet-40-10 → baseline [Moskovitz et al. 2018] Moskovitz TH, Litwin-Kumar A, and Abbott L. Feedback alignment in deep convolutional networks. CoRR, 12 2018.

CIFAR-10 (精度) 50,000 training images (32x32), class: 10 ※ backprop-free
の従来法では 16.9% (12.6%) ([Moskovitz et al. 2018]) 3The test error was 5.60% in epoch 399. CO: cutout (hole size = 16) WRN: WideResNet-40-10 → baseline [Moskovitz et al. 2018] Moskovitz TH, Litwin-Kumar A, and Abbott L. Feedback alignment in deep convolutional networks. CoRR, 12 2018. Backprop-free の精度は大幅更新 Baseline に迫る精度

CIFAR-10 (学習過程) predsim では train-test 間の乖離が小さい Training error は pred
> sim > predsim

MNIST Hand-written digits CO: cutout (hole size = 14) Ladder:
Ladder network → baseline for fc CapsNet: CapsNet→ baseline for conv

Fashion-MNIST clothing CO: cutout (hole size = 14) WRN: WideResNet-28-10
→ baseline RE: random erasing data augmentation

Kuzushiji-MNIST Hand-drawn Japanese characters CO: cutout (hole size = 14)
PARN: PreActResNet-18 → baseline MM: manifold mixup regularization

CIFAR-100 50,000 training images (32x32), class: 100 Note that the
CIFAR100 runs are less comparable to each other, because the sim and predsim runs had batches sampled to have only 20 classes per batch during training, which we found to cause a higher training error, but lower test error. WRN: WideResNet-40-10 → baseline

SVHN 73,257 + 531,131 training images (32x32) CO: cutout (hole
size = 16) WRN: WideResNet-16-8 → baseline

STL-10 5,000 labeled images (96x96), class: 10 CO: cutout (hole
size = 48) WRN: WideResNet-16-8 → baseline 最初の Conv を 7x7, stride = 2 に変更

Discussion & Conclusion

Local Loss Functions について ✓ sim と pred を組み合わせて、高い精度を実現 ✓
従来の正則化手法も適用できる ➢ dropout ➢ batch normalization ➢ cutout ✓ 必要メモリ容量削減・並列処理が可能 ➢ 重みは forward 計算と同時に更新 ➢ 複数のGPUで、異なる batch を用いて学習できる

Optimization と Generalization について ✓ Local Loss Functions は、汎化性能を向上させる
➢ STL-10：大きな画像 (96x96) & 少数例 (5,000 images)

Biological Plausibility について ✓ backprop-free の精度が大きく向上 ✓ 学習には global な
backprop が必要不可欠ではない ➢ bpf でなくとも、backprop は１回で十分 ✓ 未だ implausible な点と、今後の課題 ➢ 各 Conv 層における重みの共有と符号の逆転 ➢ batch normalization → offline 学習のみを想定 ➢ 神経細胞の信号は spike であることを考慮していない

Although we did not get airplanes from imitating birds but
from understanding the principles of aerodynamics, researching birds advances aerodynamics.

参考文献 1. Nøkland A and Eidnes LH. Training neural networks
with local error signals. arXiv, 1901.06656. 2. Bengio Y, Lee D, Bornschein J, Mesnard T, and Lin Z. Towards biologically plausible deep learning. CoRR, abs/1407.7906, 2014. URL http://arxiv.org/abs/1812.11446. 3. Lillicrap TP, Cownden D, Tweed DB, and Akerman CJ. Random synaptic feedback weights support error backpropagation for deep learning. Nature Communications, 7:13276, 2016. 4. Sacramento J, Costa RP, Bengio Y, and Senn W. Dendritic cortical microcircuits approximate the backpropagation algorithm. CoRR, abs/1810.11393, 2018. URL http://dblp.uni- trier.de/db/journals/corr/corr1810.html #abs-1810-11393. 5. Gadagkar V, Puzerey PA, Chen R, Baird-Daniel E, Farhang AR, and Goldberg JH. Science, 354:1278-1282, 2016. 6. Moskovitz TH, Litwin-Kumar A, and Abbott L. Feedback alignment in deep convolutional networks. CoRR, 12 2018.

Training Neural Networks with Local Error Signa...

Training Neural Networks with Local Error Signals ver20190808

More Decks by Shuntaro Ohno

Other Decks in Science

Featured

Transcript