Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Training Neural Networks with Local Error Signals ver20190808

Shuntaro Ohno
August 04, 2019

Training Neural Networks with Local Error Signals ver20190808

Presentation for ICML2019 reading pitch @ Kyoto 4th August 2019. Shuntaro Ohno introduced "Training Neural Networks with Local Error Signals" in Japanese.

Shuntaro Ohno

August 04, 2019
Tweet

More Decks by Shuntaro Ohno

Other Decks in Science

Transcript

  1. Backprop Free Learning と Biologically Plausible Neural Network 紹介論文 “Training

    Neural Networks with Local Error Signals” Arild Nøkland, Lars H. Eidnes
  2. 論文の新規性 ✓ Neural Network を、2種類の Local Loss Functions のみで学習し、 高い精度を達成

    ✓ 学習には Global な Back Propagation が 必要不可欠ではないことを示す ✓ Biologically plausible な Neural Network を実現
  3. あまり Neural ではない Network ・・・ ・・・ X Y 全ての神経細胞と結合 出所不明のY

    (正解ラベル) 非スモールワールド性 Back-Propagationの使用
  4. Backprop の6つの問題 1. Backprop は純線形だが、 神経細胞は線形と非線形のくり返し 2. 逆行路は、対応する順行路の 神経活動とその微分を保持する必要がある 3.

    同様に、対応する重みも保持する必要がある 4. 神経活動は 0 or 1 であり、連続値を持てない 5. forward と backward の切り替えが必要 6. Output targets (Y) の情報源が明らかではない [Bengio et al. 2015] [Bengio et al. 2015] Bengio Y, Lee D, Bornschein J, Mesnard T, and Lin Z. Towards biologically plausible deep learning. CoRR, abs/1407.7906, 2014. URL http://arxiv.org/abs/1812.11446.
  5. Bio-plausible な NN の意義(実用面) 1. 並列計算が可能 ➢ Backprop では、 forward/backward

    pass が完了するまで 隠れ層の重みを更新できない 2. 隠れ層の activation を記録していた メモリを解放できる
  6. 逆行路は、順行路と同じ重みを保持する必要はない 「3. 同様に、対応する重みも保持する必要がある」 [Lillicrap et al. 2016] Lillicrap TP, Cownden

    D, Tweed DB, and Akerman CJ. Random synaptic feedback weights support error backpropagation for deep learning. Nature Communications, 7:13276, 2016. [Lillicrap et al. 2016 Fig. 1]
  7. 微小回路により、forward/backward を並列実行できる 「5. forward と backward の切り替えが必要」 [Sacramento et al.

    2018] Sacramento J, Costa RP, Bengio Y, and Senn W. Dendritic cortical microcircuits approximate the backpropagation algorithm. CoRR, abs/1810.11393, 2018. URL http://dblp.uni-trier.de/db/journals/corr/corr1810.html #abs-1810-11393. [Sacramento et al. 2018 Fig. 1A]
  8. “想定外” に反応するドパミン作動性ニューロン 「6. Output targets (Y) の情報源が明らかではない」 [Gadagkar et al.

    2016] Gadagkar V, Puzerey PA, Chen R, Baird-Daniel E, Farhang AR, and Goldberg JH. Science, 354:1278- 1282, 2016. [Gadagkar et al. 2016 Fig. 1E&G, Fig. 2B]
  9. 論文の新規性(再掲) ✓ Neural Network を、2種類の Local Loss Functions のみで学習し、 高い精度を達成

    ✓ 学習には Global な Back Propagation が 必要不可欠ではないことを示す ✓ Biologically plausible な Neural Network を実現
  10. Similarity Matching Loss (sim) 「同じクラスに分類されるデータ同士に対しては、 隠れ層は同様の活動をする」 H ※NeuralNet(X) : Conv

    による変換 H = (h 1 , h 2 , ..., h n ) : 隠れ層のactivation (batch) Y = (y 1 , y 2 , ..., y n ) : クラス label (batch, one-hot) S(X) : similarity matrix
  11. “sim” は unsupervised learning 由来 CTC = I PCA (principal

    component analysis) NMF (non-negative matrix factorization) H, C, G ≧ 0 Symmetric NMF S(X) = XTX and G ≧ 0 MDS (multidimensional scaling) S(X): Euclidian distance sim の最小化
  12. Cross Entropy Loss (pred) 「隠れ層ごとに予測クラスを求める」 H ※W : Linear の重み

    H = (h 1 , h 2 , ..., h n ) : 隠れ層のactivation (batch) Y = (y 1 , y 2 , ..., y n ) : クラス label (batch, one-hot)
  13. !!

  14. Is it “completely” plausible? Y = (y 1 , y

    2 , ..., y n ) 全ての隠れ層で 同一の Y が使える 必要がある
  15. Is it “completely” plausible? sub-network の区間内では backprop が残る Conv のθと

    Linear の W (パラメータ)が trainable なぜならば
  16. さらに plausible に( Y についての制約) Y = (y 1 ,

    y 2 , ..., y n ) f k+1 (Y) f k (Y) f k-1 (Y) 全ての隠れ層で 同一の Y が必要となる 制約を解除 Y を隠れ層ごとに ランダムに変換
  17. さらに plausible に(pred) H pred-bpf と呼称 B (固定) [Lillicrap et

    al. 2016] Lillicrap TP, Cownden D, Tweed DB, and Akerman CJ. Random synaptic feedback weights support error backpropagation for deep learning. Nature Communications, 7:13276, 2016. [Lillicrap et al. 2016 Fig. 1b&c] Feedback alignment に置換
  18. Feedback alignment さらに plausible に(predsim) predsim-bpf と呼称 Y = (y

    1 , y 2 , ..., y n ) f k+1 (Y) f k (Y) H f k-1 (Y) 初期値 0.01
  19. CIFAR-10 (精度) 50,000 training images (32x32), class: 10 ※ backprop-free

    の従来法では 16.9% (12.6%) ([Moskovitz et al. 2018]) 3The test error was 5.60% in epoch 399. CO: cutout (hole size = 16) WRN: WideResNet-40-10 → baseline [Moskovitz et al. 2018] Moskovitz TH, Litwin-Kumar A, and Abbott L. Feedback alignment in deep convolutional networks. CoRR, 12 2018.
  20. CIFAR-10 (精度) 50,000 training images (32x32), class: 10 ※ backprop-free

    の従来法では 16.9% (12.6%) ([Moskovitz et al. 2018]) 3The test error was 5.60% in epoch 399. CO: cutout (hole size = 16) WRN: WideResNet-40-10 → baseline [Moskovitz et al. 2018] Moskovitz TH, Litwin-Kumar A, and Abbott L. Feedback alignment in deep convolutional networks. CoRR, 12 2018. Backprop-free の精度は大幅更新 Baseline に迫る精度
  21. MNIST Hand-written digits CO: cutout (hole size = 14) Ladder:

    Ladder network → baseline for fc CapsNet: CapsNet→ baseline for conv
  22. Fashion-MNIST clothing CO: cutout (hole size = 14) WRN: WideResNet-28-10

    → baseline RE: random erasing data augmentation
  23. Kuzushiji-MNIST Hand-drawn Japanese characters CO: cutout (hole size = 14)

    PARN: PreActResNet-18 → baseline MM: manifold mixup regularization
  24. CIFAR-100 50,000 training images (32x32), class: 100 Note that the

    CIFAR100 runs are less comparable to each other, because the sim and predsim runs had batches sampled to have only 20 classes per batch during training, which we found to cause a higher training error, but lower test error. WRN: WideResNet-40-10 → baseline
  25. SVHN 73,257 + 531,131 training images (32x32) CO: cutout (hole

    size = 16) WRN: WideResNet-16-8 → baseline
  26. STL-10 5,000 labeled images (96x96), class: 10 CO: cutout (hole

    size = 48) WRN: WideResNet-16-8 → baseline 最初の Conv を 7x7, stride = 2 に変更
  27. Local Loss Functions について ✓ sim と pred を組み合わせて、高い精度を実現 ✓

    従来の正則化手法も適用できる ➢ dropout ➢ batch normalization ➢ cutout ✓ 必要メモリ容量削減・並列処理が可能 ➢ 重みは forward 計算と同時に更新 ➢ 複数のGPUで、異なる batch を用いて学習できる
  28. Biological Plausibility について ✓ backprop-free の精度が大きく向上 ✓ 学習には global な

    backprop が 必要不可欠ではない ➢ bpf でなくとも、backprop は1回で十分 ✓ 未だ implausible な点と、今後の課題 ➢ 各 Conv 層における重みの共有と符号の逆転 ➢ batch normalization → offline 学習のみを想定 ➢ 神経細胞の信号は spike であることを考慮していない
  29. Although we did not get airplanes from imitating birds but

    from understanding the principles of aerodynamics, researching birds advances aerodynamics.
  30. 参考文献 1. Nøkland A and Eidnes LH. Training neural networks

    with local error signals. arXiv, 1901.06656. 2. Bengio Y, Lee D, Bornschein J, Mesnard T, and Lin Z. Towards biologically plausible deep learning. CoRR, abs/1407.7906, 2014. URL http://arxiv.org/abs/1812.11446. 3. Lillicrap TP, Cownden D, Tweed DB, and Akerman CJ. Random synaptic feedback weights support error backpropagation for deep learning. Nature Communications, 7:13276, 2016. 4. Sacramento J, Costa RP, Bengio Y, and Senn W. Dendritic cortical microcircuits approximate the backpropagation algorithm. CoRR, abs/1810.11393, 2018. URL http://dblp.uni- trier.de/db/journals/corr/corr1810.html #abs-1810-11393. 5. Gadagkar V, Puzerey PA, Chen R, Baird-Daniel E, Farhang AR, and Goldberg JH. Science, 354:1278-1282, 2016. 6. Moskovitz TH, Litwin-Kumar A, and Abbott L. Feedback alignment in deep convolutional networks. CoRR, 12 2018.