Capsule Network Introduction

Slide 1

Slide 1 text

Capsule Network (Introduction)

Slide 2

Slide 2 text

2 Geoffrey Hinton talk "What is wrong with convolutional neural nets ?”, December, 4, MIT https://www.youtube.com/watch?v=rTawFwUvnLE The pooling operation used in CNN is a big mistake and the fact that it works so well is a disaster. (2014, MIT talk)

Slide 3

Slide 3 text

3 データ(パーツ）をベクトルに変換した認識構造・ベクトルの相対関係は不変 - ⾓度・スカラーの⽐率 Capsule Networkとは？⼊⼒ベクトル変換物体認識⼊⼒特徴量特徴量物体認識 Capsule CNN

Slide 4

Slide 4 text

4 データ(パーツ）をベクトルに変換した認識構造・ベクトルの相対関係は不変 - ⾓度・スカラーの⽐率 Capsule Networkとは？⼊⼒ベクトル変換物体認識⼊⼒特徴量特徴量物体認識 Capsule CNN 特徴量 [5x5(x1)x3] ベクトル特徴量 [5x5x16x3] ベクトル最終出⼒ [1x16x10] スカラ最終出⼒ [1(x1)x10] Capsule net [処理例 : CNNの処理に⾚枠操作が追加] "

Slide 5

Slide 5 text

Capsule Networkの⽬的 5 以下の3つのCNNの問題点を解決するために提案 1. 周囲の情報・相対位置を意識しずらい 2. 汎化のために⼤量データが必要 3. ⼈間の視覚が可能な〇〇が実現できていない⼈間 CNN 認識精度⼈間の認識構造との類似度 Capsule Capsule Networkの現状 - ⼈間の認識構造との類似度 : ○ - 認識精度 : △ CNNの現状 - ⼈間の認識構造との類似度 : △ - 認識精度 : ◎

Slide 6

Slide 6 text

6 = % 0.96 ∶ 顔である 0.04: 顔でない CNNは周囲の情報・相対位置を意識しずらい = % 0.96 ∶ 顔である 0.04: 顔でない CNN Pool CNN Pool CNN Pool CNN Pool CNN Pool CNN Pool CNNは画像の特徴量（スカラー値)で発⽕ -> パーツの有無で識別を判定する仕組み

Slide 7

Slide 7 text

7 CNN これは顔かどうか？顔のパーツが揃っているか？ ○ ○ × ○ <判定基準> CNN Pool CNN Pool CNN Pool CNN Pool 周囲の情報の特徴抽出 : × 位置移動にがあっても同等に特徴抽出(空間情報を捨てる) CNNは周囲の情報・相対位置を意識しずらい⼈間

Slide 8

Slide 8 text

8 = % 0.96 ∶ 顔である 0.04: 顔でない Capsuleはパーツの相対位置で発⽕ = % 0. 01: 顔である 0.99: 顔でない CNN CNN CNNは画像の特徴量（スカラー値)で発⽕各Capsuleはパーツの相対位置を記憶 -> 相対位置が正しい場合に認識する仕組み

Slide 9

Slide 9 text

9 ⼈間 Capsule これは顔かどうか？ベクトル同⼠の整合性が取れてるか？ × ○ × ○ <判定基準> パーツの相対的な位置が異なる画像の処理が可能に CNN

Slide 10

Slide 10 text

10 CNNは汎化のために⼤量データが必要⼈間これは⾃由の⼥神かどうか？少量で⼗分 CNN 少量だけだと、条件変化で誤予測

Slide 11

Slide 11 text

11 CNNは汎化のために⼤量データが必要⼈間これは⾃由の⼥神かどうか？少量で⼗分 CNN 少量だけだと、条件変化で誤予測⾓度変化 Texture変化

Slide 12

Slide 12 text

12 CNNは汎化のために⼤量データが必要⼈間これは⾃由の⼥神かどうか？少量で⼗分 CNN 少量だけだと、条件変化で誤予測エンジニア CNNの判断基準を⼈間に近づけたい (精度上げたい）⾃由の⼥神のパーツとして学習したか？

Slide 13

Slide 13 text

13 CNNは汎化のために⼤量データが必要⼈間これは⾃由の⼥神かどうか？少量で⼗分 CNN 少量だけだと、条件変化で誤予測エンジニア CNNの判断基準を⼈間に近づけたい (精度上げたい）⾃由の⼥神のパーツとして学習したか？・全⽅位・⾓度から⾒た画像を追加学習させる・Data Augmentation

Slide 14

Slide 14 text

14 Capsule Netは⼈間同様少量で⼗分⼈間これは⾃由の⼥神かどうか？少量で⼗分エンジニア⾃由の⼥神のパーツの整合性が正しいか？ Capsule 少量で⼗分 Capsule Netの利⽤ → 全⽅位・⾓度の学習を追加でする必要なし *パーツの相対位置が学習済みなため

Slide 15

Slide 15 text

15 CNNは⼈間の視覚が可能な〇〇が実現できていない特定の⼊⼒を正確に処理できるNeuron(expert)が⼤量に存在 →分岐構造でうまくexpertに運ぶような構造で⾼精度に処理⼈間

Slide 16

Slide 16 text

16 CNNは⼈間の視覚が可能な〇〇が実現できていない特定の⼊⼒を正確に処理できるNeuron(expert)が⼤量に存在 →分岐構造でうまくexpertに運ぶような構造で⾼精度に処理⼈間 CNN ⼊⼒を全て同じ構造で処理 →層を増やす・層の性質を変えることで⾼精度に処理

Slide 17

Slide 17 text

17 CNNは⼈間の視覚が可能な〇〇が実現できていない特定の⼊⼒を正確に処理できるNeuron(expert)が⼤量に存在 →分岐構造でうまくexpertに運ぶような構造で⾼精度に処理⼈間 CNN ⼊⼒を全て同じ構造で処理 →層を増やす・層の性質を変えることで⾼精度に処理⼈間 CNN 回転データの認識・異なる視点の認識スパースなデータの認識重なっているデータの認識＝＋ CNNは⼈間に⽐べて、3つの認識ができなくなっている例 -> Appendix

Slide 18

Slide 18 text

18 Capsule Networkによる改善特定の⼊⼒を正確に処理できるNeuron(expert)が⼤量に存在 →分岐構造でうまくexpertに運ぶような構造で⾼精度に処理⼈間⼊⼒に対して、各Neuronが相対位置を学習 →分岐構造でうまくexpertに運ぶような構造で⾼精度に処理 Capsule

Slide 19

Slide 19 text

19 Capsule Networkによる改善特定の⼊⼒を正確に処理できるNeuron(expert)が⼤量に存在 →分岐構造でうまくexpertに運ぶような構造で⾼精度に処理⼈間⼊⼒に対して、各Neuronが相対位置を学習 →分岐構造でうまくexpertに運ぶような構造で⾼精度に処理 CNN 回転データの認識・異なる視点の認識スパースなデータの認識重なっているデータの認識＋ Capsule ＝ Capsule NetworkはCNNの認識できない3つのデータを認識可能に

Slide 20

Slide 20 text

20 スカラー値から学習するモデル既存のNeuronの構造 Traditional Neuron 1.22 スカラー値

Slide 21

Slide 21 text

21 ベクトル表現と確率から学習するモデル Capsule Networkの構造 Capsule 0.81 Vector 特徴量確率 (⾃⾝が発⽕しているかどうか）

Slide 22

Slide 22 text

22 ベクトル表現から学習するモデル Capsule Networkの構造

Slide 23

Slide 23 text

23 Capsule Networkの構造 0 1 2|0 02 (⽬) (顔) 02 : ⽬(i)の位置から顔(j)の位置を計算する⾏列・⼊⼒のAffine変換 CNNの以下の2つの問題点を解決する構造 1. 周囲の情報・相対位置を意識しずらい 2. 汎化のために⼤量データが必要ベクトル表現から学習するモデル

Slide 24

Slide 24 text

24 Capsule Networkの構造 02 : 重み 02 : 02 のjに関してsoftmaxした重み (routing) 02 = exp(02 ) ∑= exp(0= ) 02 = 02 + 1 2|0 ・2 ・ベクトルの重み付け計算 - 低(part) -> ⾼次元(whole)特徴量のTree構造を実現するための構造 CNNの以下の1つの問題点を解決する構造 1. CNNは⼈間の視覚が可能な〇〇が実現できていない 1 2|0 ・2 : agreement ⼊⼒と出⼒が同じ -> 重みが⼤ (これらの仕組み : routing-by-agreement) ベクトル表現から学習するモデル

Slide 25

Slide 25 text

25 Capsule Networkの構造 02 : 重み 02 : 02 のjに関してsoftmaxした重み (routing) 02 = exp(02 ) ∑= exp(0= ) 02 = 02 + 1 2|0 ・2 ・ベクトルの重み付け計算 - 低(part) -> ⾼次元(whole)特徴量のTree構造を実現するための構造 CNNの以下の1つの問題点を解決する構造 1. CNNは⼈間の視覚が可能な〇〇が実現できていない 1 2|0 ・2 : agreement ⼊⼒と出⼒が同じ -> 重みが⼤ (これらの仕組み : routing-by-agreement) *Routingの種類・Dynamic Routing (2016)(今回(右)で紹介） (routing-by-agreement) ・EM Routing(2018) ・Group Equivariant Routing(2018) ・Attention Routing(2019) and etc. Routing⼿法 / Routingの分析 : 最近の研究注⽬箇所ベクトル表現から学習するモデル

Slide 26

Slide 26 text

26 Capsule Networkの構造・ベクトルの⾮線型変換(squash関数）活性化関数の代わりに利⽤ output input 右項 : Scaling 左 : ⾮線型Scaling(Squash) " 1 + " → 0 → 0 , 1 → ∞ ベクトル表現から学習するモデル

Slide 27

Slide 27 text

27 CNN Capsuleの数(n個)だけを畳み込み -> D..E を出⼒ Capsule Networkの学習

Slide 28

Slide 28 text

28 CNN Capsule Networkの学習・・ D " F E ・・ Capsuleの数(n個)だけを畳み込み -> D..E を出⼒

Slide 29

Slide 29 text

29 CNN Capsule Networkの学習・・ D " F E ・・ 1 G|D 1 D|D D..E に対して遷移⾏列を乗算 (Capsule(, )間のaffine変換) 1 2|0 = 0,20

Slide 30

Slide 30 text

30 CNN D..E に対して遷移⾏列を乗算 (Capsule(, )間のaffine変換) 1 2|0 = 0,20 Capsule Networkの学習・・ D " F E ・・ 1 G|D 1 D|D 1 G|" ・・・・ 1 D|"

Slide 31

Slide 31 text

31 CNN Capsule Networkの学習(routing) ・・ D " F E ・・ Capsule(, )間の連結の確率計算 0,2 = 0 , 02 = exp(02 ) ∑= exp(0= ) 1 G|D 1 D|D 1 G|" ・・・・ 1 D|" (0,0.5) (0,0.5) (0,0.5) (0,0.5)

Slide 32

Slide 32 text

32 CNN Capsule Networkの学習(routing) ・・ D " F E ・・ Capsuleの⼊⼒2 を計算 2 = O 0 02 1 2|0 1 G|D 1 D|D 1 G|" ・・・・ 1 D|" G D (0,0.5) (0,0.5) (0,0.5) (0,0.5)

Slide 33

Slide 33 text

(0,0.5) 33 CNN Capsule Networkの学習(routing) ・・ D " F E ・・ Capsuleの⼊⼒2 をScaling 2 = ||2 ||" 1 + ||2 ||" 2 ||2 || 1 G|D 1 D|D 1 G|" ・・・・ 1 D|" G D (0,0.5) (0,0.5) (0,0.5)

Slide 34

Slide 34 text

34 CNN Capsule Networkの学習(routing) ・・ D " F E ・・ Capsule(, )間の連結の重み02 の更新 02 = 02 + 1 2|0 ・2 1 G|D 1 D|D 1 G|" ・・・・ 1 D|" G D (0.3,0.5) (0.1,0.5) (0.9,0.5) (0.9,0.5)

Slide 35

Slide 35 text

35 CNN Capsule Networkの学習(routing) ・・ D " F E ・・ 1 G|D 1 D|D 1 G|" ・・・・ 1 D|" G D (0.3,0.25) (0.1,0.1) (0.9,0.75) (0.9,0.9) Capsule(, )間の連結の確率計算 02 = exp(02 ) ∑= exp(0= )

Slide 36

Slide 36 text

36 CNN Capsule Networkの学習(routing) ・・ D " F E ・・ 1 G|D 1 D|D 1 G|" ・・・・ 1 D|" G D (0.3,0.25) (0.1,0.1) (0.9,0.75) (0.9,0.9) Capsuleの⼊⼒2 を計算 2 = O 0 02 1 2|0

Slide 37

Slide 37 text

37 CNN Capsule Networkの学習(routing) ・・ D " F E ・・ 1 G|D 1 D|D 1 G|" ・・・・ 1 D|" G D (0.3,0.25) (0.1,0.1) (0.9,0.75) (0.9,0.9) Capsuleの⼊⼒2 をScaling 2 = ||2 ||" 1 + ||2 ||" 2 ||2 ||

Slide 38

Slide 38 text

38 Capsule Networkの学習(損失計算) G D 0.9 0.1 ベクトル最終出⼒ [1x16x2] スカラ最終出⼒ (P ) [1(x1)x10] " Feed Forward Neural Network ( ) Q P = P max(0, V − P )" + 1 − P max(0, P − Y)" Z = ( − Q)" 損失 : Margin Loss(P ) + 再構成誤差(Z ) (Margin Lossの学習に影響がないように、 α=0.0005 に設定） = P + αZ P % 1(正例) 0(負例) V=0.9, Y=0.1 = 0.5

Slide 39

Slide 39 text

39 Capsule Networkの学習(損失計算) G D 0.1 0.1 *Margin Loss(P ) の利⽤ 1. 学習していない画像の場合はどの事後確率も低くなるようにするため 2. 画像内に複数クラスが含まれていても、両⽅の事後確率を⾼く出⼒するため G D 0.8 0.8

Slide 40

Slide 40 text

Stacked Capsule Autoencoder Adam R. Kosiorek, Sara Sabour, Yee Whye Teh, Geoffrey E. Hinton University of Oxford, Google Brain, DeepMind Neurips 2019

Slide 41

Slide 41 text

41 教師なし識別の Capsule Autoencoder Networkの適⽤ 2つのAutoencoderをStackingしている構造 - Part Capsule Autoencoder - Object Capsule Autoencoder Stacked Capsule Autoencoder

Slide 42

Slide 42 text

42 - クラスの数が与えられた状態で、クラスラベルがないデータで学習したモデルを識別するタスク * Standardなラベル割り当て⽅法 1. 学習済みのモデルにTest Dataを⼊⼒して、事後確率をクラスタリング 2. 2部グラフを⽤いて、識別誤差が最⼩になるように、ラベルの割り当て (Kuhn,1955) クラスタ 1 クラスタ 10 ・・・・・・ dog ship クラスタ 1 cat 教師無し識別について

Slide 43

Slide 43 text

43 教師なし識別は⼤きく⼆つのカテゴリに分類可能 1. Representation learning 精度がそこそこ、物体のパーツを意識しない学習法 - AIR (Eslami et al., 2016) - SAIR (Kosiorek et al., 2018) - Iterative Variational Inference (Greff et al., 2019) - MONet (Burgess et al., 2019) - K-means (Haeusser et al., 2018) - ADC (Haeusser et al., 2018)? - IMSAT (Hu et al., 2017) 2. Target Classification (Mutual Information based) 精度がいいが、⼤量のデータが必要 - IIC(Ji et al., 2018) - DeepInfoMax(Hjelm et al., 2019) - noise-contrastive estimation(Gutmann and Hyvärinen, 2010) 関連研究

Slide 44

Slide 44 text

44 幾何的構造を操作するような研究 1. 精度はいいが、Affine変換(⾓度変化)に弱い - Group Equivariant Convolutional Networks (Cohen and Welling, ICML, 2016) - Deep Roto-Translation Scattering for Object Classification (Oyallon and Mallat, CVPR, 2015) - Exploiting Cyclic Symmetry in Convolutional Neural Networks (Dieleman et al., arxiv, 2016) 2. localな変化に強いが、globalな構造変化に弱い - Spatial Transformers (Jaderberg et al., NIPS, 2015) - steerable networks (Cohen and Welling, ICRL, 2017) - Dynamic steerable blocks in deep residual networks (Jacobsen et al., arXiv, 2017) 関連研究

Slide 45

Slide 45 text

45 \ ネットワーク構造

Slide 46

Slide 46 text

46 各パーツのベクトル保持 \ ネットワーク構造

Slide 47

Slide 47 text

47 各パーツのベクトル保持⽊家ポスト ?? ベクトルの連結を予測(教師なし） \ ネットワーク構造

Slide 48

Slide 48 text

48 各パーツのベクトル保持⽊家ポスト ?? ベクトルの連結を予測(教師なし） \ ] \ = (\ , \ ) Template(learnable)から元画像の再構成ネットワーク構造

Slide 49

Slide 49 text

2つのAuto Encoderを同時に学習 - Part Capsule Auto Encoder - 画像内に含まれる各パーツ - パーツ同⼠の関係性 - Object Capsule Auto Encoder - パーツから各物体を再構成 49 1. Part Capsule Auto Encoder 2. Object Capsule Auto Encoder ネットワーク構造

Slide 50

Slide 50 text

50 ∈ [, ]×× ⼊⼒ ∈ [0,1]n×o×Pを分解 - ポーズ集合 \ - 存在確率 \ -特徴 \ ∈ ℝPw, Part Capsule Autoencoder

Slide 51

Slide 51 text

51 特徴 \ ∈ ℝPw からTemplate\ ∈ [0,1]n{×o|×(PVD)の⾊を予測 \ = (\) *実際には複雑なMappingも適⽤可能(今回は⾊予測のみに使⽤) それぞれのパーツの⾊を予測 Part Capsule Autoencoder ∈ [, ]××

Slide 52

Slide 52 text

52 TemplateとPoseで再構成 ( ) ポーズ集合 \ をTemplate(\ ∈ [0,1]n{×o{×(PVD))でアフィン変換 (画像の視点調整) * C+1 channel : color + alpha channelの⾜し合わせ (精度向上のために両⽅のchannelを使⽤) ] \ = \ ・\ Part Capsule Autoencoder ∈ [, ]××

Slide 53

Slide 53 text

53 TemplateとPoseで再構成各パーツ] E の透過率(alpha channel)に存在確率 \ を乗算 (画像の(, )におけるパーツの存在確率） \,0,2 • ∝ \ ] \,0,2 • \,0,2 • Part Capsule Autoencoder ∈ [, ]××

Slide 54

Slide 54 text

54 TemplateとPoseで再構成画像の尤度のGMMで計算 - \ ‚ ] \,0,2 P : 推定した⾊・Templateのcolor channel - • " : ⼊⼒画像の分散 = „ 0,2 O \…D † \,0,2 • 0,2 \ ‚ ] \,0,2 P ; • ") ] \,0,2 P \,0,2 • Part Capsule Autoencoder ∈ [, ]××

Slide 55

Slide 55 text

55 D:† ℎP•Š‹ Set Transformer(Appendix) で順序構造が未知のデータの関係性学習 - Object-Viewer Relations() : 物体-観察者間のaffine変換⽤⾏列([3×3]) - Capsule feature vector() : Set Transformerの特徴量 - Probability (=,E ) : Capsule k にパーツnが存在している確率 D:•, D:•, D:• = ℎP•Š‹(D:†) D:• D:• ≈ D:• Object Capsule Autoencoder

Slide 56

Slide 56 text

56 *事前分布のスパース制約(Batch内のクラスが均⼀である仮定） - Object CapsuleのK個の各CapsuleにおいてM種類のうちパーツの尤度が最⼤のものをCapsule k の事前確率とする = ŠZ0•Z = = max \ \,= D:• Object Capsule Autoencoder

Slide 57

Slide 57 text

57 *事前分布のスパース制約(Batch内のクラスが均⼀である仮定） 1 ‘ ＝∑=…D • ‘,= ŠZ0•Z ,’ = = ∑‘…D “ ‘,= ŠZ0•Z ŠZ0•Z = D “ ∑‘…D “ (1 ‘ − ⁄ • • )"+ D • ∑=…D • (’ = − ⁄ “ • )" - 各クラスは ⁄ • • 個のカプセルで表現(第⼀項） - 各カプセルは合計 ⁄ “ • の確率(第⼆項） (⼀枚の画像に⼀つの物体が存在する場合) D:• Object Capsule Autoencoder

Slide 58

Slide 58 text

58 *事前分布のスパース制約(Batch内のクラスが均⼀である仮定） 1 ‘ ＝∑=…D • ‘,= ŠZ0•Z ,’ = = ∑‘…D “ ‘,= ŠZ0•Z ŠZ0•Z = D “ ∑‘…D “ (1 ‘ − ⁄ • • )"+ D • ∑=…D • (’ = − ⁄ “ • )" - 各クラスは ⁄ • • 個のカプセルで表現(第⼀項） - 各カプセルは合計 ⁄ “ • の確率(第⼆項） (⼀枚の画像に⼀つの物体が存在する場合) Object Capsule Autoencoder 全てのCapsuleが活性化するような正則化 → 正則化がない場合に⽐べて精度は改善している (下記は教師なし識別の場合の精度）

Slide 59

Slide 59 text

59 K個の各Capsuleから３つのパラメータ推定 - Object-part Relations() : 物体-パーツ間のaffine変換⽤⾏列([3×3]) - Probability (=,E ) : Capsule k にパーツnが存在している確率 - = Q standard deviation () : 特徴ベクトル= から計算 =,D:– , =,D:E , =,D:E = ℎ= Š•Z—(= ) M個の⼊⼒からN個のパーツ候補(N ≤ ) D:• D:• =,D:• , =,D:E Object Capsule Autoencoder D:†

Slide 60

Slide 60 text

60 viewer-partsの関係(=,E )を⾏列で表現 - ⾏列を[平均・分散]に分解(パーツ毎の事後確率計算のため） - 推定した[平均・分散]から尤度推定 =,E = ==,E =,E → =,E , =,E \ , ) = \ =,E , =,E D:• =,E , =,E ← =,E D:• Object Capsule Autoencoder D:†

Slide 61

Slide 61 text

61 D:† Object CapsuleとPart Capsuleの事前確率と事後確率から最終的な尤度推定 D:† = „ \…D † O =…D • O E…D – = =,E ∑0 0 ∑2 0,2 \ , ) D:• =,D:• Object Capsule Autoencoder

Slide 62

Slide 62 text

62 D:† AutoencoderのNegative loss likelihoodとsparse制約の損失を最⼩化 = ŠZ0•Z + 0\•žŸ + Š•Z— D:• =,D:• 全体の損失関数について

Slide 63

Slide 63 text

63 ⽤いたデータセット - MNIST, CIFAR10, SVHN 確認した評価 - 教師なしでの識別精度評価に⽤いたデータセット

Slide 64

Slide 64 text

64 MNIST/SVHNでは既存⼿法を上回る精度を確認結果

Slide 65

Slide 65 text

65 CIFAR10 の精度は低い * 論⽂での主張 - part-wholeモデリングのためのreal dataが⾜りない - 背景を扱う構造が⼊っていない - 層を増やすことである程度改善可能 - 今後の研究で改善予定結果

Slide 66

Slide 66 text

参考⽂献

Slide 67

Slide 67 text

67 回転データの認識・異なる視点の認識⼈間 (ex) ⼈間が回転物体が「何か」を認識する際 1. 回転物体の座標情報を考える (そのために、物体全体を四⾓く囲う)

Slide 68

Slide 68 text

68 回転データの認識・異なる視点の認識⼈間 (ex) ⼈間が回転物体が「何か」を認識する際 1. 回転物体の座標情報を考える (そのために、物体全体を四⾓く囲う) 2. 無意識に⾓度を補正して、実際に物体が何かどうかを認識

Slide 69

Slide 69 text

69 回転データの認識・異なる視点の認識 CNN (ex) CNNが回転物体が「何か」を認識する際 1. ⼊⼒データをそのまま認識

Slide 70

Slide 70 text

70 回転データの認識・異なる視点の認識 CNN (ex) CNNが回転物体が「何か」を認識する際 1. ⼊⼒データをそのまま認識左のような認識⽅法による弊害 1. Affine変換などに弱い 2. 視点の変化に対応できない (ex) 下のデータのケース

Slide 71

Slide 71 text

71 スパースなデータの認識 CNN (ex) ⼈間が回転物体が「何か」を認識する際点のパターンの認識が困難

Slide 72

Slide 72 text

72 スパースなデータの認識 CNN (ex) ⼈間が回転物体が「何か」を認識する際⼈間点のパターンの認識が困難点のパターンの認識が可能

Slide 73

Slide 73 text

73 重なっているデータの認識 CNN (ex) ⼈間が回転物体が「何か」を認識する際⽂字の重なりを分けて認識するのが困難

Slide 74

Slide 74 text

74 重なっているデータの認識 CNN (ex) ⼈間が回転物体が「何か」を認識する際⼈間⽂字の重なりを分けて認識するのが困難⽂字の重なりを分けて認識することが可能(ある程度）

Slide 75

Slide 75 text

75 Capsule Network Tutorial Dynamic Routing Between Capsule(NIPS 2017) Capsule Networkのrouting/基礎的な数式に関する説明 YouTube : https://www.youtube.com/watch?v=pPN8d0E3900 Slide : https://www.slideshare.net/aureliengeron/introduction-to-capsule-networks-capsnets

Slide 76

Slide 76 text

76 CVPR 2019 Capsule Network Tutorial 前半 : Capsule Networkの概念・基礎構造の説明後半 : Capsule Networkによる他タスク適⽤事例（複数） YouTube : https://www.youtube.com/watch?v=_-RU9Yoca84 Slide : http://www.cs.toronto.edu/~saaraa/CapsuleSlides.pdf

Slide 77

Slide 77 text

77 Web References ・Understanding Dynamic Routing between capsules : https://jhui.github.io/2017/11/03/Dynamic-Routing-Between-Capsules/ ・Understanding Matrix capsules with EM routing : https://jhui.github.io/2017/11/14/Matrix-Capsules-with-EM-routing-Capsule-Network/ ・カプセルニューラルネットワークはニューラルネットワークを超えるか https://qiita.com/hiyoko9t/items/f426cba38b6ca1a7aa2b ・Dynamic Routing between Capsules 再現実装 https://github.com/motokimura/capsnet_pytorch