Hinton教授(Google DeepMind)et.al.の論文Dynamic Routing Between Capsules その他で提唱されたCapsule Networkを、人間の脳内のV1視覚野の動作原理(ニューロンのカラム構造など)と比較する視点で捉えてみました。
(Capsule Networkの特徴(一部))
Max-Poolingや誤差逆伝播法を用いない点が特徴的な、
画像データを入力値として受けとるニューラル・ネットワーク・モデル。主な特徴は以下のとおり。
・ある物体を検出する上で有効となる「パーツ部品」をとらえる際に手がかりとなる「いくつかの属性」特徴量(画像中の位置や傾き、光沢感や色合いなど)を捉えることができるニューロン・ノードを、(あるパーツ部品を認識する際に同時に共起して発火するノードとして)同じ「カプセル」に収める。
・個々のカプセルからは、そのカプセルが捉えることができる「あるパーツ部品」の「いくつかの属性」の状態情報(特徴量)を、数値として並べた「ベクトル表現」を出力する。
・ベクトルどうしは、コサイン類似度等で、互いの(意味の)関連性を数学的に演算できるので、下位レイヤ内の複数のカプセルから出力される複数のベクトルどうしで、互いに関連のあるベクトルどうしを「Dynamic routing」とよばれる一種のHebb則の原理で選別して、上位レイヤのベクトルに連結(結合)させる。
・これにより、「入力画像中の各パーツの座標位置関係」や、各パーツの「傾き」や「光沢感」、「色合い」といった、複数の参照軸で、低次の意味レイヤから高次の意味レイヤに向かって、Parser tree(構文木)構造のように、階層的に意味構造を組みててていくことができる。