Deep Learningと位相・微分幾何学

Slide 1

Slide 1 text

Deep Learning と位相・微分幾何学 Connection automated A.I. 2018/1/14 (Sun.)

Slide 2

Slide 2 text

多様体仮説（抜粋）『近年，機械学習分野において，「現実世界の高次元データは，本質的に低次元である」という多様体仮説を元にした学習方法が見られる．深層学習においても，多様体仮説に基づく学習方法がそうでない学習方法と比較して性能が良いことが示唆されている. 』（出典）全脳アーキテクチャ・イニシアティブ 11 回全脳アークテクチャー勉強会「Deep Learning の中身に迫る」報告書 http://ailab.dwango.co.jp/technical_report/DWAL-TR-2015-004.pdf

Slide 3

Slide 3 text

深層学習モデルは、「アフィン変換」によって、入力データの特徴量（＝本質的な情報）を抽出する  深層学習モデルは、入力データが持つ「本質的な情報（量）」＝入力データの特徴量を取り出そうとする。  深層学習モデルは、前の中間層から次の中間層へとデータを受け渡す度に、データを拡大縮小したり、回転させたり、ゆがめたり、平行移動させる幾何学的な操作を加えていく。  この操作を繰り返すことで、入力データがもつ「本質的な情報（量）」を最大限に保存する、別の幾何学構造体（多様体）”を得ようとする。  獲得される新たな幾何学構造体（多様体）の次元数は、最終中間層の次元数＝最終中間層のノードの数となる。通常、入力データの次元数よりも小さい）

Slide 4

Slide 4 text

深層学習モデルは、「アフィン変換」によって、入力データの特徴量（＝本質的な情報）を抽出する  「データを拡大縮小したり、回転させたり、ゆがめたり、平行移動させる幾何学的な操作」のことを、数学上のことばでは、「同相写像」（「アフィン変換」）と呼ぶ。  この操作は、データを「切断したり折り返したり」はしない。「線形変換」＝サイズを伸縮する・歪める操作と、「平行移動」させる操作のみを適用する。

Slide 5

Slide 5 text

「アフィン変換」を繰り返す様子（出典） Koji Ohki Qiita記事「ニューラルネットワーク、多様体、トポロジー」 https://qiita.com/KojiOhki/items/af2241027b00f892d2bd クラス分類タスクに取り組む深層学習モデルの場合は、もとの入力データを、線形分離可能になるように、入力データの幾何学構造を変えようと頑張る。

Slide 6

Slide 6 text

「アフィン変換」を繰り返す様子（出典） Koji Ohki Qiita記事「ニューラルネットワーク、多様体、トポロジー」 https://qiita.com/KojiOhki/items/af2241027b00f892d2bd

Slide 7

Slide 7 text

「アフィン変換」について（出典） Hatena Blog 大人になってからの再学習「アフィン変換とは」 http://zellij.hatenablog.com/entry/20120523/p1

Slide 8

Slide 8 text

深層学習モデルのひとつの解釈  深層学習モデル（深層ニューラルネットワーク・モデル）とは、入力データ（元データ）に幾何学的な構造変換操作（アフィン変換）を適用することで、・クラス分類を行いやすいデータ構造・テキスト・画像・音声・動画データに潜む本質的な情報を圧縮できるデータ構造を得る（通常は、元データよりも小さな次元をもつ構造にする）ための「データの幾何学構造の変換（写像）操作」である。（高次元の多様体を、小さな次元の多様体へと写像する操作）

Slide 9

Slide 9 text

つまり、分類精度や回帰予測精度、文章生成精度などが高い深層学習モデルは、もともとのデータが備えていた「本質的な情報」を極力、損なわずに、「より小さな次元（＝最終中間層のノード数に一致）の多様体」へと写像変換することに成功した、と解釈できる。

Slide 10

Slide 10 text

深層学習モデルがアフィン変換によっておこなう入力データ（＝多様体）から低次限の別の多様体への同相写像をもとに、数理解析的に、もとの入力データがもっていた幾何学的な構造を特定することができる、元データのデータ構造を逆算的に特定できる

Slide 11

Slide 11 text

精度の高い深層学習モデルが獲得した「低次元の多様体」（＝情報構造体元）から、「もともとのデータ」の「次元数」と「基底となる軸の接線方向」を、数理解析的に、逆算的に得ることができる。元データのデータ構造を逆算的に特定できる

Slide 12

Slide 12 text

入力データ（元データ）の情報構造が獲得できる（得られる情報＝次元数と接線方向）（出典）本武・池上「Deep Neural Networksの力学的・幾何学的解析」 https://kaigi.org/jsai/webprogram/2016/pdf/773.pdf

Slide 13

Slide 13 text

入力データ（元データ）の情報構造が獲得できる（得られる情報＝次元数と接線方向）（出典）本武・池上「Deep Neural Networksの力学的・幾何学的解析」 https://kaigi.org/jsai/webprogram/2016/pdf/773.pdf （抜粋）「ニューラルネットワークが獲得した関数を，データセット多様体を大域的な座標系へ写像する関数だとみなすと，その関数を解析することで，元の多様体の性質を知ることが可能となる．なぜならば，多様体から多様体への写像の微分は，以下で定義される多様体の接空間を定義し，そこから多様体の次元や接ベクトル等の情報を得ることができるからである．」

Slide 14

Slide 14 text

Slide 15

Slide 15 text

入力データ（元データ）の情報構造が獲得できる（得られる情報＝次元数と接線方向）（出典）本武・池上「Deep Neural Networksの力学的・幾何学的解析」 https://kaigi.org/jsai/webprogram/2016/pdf/773.pdf （抜粋）「ニューラルネットワークの写像関数の微分 (ヤコビアン行列) の特異値・特異ベクトルのうち，0 より大きな特異値に対応する特異ベクトルが多様体の接線方向を， 0 の特異値に対応するベクトルが多様体の垂直方向をあらわす．従って，0 でない特異値の数から，多様体の次元もわかる．」

Slide 16

Slide 16 text

Slide 17

Slide 17 text

入力データ（元データ）の情報構造が持つ次元数の獲得（出典）本武・池上「Deep Neural Networksの力学的・幾何学的解析」 https://kaigi.org/jsai/webprogram/2016/pdf/773.pdf

Slide 18

Slide 18 text

入力データ（元データ）の情報構造が持つ接線方向を獲得する（出典）本武・池上「Deep Neural Networksの力学的・幾何学的解析」 https://kaigi.org/jsai/webprogram/2016/pdf/773.pdf （抜粋）「ニューラルネットワークの写像関数の微分 (ヤコビアン行列) の特異値・特異ベクトルのうち，0 より大きな特異値に対応する特異ベクトルが多様体の接線方向を， 0 の特異値に対応するベクトルが多様体の垂直方向をあらわす．」

Slide 19

Slide 19 text

入力データ（元データ）の情報構造が持つ次元数を獲得する正の値をもつ特異値の個数から、入力データの多様体は、O(1) だと考えられる。（出典）本武・池上「Deep Neural Networksの力学的・幾何学的解析」 https://kaigi.org/jsai/webprogram/2016/pdf/773.pdf

Slide 20

Slide 20 text

tt-SNE（多様体学習法）を用いて、入力データを次元圧縮して結果、推定される入力データの次元数は、3次元であった。入力データ（元データ）の情報構造が持つ次元数を獲得する

Slide 21

Slide 21 text

深層学習モデルが、入力データの『どこに注目しているか』を可視化する手法としては、 Saliency map や Class Activatiom Map （CAM）が知られている。これとは別に、深層学習モデルを用いて、『入力データ』（次元の数や基底軸となる解釈軸の方向性は、未知）が、どのような幾何学構造をもつ情報の構造体なのか（「次元の数」と「接線方向」）を、数理的に導出することができる。元データのデータ構造を逆算的に特定できる

Slide 22

Slide 22 text

（微分幾何・情報幾何学と深層学習）

Slide 23

Slide 23 text

自然勾配学習法  損失関数の偏微分ベクトル（勾配ベクトル）が最大値をとる方向に、中間層の重み wi,j を更新するのが妥当なのは、入力データが中間層によって構造変換（同相変換）された結果、得られる多様体の曲率が、ユークリッド空間である場合に限定される。  中間層によって構造変換（同相変換）された結果、得られた多様体が、リーマン多様体などである場合を考慮に入れて、損失関数の偏微分値を、一般化した上で、重みを更新する勾配の方向を見積もる必要があるという考え方。

Slide 24

Slide 24 text

自然勾配学習法（出典）甘利「自然勾配学習法－学習空間の幾何学」 https://www.jstage.jst.go.jp/article/sicejl1962/40/10/40_10_735/_pdf

Slide 25

Slide 25 text

自然勾配学習法（出典）田中・杉原・須田「自然勾配学習法の有効性」 https://ipsj.ixsq.nii.ac.jp/ej/?action=repository_action_common_download&item_id=29375&item_no=1&attribute_id=1&file_no=1

Slide 26

Slide 26 text

情報幾何学（出典）大阪市立大学数学研究所ミニスクール「情報幾何への入門と応用 http://www.sci.osaka-cu.ac.jp/~ohnita/2006/inf_geom/sos_dan/book_0403.pdf

Slide 27

Slide 27 text

自然勾配学習法  実務上では、自然勾配学習法を用いた事例は多くない印象がある。  理由として、最急降下法に続いて、確率的最急降下法（SGD）がでると、計算コストの観点で、SGDの方が、計算負荷が小さく、尚且つ、短時間に、局所最適解にそこそこ陥らずに、大域最適解にいきつけるとみなす動きが主流となった可能性が考えられる。  さらに、計算負荷の大きいヘシアン行列を計算せずに済む、「ヘシアン・フリー最適化」とよばれる手法も、注目を集めている。