Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Deep Learningと位相・微分幾何学
Search
connection_automated_ai
January 14, 2018
Technology
0
1.5k
Deep Learning と位相・微分幾何学
Published.
connection_automated_ai
January 14, 2018
Tweet
Share
More Decks by connection_automated_ai
See All by connection_automated_ai
TowardThinkingMachine_GoogleDeepMind_LanguageEvolutionPapers.pdf
connection_automated_ai
9
5.1k
自己組織化と創発メカニズムを発生原理として、汎用人工知能は誕生するか
connection_automated_ai
1
600
複雑系・創発現象として、汎用人工知能が出現するシナリオを考える
connection_automated_ai
1
870
タスクの変化に応じて、最適なDeep neural networkモデルを自動編成するアルゴリズム を Ethereum上の「AIモジュール売買市場」の中で走らせるとどうなるのか、想像してみる
connection_automated_ai
1
150
2018年以降のAIを考える ~ 課題解決に必要な「最適なAIモデルの組み合わせ方」を、AIが自動で見つけ出して、自動構築したAIモデルを、誰もが手軽に利用できるようになる時代
connection_automated_ai
1
410
Other Decks in Technology
See All in Technology
月間60万ユーザーを抱える 個人開発サービス「Walica」の 技術スタック変遷
miyachin
1
150
新卒1年目、はじめてのアプリケーションサーバー【IBM WebSphere Liberty】
ktgrryt
0
140
なぜfreeeはハブ・アンド・スポーク型の データメッシュアーキテクチャにチャレンジするのか?
shinichiro_joya
2
520
FODにおけるホーム画面編成のレコメンド
watarukudo
PRO
2
290
生成AIのビジネス活用
seosoft
0
110
Unsafe.BitCast のすゝめ。
nenonaninu
0
200
今年一年で頑張ること / What I will do my best this year
pauli
1
220
AWSサービスアップデート 2024/12 Part3
nrinetcom
PRO
0
150
【Oracle Cloud ウェビナー】2025年のセキュリティ脅威を読み解く:リスクに備えるためのレジリエンスとデータ保護
oracle4engineer
PRO
1
100
WantedlyでのKotlin Multiplatformの導入と課題 / Kotlin Multiplatform Implementation and Challenges at Wantedly
kubode
0
250
Oracle Exadata Database Service(Dedicated Infrastructure):サービス概要のご紹介
oracle4engineer
PRO
0
12k
ゼロからわかる!!AWSの構成図を書いてみようワークショップ 問題&解答解説 #デッカイギ #羽田デッカイギおつ
_mossann_t
0
1.5k
Featured
See All Featured
Code Reviewing Like a Champion
maltzj
521
39k
How STYLIGHT went responsive
nonsquared
96
5.3k
Mobile First: as difficult as doing things right
swwweet
222
9k
Intergalactic Javascript Robots from Outer Space
tanoku
270
27k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
174
51k
Visualization
eitanlees
146
15k
Documentation Writing (for coders)
carmenintech
67
4.5k
Agile that works and the tools we love
rasmusluckow
328
21k
Speed Design
sergeychernyshev
25
740
Site-Speed That Sticks
csswizardry
3
270
GraphQLとの向き合い方2022年版
quramy
44
13k
Dealing with People You Can't Stand - Big Design 2015
cassininazir
365
25k
Transcript
Deep Learning と位相・微分幾何学 Connection automated A.I. 2018/1/14 (Sun.)
多様体仮説 (抜粋) 『近年,機械学習分野において, 「現実世界の高次元データは,本質的に低次元であ る」 という多様体仮説 を元にした学習方法が見られる. 深層学習においても,多様 体仮説に基づく学習方法がそうでない学習方 法と比較して性能が良いことが示唆さ
れている. 』 (出典) 全脳アーキテクチャ・イニシアティブ 11 回全脳アークテクチャー勉強会 「Deep Learning の中身に迫る」 報告書 http://ailab.dwango.co.jp/technical_report/DWAL-TR-2015-004.pdf
深層学習モデルは、「アフィン変換」によって、 入力データの特徴量(=本質的な情報) を抽出する 深層学習モデルは、入力データが持つ「本質的な情報(量)」 =入力データの特徴量を取り出そうとする。 深層学習モデルは、前の中間層から次の中間層へとデータを受け渡す度に、 データを拡大縮小したり、回転させたり、ゆがめたり、平行移動させる幾何学 的な操作を加えていく。
この操作を繰り返すことで、入力データがもつ「本質的な情報(量)」を最大 限に保存する、別の幾何学構造体(多様体)”を得ようとする。 獲得される新たな幾何学構造体(多様体)の次元数は、最終中間層の次元 数=最終中間層のノードの数となる。通常、入力データの次元数よりも小さ い)
深層学習モデルは、「アフィン変換」によって、 入力データの特徴量(=本質的な情報) を抽出する 「データを拡大縮小したり、回転させたり、ゆがめたり、平行移動させる幾何 学的な操作」のことを、数学上のことばでは、 「同相写像」(「アフィン変換」)と呼ぶ。 この操作は、データを「切断したり折り返したり」はしない。 「線形変換」=サイズを伸縮する・歪める操作と、
「平行移動」させる操作のみを適用する。
「アフィン変換」を繰り返す様子 (出典) Koji Ohki Qiita記事 「ニューラルネットワーク、多様体、トポロジー」 https://qiita.com/KojiOhki/items/af2241027b00f892d2bd クラス分類タスクに取り組む 深層学習モデルの場合は、 もとの入力データを、
線形分離可能になるように、 入力データの幾何学構造 を変えようと頑張る。
「アフィン変換」を繰り返す様子 (出典) Koji Ohki Qiita記事 「ニューラルネットワーク、多様体、トポロジー」 https://qiita.com/KojiOhki/items/af2241027b00f892d2bd
「アフィン変換」について (出典) Hatena Blog 大人になってからの再学習 「アフィン変換とは」 http://zellij.hatenablog.com/entry/20120523/p1
深層学習モデルのひとつの解釈 深層学習モデル(深層ニューラルネットワーク・モデル)とは、 入力データ(元データ)に幾何学的な構造変換操作(アフィン変換)を適用 することで、 ・ クラス分類を行いやすいデータ構造 ・ テキスト・画像・音声・動画データに潜む本質的な情報を圧縮できる データ構造
を得る(通常は、元データよりも小さな次元をもつ構造にする) ための「データの幾何学構造の変換(写像)操作」である。 (高次元の多様体を、小さな次元の多様体へと写像する操作)
つまり、 分類精度や回帰予測精度、文章生成精度などが高い深層学習モデルは、 もともとのデータが備えていた「本質的な情報」を極力、損なわずに、 「より小さな次元(=最終中間層のノード数に一致)の多様体」 へと写像変換することに成功した、 と解釈できる。
深層学習モデルがアフィン変換によっておこなう 入力データ(=多様体) から 低次限の別の多様体 への 同相写像 をもとに、数理解析的に、 もとの入力データがもっていた幾何学的な構造 を特定することができる、 元データのデータ構造を逆算的に特定できる
精度の高い深層学習モデルが獲得した 「低次元の多様体」(=情報構造体元) から、 「もともとのデータ」の「次元数」と「基底となる軸の接線方向」 を、数理解析的に、逆算的に得ることができる。 元データのデータ構造を逆算的に特定できる
入力データ(元データ)の情報構造が獲得できる (得られる情報=次元数と接線方向) (出典) 本武・池上 「Deep Neural Networksの力学的・幾何学的解析」 https://kaigi.org/jsai/webprogram/2016/pdf/773.pdf
入力データ(元データ)の情報構造が獲得できる (得られる情報=次元数と接線方向) (出典) 本武・池上 「Deep Neural Networksの力学的・幾何学的解析」 https://kaigi.org/jsai/webprogram/2016/pdf/773.pdf (抜粋) 「ニューラルネットワークが獲得した関数を,
データセット多様体を大域的な座標系へ 写像する関数だとみなすと, その関数 を解析することで, 元の多様体の性質を知ることが可能となる. なぜならば,多様体から多様体への写像 の微分は,以下で 定義される多様体の接空間 を定義し,そこから多様体の次元や 接ベクトル 等の情報を得ることができるからである.」
入力データ(元データ)の情報構造が獲得できる (得られる情報=次元数と接線方向) (出典) 本武・池上 「Deep Neural Networksの力学的・幾何学的解析」 https://kaigi.org/jsai/webprogram/2016/pdf/773.pdf
入力データ(元データ)の情報構造が獲得できる (得られる情報=次元数と接線方向) (出典) 本武・池上 「Deep Neural Networksの力学的・幾何学的解析」 https://kaigi.org/jsai/webprogram/2016/pdf/773.pdf (抜粋) 「ニューラルネットワークの写像関数の微分
(ヤコビアン行列) の特異値・特異ベクトル のうち,0 より大きな特異値に対応する 特異ベクトルが多様体の接線方向を, 0 の特異値に対応するベクトルが 多様体の垂直方向をあらわす. 従って,0 でない特異値の数から, 多様体の次元もわかる.」
入力データ(元データ)の情報構造が獲得できる (得られる情報=次元数と接線方向) (出典) 本武・池上 「Deep Neural Networksの力学的・幾何学的解析」 https://kaigi.org/jsai/webprogram/2016/pdf/773.pdf (抜粋) 「ニューラルネットワークの写像関数の微分
(ヤコビアン行列) の特異値・特異ベクトル のうち,0 より大きな特異値に対応する 特異ベクトルが多様体の接線方向を, 0 の特異値に対応するベクトルが 多様体の垂直方向をあらわす. 従って,0 でない特異値の数から, 多様体の次元もわかる.」
入力データ(元データ)の情報構造が持つ 次元数の獲得 (出典) 本武・池上 「Deep Neural Networksの力学的・幾何学的解析」 https://kaigi.org/jsai/webprogram/2016/pdf/773.pdf
入力データ(元データ)の情報構造が持つ 接線方向を獲得する (出典) 本武・池上 「Deep Neural Networksの力学的・幾何学的解析」 https://kaigi.org/jsai/webprogram/2016/pdf/773.pdf (抜粋) 「ニューラルネットワークの写像関数の微分
(ヤコビアン行列) の特異値・特異ベクトル のうち,0 より大きな特異値に対応する 特異ベクトルが多様体の接線方向を, 0 の特異値に対応するベクトルが 多様体の垂直方向をあらわす.」
入力データ(元データ)の情報構造が持つ 次元数を獲得する 正の値をもつ特異値の個数から、 入力データの多様体は、O(1) だと考えられる。 (出典) 本武・池上 「Deep Neural Networksの力学的・幾何学的解析」
https://kaigi.org/jsai/webprogram/2016/pdf/773.pdf
tt-SNE(多様体学習法)を用いて、入力データを次元圧縮 して結果、推定される入力データの次元数は、3次元であった。 入力データ(元データ)の情報構造が持つ 次元数を獲得する
深層学習モデルが、 入力データの『どこに注目しているか』 を可視化する手法としては、 Saliency map や Class Activatiom Map (CAM)
が知られている。 これとは別に、深層学習モデルを用いて、 『入力データ』(次元の数 や 基底軸となる解釈軸の方向性は、未知) が、どのような幾何学構造をもつ情報の構造体なのか (「次元の数」と「接線方向」) を、数理的に導出することができる。 元データのデータ構造を逆算的に特定できる
(微分幾何・情報幾何学と深層学習)
自然勾配学習法 損失関数の偏微分ベクトル(勾配ベクトル)が最大値をとる方向に、 中間層の重み wi,j を更新するのが妥当なのは、 入力データが中間層によって 構造変換(同相変換)された結果、 得られる多様体の曲率が、 ユークリッド空間である場合
に限定される。 中間層によって 構造変換(同相変換)された結果、得られた多様体が、 リーマン多様体などである場合を考慮に入れて、 損失関数の偏微分値を、一般化した上で、 重みを更新する勾配の方向を見積もる必要があるという考え方。
自然勾配学習法 (出典) 甘利 「自然勾配学習法-学習空間の幾何学」 https://www.jstage.jst.go.jp/article/sicejl1962/40/10/40_10_735/_pdf
自然勾配学習法 (出典) 田中・杉原・須田 「自然勾配学習法の有効性」 https://ipsj.ixsq.nii.ac.jp/ej/?action=repository_action_common_download&item_id=29375&item_no=1&attribute_id=1&file_no=1
情報幾何学 (出典) 大阪市立大学数学研究所ミニスクール 「情報幾何への入門と応用 http://www.sci.osaka-cu.ac.jp/~ohnita/2006/inf_geom/sos_dan/book_0403.pdf
自然勾配学習法 実務上では、自然勾配学習法を用いた事例は多くない印象がある。 理由として、最急降下法に続いて、確率的最急降下法(SGD)がでると、 計算コストの観点で、SGDの方が、計算負荷が小さく、尚且つ、短時間に、 局所最適解にそこそこ陥らずに、大域最適解にいきつけ るとみなす動きが主流となった可能性が考えられる。 さらに、計算負荷の大きいヘシアン行列を計算せずに済む、
「ヘシアン・フリー最適化」とよばれる手法も、注目を集めている。