Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Deep Learningと位相・微分幾何学
Search
connection_automated_ai
January 14, 2018
Technology
0
1.8k
Deep Learning と位相・微分幾何学
Published.
connection_automated_ai
January 14, 2018
Tweet
Share
More Decks by connection_automated_ai
See All by connection_automated_ai
TowardThinkingMachine_GoogleDeepMind_LanguageEvolutionPapers.pdf
connection_automated_ai
9
5.2k
自己組織化と創発メカニズムを発生原理として、汎用人工知能は誕生するか
connection_automated_ai
1
670
複雑系・創発現象として、汎用人工知能が出現するシナリオを考える
connection_automated_ai
1
1k
タスクの変化に応じて、最適なDeep neural networkモデルを自動編成するアルゴリズム を Ethereum上の「AIモジュール売買市場」の中で走らせるとどうなるのか、想像してみる
connection_automated_ai
1
180
2018年以降のAIを考える ~ 課題解決に必要な「最適なAIモデルの組み合わせ方」を、AIが自動で見つけ出して、自動構築したAIモデルを、誰もが手軽に利用できるようになる時代
connection_automated_ai
1
440
Other Decks in Technology
See All in Technology
嗚呼、当時の本番環境の状態で AI Agentを再評価したいなぁ...
po3rin
0
360
なぜ新機能リリース翌日にモニタリング可能なのか? 〜リードタイム短縮とリソース問題を「自走」で改善した話〜 / data_summit_findy_Session_2
sansan_randd
1
150
Claude Code 10連ガチャ
uhyo
1
220
Zabbix Conference Japan 2025 ダッシュボードコンテストLT
katayamatg
0
140
MCP サーバーの基礎から実践レベルの知識まで
azukiazusa1
27
14k
メタプログラミングRuby問題集の活用
willnet
2
660
Digitization部 紹介資料
sansan33
PRO
1
5.9k
技術の総合格闘技!?AIインフラの現在と未来。
ebiken
PRO
0
220
CodexでもAgent Skillsを使いたい
gotalab555
7
3.5k
Copilotの精度を上げる!カスタムプロンプト入門.pdf
ismk
10
3k
LLM APIを2年間本番運用して苦労した話
ivry_presentationmaterials
16
11k
ピープルウエア x スタートアップ
operando
3
3.8k
Featured
See All Featured
Product Roadmaps are Hard
iamctodd
PRO
55
11k
Why You Should Never Use an ORM
jnunemaker
PRO
60
9.6k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
231
22k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
285
14k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
31
9.7k
Automating Front-end Workflow
addyosmani
1371
200k
How to Think Like a Performance Engineer
csswizardry
28
2.3k
Why Our Code Smells
bkeepers
PRO
340
57k
StorybookのUI Testing Handbookを読んだ
zakiyama
31
6.3k
The Cult of Friendly URLs
andyhume
79
6.7k
Learning to Love Humans: Emotional Interface Design
aarron
274
41k
The Straight Up "How To Draw Better" Workshop
denniskardys
239
140k
Transcript
Deep Learning と位相・微分幾何学 Connection automated A.I. 2018/1/14 (Sun.)
多様体仮説 (抜粋) 『近年,機械学習分野において, 「現実世界の高次元データは,本質的に低次元であ る」 という多様体仮説 を元にした学習方法が見られる. 深層学習においても,多様 体仮説に基づく学習方法がそうでない学習方 法と比較して性能が良いことが示唆さ
れている. 』 (出典) 全脳アーキテクチャ・イニシアティブ 11 回全脳アークテクチャー勉強会 「Deep Learning の中身に迫る」 報告書 http://ailab.dwango.co.jp/technical_report/DWAL-TR-2015-004.pdf
深層学習モデルは、「アフィン変換」によって、 入力データの特徴量(=本質的な情報) を抽出する 深層学習モデルは、入力データが持つ「本質的な情報(量)」 =入力データの特徴量を取り出そうとする。 深層学習モデルは、前の中間層から次の中間層へとデータを受け渡す度に、 データを拡大縮小したり、回転させたり、ゆがめたり、平行移動させる幾何学 的な操作を加えていく。
この操作を繰り返すことで、入力データがもつ「本質的な情報(量)」を最大 限に保存する、別の幾何学構造体(多様体)”を得ようとする。 獲得される新たな幾何学構造体(多様体)の次元数は、最終中間層の次元 数=最終中間層のノードの数となる。通常、入力データの次元数よりも小さ い)
深層学習モデルは、「アフィン変換」によって、 入力データの特徴量(=本質的な情報) を抽出する 「データを拡大縮小したり、回転させたり、ゆがめたり、平行移動させる幾何 学的な操作」のことを、数学上のことばでは、 「同相写像」(「アフィン変換」)と呼ぶ。 この操作は、データを「切断したり折り返したり」はしない。 「線形変換」=サイズを伸縮する・歪める操作と、
「平行移動」させる操作のみを適用する。
「アフィン変換」を繰り返す様子 (出典) Koji Ohki Qiita記事 「ニューラルネットワーク、多様体、トポロジー」 https://qiita.com/KojiOhki/items/af2241027b00f892d2bd クラス分類タスクに取り組む 深層学習モデルの場合は、 もとの入力データを、
線形分離可能になるように、 入力データの幾何学構造 を変えようと頑張る。
「アフィン変換」を繰り返す様子 (出典) Koji Ohki Qiita記事 「ニューラルネットワーク、多様体、トポロジー」 https://qiita.com/KojiOhki/items/af2241027b00f892d2bd
「アフィン変換」について (出典) Hatena Blog 大人になってからの再学習 「アフィン変換とは」 http://zellij.hatenablog.com/entry/20120523/p1
深層学習モデルのひとつの解釈 深層学習モデル(深層ニューラルネットワーク・モデル)とは、 入力データ(元データ)に幾何学的な構造変換操作(アフィン変換)を適用 することで、 ・ クラス分類を行いやすいデータ構造 ・ テキスト・画像・音声・動画データに潜む本質的な情報を圧縮できる データ構造
を得る(通常は、元データよりも小さな次元をもつ構造にする) ための「データの幾何学構造の変換(写像)操作」である。 (高次元の多様体を、小さな次元の多様体へと写像する操作)
つまり、 分類精度や回帰予測精度、文章生成精度などが高い深層学習モデルは、 もともとのデータが備えていた「本質的な情報」を極力、損なわずに、 「より小さな次元(=最終中間層のノード数に一致)の多様体」 へと写像変換することに成功した、 と解釈できる。
深層学習モデルがアフィン変換によっておこなう 入力データ(=多様体) から 低次限の別の多様体 への 同相写像 をもとに、数理解析的に、 もとの入力データがもっていた幾何学的な構造 を特定することができる、 元データのデータ構造を逆算的に特定できる
精度の高い深層学習モデルが獲得した 「低次元の多様体」(=情報構造体元) から、 「もともとのデータ」の「次元数」と「基底となる軸の接線方向」 を、数理解析的に、逆算的に得ることができる。 元データのデータ構造を逆算的に特定できる
入力データ(元データ)の情報構造が獲得できる (得られる情報=次元数と接線方向) (出典) 本武・池上 「Deep Neural Networksの力学的・幾何学的解析」 https://kaigi.org/jsai/webprogram/2016/pdf/773.pdf
入力データ(元データ)の情報構造が獲得できる (得られる情報=次元数と接線方向) (出典) 本武・池上 「Deep Neural Networksの力学的・幾何学的解析」 https://kaigi.org/jsai/webprogram/2016/pdf/773.pdf (抜粋) 「ニューラルネットワークが獲得した関数を,
データセット多様体を大域的な座標系へ 写像する関数だとみなすと, その関数 を解析することで, 元の多様体の性質を知ることが可能となる. なぜならば,多様体から多様体への写像 の微分は,以下で 定義される多様体の接空間 を定義し,そこから多様体の次元や 接ベクトル 等の情報を得ることができるからである.」
入力データ(元データ)の情報構造が獲得できる (得られる情報=次元数と接線方向) (出典) 本武・池上 「Deep Neural Networksの力学的・幾何学的解析」 https://kaigi.org/jsai/webprogram/2016/pdf/773.pdf
入力データ(元データ)の情報構造が獲得できる (得られる情報=次元数と接線方向) (出典) 本武・池上 「Deep Neural Networksの力学的・幾何学的解析」 https://kaigi.org/jsai/webprogram/2016/pdf/773.pdf (抜粋) 「ニューラルネットワークの写像関数の微分
(ヤコビアン行列) の特異値・特異ベクトル のうち,0 より大きな特異値に対応する 特異ベクトルが多様体の接線方向を, 0 の特異値に対応するベクトルが 多様体の垂直方向をあらわす. 従って,0 でない特異値の数から, 多様体の次元もわかる.」
入力データ(元データ)の情報構造が獲得できる (得られる情報=次元数と接線方向) (出典) 本武・池上 「Deep Neural Networksの力学的・幾何学的解析」 https://kaigi.org/jsai/webprogram/2016/pdf/773.pdf (抜粋) 「ニューラルネットワークの写像関数の微分
(ヤコビアン行列) の特異値・特異ベクトル のうち,0 より大きな特異値に対応する 特異ベクトルが多様体の接線方向を, 0 の特異値に対応するベクトルが 多様体の垂直方向をあらわす. 従って,0 でない特異値の数から, 多様体の次元もわかる.」
入力データ(元データ)の情報構造が持つ 次元数の獲得 (出典) 本武・池上 「Deep Neural Networksの力学的・幾何学的解析」 https://kaigi.org/jsai/webprogram/2016/pdf/773.pdf
入力データ(元データ)の情報構造が持つ 接線方向を獲得する (出典) 本武・池上 「Deep Neural Networksの力学的・幾何学的解析」 https://kaigi.org/jsai/webprogram/2016/pdf/773.pdf (抜粋) 「ニューラルネットワークの写像関数の微分
(ヤコビアン行列) の特異値・特異ベクトル のうち,0 より大きな特異値に対応する 特異ベクトルが多様体の接線方向を, 0 の特異値に対応するベクトルが 多様体の垂直方向をあらわす.」
入力データ(元データ)の情報構造が持つ 次元数を獲得する 正の値をもつ特異値の個数から、 入力データの多様体は、O(1) だと考えられる。 (出典) 本武・池上 「Deep Neural Networksの力学的・幾何学的解析」
https://kaigi.org/jsai/webprogram/2016/pdf/773.pdf
tt-SNE(多様体学習法)を用いて、入力データを次元圧縮 して結果、推定される入力データの次元数は、3次元であった。 入力データ(元データ)の情報構造が持つ 次元数を獲得する
深層学習モデルが、 入力データの『どこに注目しているか』 を可視化する手法としては、 Saliency map や Class Activatiom Map (CAM)
が知られている。 これとは別に、深層学習モデルを用いて、 『入力データ』(次元の数 や 基底軸となる解釈軸の方向性は、未知) が、どのような幾何学構造をもつ情報の構造体なのか (「次元の数」と「接線方向」) を、数理的に導出することができる。 元データのデータ構造を逆算的に特定できる
(微分幾何・情報幾何学と深層学習)
自然勾配学習法 損失関数の偏微分ベクトル(勾配ベクトル)が最大値をとる方向に、 中間層の重み wi,j を更新するのが妥当なのは、 入力データが中間層によって 構造変換(同相変換)された結果、 得られる多様体の曲率が、 ユークリッド空間である場合
に限定される。 中間層によって 構造変換(同相変換)された結果、得られた多様体が、 リーマン多様体などである場合を考慮に入れて、 損失関数の偏微分値を、一般化した上で、 重みを更新する勾配の方向を見積もる必要があるという考え方。
自然勾配学習法 (出典) 甘利 「自然勾配学習法-学習空間の幾何学」 https://www.jstage.jst.go.jp/article/sicejl1962/40/10/40_10_735/_pdf
自然勾配学習法 (出典) 田中・杉原・須田 「自然勾配学習法の有効性」 https://ipsj.ixsq.nii.ac.jp/ej/?action=repository_action_common_download&item_id=29375&item_no=1&attribute_id=1&file_no=1
情報幾何学 (出典) 大阪市立大学数学研究所ミニスクール 「情報幾何への入門と応用 http://www.sci.osaka-cu.ac.jp/~ohnita/2006/inf_geom/sos_dan/book_0403.pdf
自然勾配学習法 実務上では、自然勾配学習法を用いた事例は多くない印象がある。 理由として、最急降下法に続いて、確率的最急降下法(SGD)がでると、 計算コストの観点で、SGDの方が、計算負荷が小さく、尚且つ、短時間に、 局所最適解にそこそこ陥らずに、大域最適解にいきつけ るとみなす動きが主流となった可能性が考えられる。 さらに、計算負荷の大きいヘシアン行列を計算せずに済む、
「ヘシアン・フリー最適化」とよばれる手法も、注目を集めている。