Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Deep Learningと位相・微分幾何学
Search
connection_automated_ai
January 14, 2018
Technology
0
1.5k
Deep Learning と位相・微分幾何学
Published.
connection_automated_ai
January 14, 2018
Tweet
Share
More Decks by connection_automated_ai
See All by connection_automated_ai
TowardThinkingMachine_GoogleDeepMind_LanguageEvolutionPapers.pdf
connection_automated_ai
9
5.1k
自己組織化と創発メカニズムを発生原理として、汎用人工知能は誕生するか
connection_automated_ai
1
600
複雑系・創発現象として、汎用人工知能が出現するシナリオを考える
connection_automated_ai
1
860
タスクの変化に応じて、最適なDeep neural networkモデルを自動編成するアルゴリズム を Ethereum上の「AIモジュール売買市場」の中で走らせるとどうなるのか、想像してみる
connection_automated_ai
1
150
2018年以降のAIを考える ~ 課題解決に必要な「最適なAIモデルの組み合わせ方」を、AIが自動で見つけ出して、自動構築したAIモデルを、誰もが手軽に利用できるようになる時代
connection_automated_ai
1
400
Other Decks in Technology
See All in Technology
Turing × atmaCup #18 - 1st Place Solution
hakubishin3
0
480
watsonx.ai Dojo #5 ファインチューニングとInstructLAB
oniak3ibm
PRO
0
160
【re:Invent 2024 アプデ】 Prompt Routing の紹介
champ
0
140
Oracle Cloudの生成AIサービスって実際どこまで使えるの? エンジニア目線で試してみた
minorun365
PRO
4
280
OpenAIの蒸留機能(Model Distillation)を使用して運用中のLLMのコストを削減する取り組み
pharma_x_tech
4
560
Wvlet: A New Flow-Style Query Language For Functional Data Modeling and Interactive Data Analysis - Trino Summit 2024
xerial
1
120
C++26 エラー性動作
faithandbrave
2
730
宇宙ベンチャーにおける最近の情シス取り組みについて
axelmizu
0
110
オプトインカメラ:UWB測位を応用したオプトイン型のカメラ計測
matthewlujp
0
170
Opcodeを読んでいたら何故かphp-srcを読んでいた話
murashotaro
0
230
祝!Iceberg祭開幕!re:Invent 2024データレイク関連アップデート10分総ざらい
kniino
3
260
Amazon VPC Lattice 最新アップデート紹介 - PrivateLink も似たようなアップデートあったけど違いとは
bigmuramura
0
190
Featured
See All Featured
ReactJS: Keep Simple. Everything can be a component!
pedronauck
665
120k
Gamification - CAS2011
davidbonilla
80
5.1k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
280
13k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
251
21k
Measuring & Analyzing Core Web Vitals
bluesmoon
4
170
Site-Speed That Sticks
csswizardry
2
190
Stop Working from a Prison Cell
hatefulcrawdad
267
20k
Being A Developer After 40
akosma
87
590k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
38
1.9k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
47
5.1k
Automating Front-end Workflow
addyosmani
1366
200k
RailsConf 2023
tenderlove
29
940
Transcript
Deep Learning と位相・微分幾何学 Connection automated A.I. 2018/1/14 (Sun.)
多様体仮説 (抜粋) 『近年,機械学習分野において, 「現実世界の高次元データは,本質的に低次元であ る」 という多様体仮説 を元にした学習方法が見られる. 深層学習においても,多様 体仮説に基づく学習方法がそうでない学習方 法と比較して性能が良いことが示唆さ
れている. 』 (出典) 全脳アーキテクチャ・イニシアティブ 11 回全脳アークテクチャー勉強会 「Deep Learning の中身に迫る」 報告書 http://ailab.dwango.co.jp/technical_report/DWAL-TR-2015-004.pdf
深層学習モデルは、「アフィン変換」によって、 入力データの特徴量(=本質的な情報) を抽出する 深層学習モデルは、入力データが持つ「本質的な情報(量)」 =入力データの特徴量を取り出そうとする。 深層学習モデルは、前の中間層から次の中間層へとデータを受け渡す度に、 データを拡大縮小したり、回転させたり、ゆがめたり、平行移動させる幾何学 的な操作を加えていく。
この操作を繰り返すことで、入力データがもつ「本質的な情報(量)」を最大 限に保存する、別の幾何学構造体(多様体)”を得ようとする。 獲得される新たな幾何学構造体(多様体)の次元数は、最終中間層の次元 数=最終中間層のノードの数となる。通常、入力データの次元数よりも小さ い)
深層学習モデルは、「アフィン変換」によって、 入力データの特徴量(=本質的な情報) を抽出する 「データを拡大縮小したり、回転させたり、ゆがめたり、平行移動させる幾何 学的な操作」のことを、数学上のことばでは、 「同相写像」(「アフィン変換」)と呼ぶ。 この操作は、データを「切断したり折り返したり」はしない。 「線形変換」=サイズを伸縮する・歪める操作と、
「平行移動」させる操作のみを適用する。
「アフィン変換」を繰り返す様子 (出典) Koji Ohki Qiita記事 「ニューラルネットワーク、多様体、トポロジー」 https://qiita.com/KojiOhki/items/af2241027b00f892d2bd クラス分類タスクに取り組む 深層学習モデルの場合は、 もとの入力データを、
線形分離可能になるように、 入力データの幾何学構造 を変えようと頑張る。
「アフィン変換」を繰り返す様子 (出典) Koji Ohki Qiita記事 「ニューラルネットワーク、多様体、トポロジー」 https://qiita.com/KojiOhki/items/af2241027b00f892d2bd
「アフィン変換」について (出典) Hatena Blog 大人になってからの再学習 「アフィン変換とは」 http://zellij.hatenablog.com/entry/20120523/p1
深層学習モデルのひとつの解釈 深層学習モデル(深層ニューラルネットワーク・モデル)とは、 入力データ(元データ)に幾何学的な構造変換操作(アフィン変換)を適用 することで、 ・ クラス分類を行いやすいデータ構造 ・ テキスト・画像・音声・動画データに潜む本質的な情報を圧縮できる データ構造
を得る(通常は、元データよりも小さな次元をもつ構造にする) ための「データの幾何学構造の変換(写像)操作」である。 (高次元の多様体を、小さな次元の多様体へと写像する操作)
つまり、 分類精度や回帰予測精度、文章生成精度などが高い深層学習モデルは、 もともとのデータが備えていた「本質的な情報」を極力、損なわずに、 「より小さな次元(=最終中間層のノード数に一致)の多様体」 へと写像変換することに成功した、 と解釈できる。
深層学習モデルがアフィン変換によっておこなう 入力データ(=多様体) から 低次限の別の多様体 への 同相写像 をもとに、数理解析的に、 もとの入力データがもっていた幾何学的な構造 を特定することができる、 元データのデータ構造を逆算的に特定できる
精度の高い深層学習モデルが獲得した 「低次元の多様体」(=情報構造体元) から、 「もともとのデータ」の「次元数」と「基底となる軸の接線方向」 を、数理解析的に、逆算的に得ることができる。 元データのデータ構造を逆算的に特定できる
入力データ(元データ)の情報構造が獲得できる (得られる情報=次元数と接線方向) (出典) 本武・池上 「Deep Neural Networksの力学的・幾何学的解析」 https://kaigi.org/jsai/webprogram/2016/pdf/773.pdf
入力データ(元データ)の情報構造が獲得できる (得られる情報=次元数と接線方向) (出典) 本武・池上 「Deep Neural Networksの力学的・幾何学的解析」 https://kaigi.org/jsai/webprogram/2016/pdf/773.pdf (抜粋) 「ニューラルネットワークが獲得した関数を,
データセット多様体を大域的な座標系へ 写像する関数だとみなすと, その関数 を解析することで, 元の多様体の性質を知ることが可能となる. なぜならば,多様体から多様体への写像 の微分は,以下で 定義される多様体の接空間 を定義し,そこから多様体の次元や 接ベクトル 等の情報を得ることができるからである.」
入力データ(元データ)の情報構造が獲得できる (得られる情報=次元数と接線方向) (出典) 本武・池上 「Deep Neural Networksの力学的・幾何学的解析」 https://kaigi.org/jsai/webprogram/2016/pdf/773.pdf
入力データ(元データ)の情報構造が獲得できる (得られる情報=次元数と接線方向) (出典) 本武・池上 「Deep Neural Networksの力学的・幾何学的解析」 https://kaigi.org/jsai/webprogram/2016/pdf/773.pdf (抜粋) 「ニューラルネットワークの写像関数の微分
(ヤコビアン行列) の特異値・特異ベクトル のうち,0 より大きな特異値に対応する 特異ベクトルが多様体の接線方向を, 0 の特異値に対応するベクトルが 多様体の垂直方向をあらわす. 従って,0 でない特異値の数から, 多様体の次元もわかる.」
入力データ(元データ)の情報構造が獲得できる (得られる情報=次元数と接線方向) (出典) 本武・池上 「Deep Neural Networksの力学的・幾何学的解析」 https://kaigi.org/jsai/webprogram/2016/pdf/773.pdf (抜粋) 「ニューラルネットワークの写像関数の微分
(ヤコビアン行列) の特異値・特異ベクトル のうち,0 より大きな特異値に対応する 特異ベクトルが多様体の接線方向を, 0 の特異値に対応するベクトルが 多様体の垂直方向をあらわす. 従って,0 でない特異値の数から, 多様体の次元もわかる.」
入力データ(元データ)の情報構造が持つ 次元数の獲得 (出典) 本武・池上 「Deep Neural Networksの力学的・幾何学的解析」 https://kaigi.org/jsai/webprogram/2016/pdf/773.pdf
入力データ(元データ)の情報構造が持つ 接線方向を獲得する (出典) 本武・池上 「Deep Neural Networksの力学的・幾何学的解析」 https://kaigi.org/jsai/webprogram/2016/pdf/773.pdf (抜粋) 「ニューラルネットワークの写像関数の微分
(ヤコビアン行列) の特異値・特異ベクトル のうち,0 より大きな特異値に対応する 特異ベクトルが多様体の接線方向を, 0 の特異値に対応するベクトルが 多様体の垂直方向をあらわす.」
入力データ(元データ)の情報構造が持つ 次元数を獲得する 正の値をもつ特異値の個数から、 入力データの多様体は、O(1) だと考えられる。 (出典) 本武・池上 「Deep Neural Networksの力学的・幾何学的解析」
https://kaigi.org/jsai/webprogram/2016/pdf/773.pdf
tt-SNE(多様体学習法)を用いて、入力データを次元圧縮 して結果、推定される入力データの次元数は、3次元であった。 入力データ(元データ)の情報構造が持つ 次元数を獲得する
深層学習モデルが、 入力データの『どこに注目しているか』 を可視化する手法としては、 Saliency map や Class Activatiom Map (CAM)
が知られている。 これとは別に、深層学習モデルを用いて、 『入力データ』(次元の数 や 基底軸となる解釈軸の方向性は、未知) が、どのような幾何学構造をもつ情報の構造体なのか (「次元の数」と「接線方向」) を、数理的に導出することができる。 元データのデータ構造を逆算的に特定できる
(微分幾何・情報幾何学と深層学習)
自然勾配学習法 損失関数の偏微分ベクトル(勾配ベクトル)が最大値をとる方向に、 中間層の重み wi,j を更新するのが妥当なのは、 入力データが中間層によって 構造変換(同相変換)された結果、 得られる多様体の曲率が、 ユークリッド空間である場合
に限定される。 中間層によって 構造変換(同相変換)された結果、得られた多様体が、 リーマン多様体などである場合を考慮に入れて、 損失関数の偏微分値を、一般化した上で、 重みを更新する勾配の方向を見積もる必要があるという考え方。
自然勾配学習法 (出典) 甘利 「自然勾配学習法-学習空間の幾何学」 https://www.jstage.jst.go.jp/article/sicejl1962/40/10/40_10_735/_pdf
自然勾配学習法 (出典) 田中・杉原・須田 「自然勾配学習法の有効性」 https://ipsj.ixsq.nii.ac.jp/ej/?action=repository_action_common_download&item_id=29375&item_no=1&attribute_id=1&file_no=1
情報幾何学 (出典) 大阪市立大学数学研究所ミニスクール 「情報幾何への入門と応用 http://www.sci.osaka-cu.ac.jp/~ohnita/2006/inf_geom/sos_dan/book_0403.pdf
自然勾配学習法 実務上では、自然勾配学習法を用いた事例は多くない印象がある。 理由として、最急降下法に続いて、確率的最急降下法(SGD)がでると、 計算コストの観点で、SGDの方が、計算負荷が小さく、尚且つ、短時間に、 局所最適解にそこそこ陥らずに、大域最適解にいきつけ るとみなす動きが主流となった可能性が考えられる。 さらに、計算負荷の大きいヘシアン行列を計算せずに済む、
「ヘシアン・フリー最適化」とよばれる手法も、注目を集めている。