Meta Learning : Learning to Learn Fast

Slide 1

Slide 1 text

deeplab 深層学習&ロボティクス勉強会 Meta-Learning: Learning to Learn Fast Takehiko Ohkawa, Haruka Kiyohara, Ryosuke Takanami, Fumi Takahashi, Tatsukichi Shibuya, Ryota Marumoto

Slide 2

Slide 2 text

深層学習&ロボティクス勉強会 deeplabは2019年4月に設立した学生による人工知能研究会である．東大，東工大，早慶大をはじめとする都内の学部生を中心に20名以上が参加し，2019年度は5.4日に1 回ペース，年間60回を超える勉強会を開催し，人工知能関連分野 (ML, DL, CV, NLP, RL, Robotics, Speech, HCI, CognitiveScience, etc) を探究している．今回は「深層学習の最新トレンドと強化学習，ロボティックス分野における発展」をテーマとし，勉強会を実施した．題材としてOpenAIのRoboticsチームの研究者であるLilian Wengさんのブログ (https://lilianweng.github.io/lil-log) を参考にし，資料作成，発表，ディスカッションを行った．

Slide 3

Slide 3 text

Meta-Learning ● 学習データが少ないタスクや未知のタスクに対して, 類似のタスクで学習した情報を活用することで, 効果的な学習を可能とする. ⇒ Few-shot classification は教師ありメタ学習の１種. ● 教師あり学習から強化学習まで, 機械学習の幅広い分野への応用が可能. ● Learning to learn (学習方法の学習) とも呼ばれている. Meta Learning の例 ○ 大量の猫の画像を学習したモデルに対して, 猫ではない画像を識別させる. ○ 平坦な環境で訓練したロボットに, スロープの上でタスクを行わせる. ○ ゲームボットに新たなゲームをマスターさせる.

Slide 4

Slide 4 text

Define the Meta-Learning Problem ● 各データセット 𝐷 を１タスクとし, それぞれのタスクの損失をもとに, モデル全体の学習を行う. ● Learner がサポートデータセット 𝑆 と予測データセット 𝐵 を用いてベースタスクの学習, Meta-Learner がタスクの集合を用いて学習プロセスの学習 (メタパラメタの更新) を行うことで, 下記の式を最大化する. Meta-Learner Learner

Slide 5

Slide 5 text

Few-shot Learning ● 学習サンプルが少ないデータを分類する学習法. ● 一般的に, Few-shot leraning はメタ学習問題のインスタンスとされている. ● K-shot N-class classification task は, それぞれ K 個のサンプルを持つ, N 個のクラスのデータの学習を行う. 学習ステップ 1. ラベルのサブセット 𝐿 ⊂ ℒ𝑙𝑎𝑏𝑒𝑙 をランダムにサンプルし, 1タスクとする 2. サポートデータセット 𝑆𝐿⊂ 𝐷 と予測データ 𝐵𝐿 ⊂ 𝐷 をサンプル 3. 各タスクで Few-shot 分類を行う 4. タスクの損失から誤差逆伝播でメタパラメタを更新 4-shot 2-class learning の例

Slide 6

Slide 6 text

Common Approachs ● Metric-based, Model-based, Optimization-based の３つのタイプに分類できる. Metric-based Model-based Optimization-based Key Idea Metric learning RNN; memory Gradient descent How 𝑓𝜃 (𝒙, 𝑆) is modeled? ෍ 𝑥𝑖,𝑦𝑖 ∈𝑆 𝑘𝜃 𝒙,𝒙𝒊 𝑦𝑖 (∗) 𝑓𝜃 (𝒙, 𝑆) P 𝑔𝜙 𝜃,𝑆𝐿 (𝑦|𝒙) Examples • Convolutional Siamese Neural Network • Matching Networks • Relation Network • Prototypical Network • Memory-Augumented Neural Network • Meta Network • LSTM Meta-Learner • MAML • Reptile Strength Weakness + Simple and effective - Limited to supervised learning + Flexible - Weak generalization + Robust generalizability - Computationary expensive

Slide 7

Slide 7 text

Metric-based ● Metric-learning を用いたメタ学習 ● 特徴量空間をメタ学習し, テストデータとの類似度から識別を行う. ● Strength: ○ シンプルな概念 ○ テスト時に, タスクごとの調整が不必要. ● Weakness: ○ 教師あり学習に限定される. ○ メタ学習時とメタテスト時のタスクが大きく違うと, 精度が低下する.

Slide 8

Slide 8 text

Convolutional Siamese Neural Network ● Siamese Neural Network はペアになるサンプルをネットワーク 𝑓𝜃 に入力し, 埋め込み表現の距離から同じクラスかどうか識別. 交差エントロピーでロスを計算. ● 最も近いサンプルのクラスからテストデータを分類. ● One-shot 画像分類への応用も可能. [Koch, Zemel & Salakhutdinov (2015)]

Slide 9

Slide 9 text

Matching Networks ● Matching Networks はサポートデータ S とテストデータの埋め込み表現を 𝑓𝜃 と 𝑔𝜃 を用いて獲得し, attention kernel 𝑎 𝑥, 𝑥𝑖 を用いて分類を行う. ● Full context embeddings [Vinyals et al., 2016] では, 単純なCNNの代わりに, LSTM を用いて特徴量を埋め込むことで, One-shot learning での精度向上に成功.

Slide 10

Slide 10 text

Relation Network ● Relation Network (RN) [Sung et al., 2018] は Siamese Network と同様に, ペアとなる画像の埋め込みをネットワーク 𝑓𝜃 で獲得し, 類似度が高いサンプルのクラスに分類する. ● 違いとしては ○ L1 距離の替わりに, 識別用のネットワーク 𝑔𝜙 用いて類似度を計算. ○ 損失に MSE を用いることで, 関係性を回帰的に予測.

Slide 11

Slide 11 text

Prototypical Network ● Prototypical Network [Snell, Swersky & Zemel, 2017] は 𝑓𝜃 を用いて各クラスに対してプロトタイプとなる埋め込み表現を獲得する. ● プロトタイプの埋め込み 𝑓𝜃 (𝑥) と各クラスの特徴量ベクトル 𝑣𝑐 の距離の softmax からクラスを識別.

Slide 12

Slide 12 text

Model-based ● RNN をベースとしたメタ学習. ● モデルの内部構造をメタ学習する. ● Strength: ○ 強化学習など応用の幅が広い. ● Weakness: ○ 教師あり学習では, Metrics-based と比較して精度が劣る. ○ タスクのばらつきが大きい場合, 汎化性能が大きく下がる.

Slide 13

Slide 13 text

Memory-Augumented Neural Network ● Memory-Augumented Neural Network (MANN) は外部記憶を用いることで, 学習を促進. ● メタ学習では, 訓練タスクをランダムに系列化し, パラメタを更新していく. ● メモリの書き換えには Least Recently Used Access (LRUA) が使われる.

Slide 14

Slide 14 text

Meta Networks ● Meta Networks [Munkhdali & Yu, 2017] は fast weights を用いることで, メタ学習のの学習効率を向上させる. ● Fast weights: 直近の状態を短期的に記憶する. 更新スピードが速い. 直近の記憶を直ちに思い出せる脳の原理と似ている. [J. Ba et al, 2016] ● Slow weights: 確率的勾配法で更新し, 長期的な記憶をニューロンとして保存する.

Slide 15

Slide 15 text

Optimization-based ● 学習を効率的にするような最適化方法をメタ学習する. ● Strength: ○ ばらつきの大きいタスク分布でも学習がうまくいく. ○ 強化学習など応用の幅が広い. ● Weakness: ○ 計算コストが大きい.

Slide 16

Slide 16 text

● 勾配によるパラメタの更新の代わりに, LSTM のセルをタスクのパラメタとし, 学習を行う. [Ravi&Larochelle, 2017] ● ミニバッチを用いて Learner 𝑅Θ の学習を行い, Meta-learner 𝑀𝜃 のパラメータを更新する. LSTM Meta-Learner

Slide 17

Slide 17 text

MAML ● Model-Agonistic Meta-Learning (MAML) [Finn, et al. 2017] はタスクのミニバッチ 𝑇𝑖 の確率勾配法により, パラメータ 𝜃 の初期値を最適化する. ● Model & Task agnostic のため, 回帰や強化学習にも応用可能. ● Outer-loop の勾配計算にへシアンを用いるためメモリの消費量が課題. ⇒ First Order MAML (FOMAML) は１次近似のみを活用.

Slide 18

Slide 18 text

Reptile ● Reptile [Nichol, Achiam & Schulman, 2018] はMAMLと比べて, シンプルな最適化アルゴリズム. ● パラメータの初期値の更新を (𝜃 − 𝑊)/𝛼 で行う. ● ユーグリッド空間で最適解に向かっていく.

Slide 19

Slide 19 text

Summary ● メタ学習は, 複数のタスクやドメインでの学習を有効活用することで, 未知のタスクの学習を最適化する. ● Learning to learn (学習方法の学習). ● Model-based, Metric-based, Optimization-based の３つに分けられる. ● Automated Machine Learning の実現に向けた活用が期待されている. ● より人間の思考プロセスに近い学習法とも捉えられる. ● 課題： ● マルチモーダルなタスク/ドメインへの適用 ● 学習プロセスの過学習による, メタ汎化性能の低下

Slide 20

Slide 20 text

References ● Lilian Weng. Meta-Learning: Learning to Learn Fast. 2018. https://lilianweng.github.io/lil-log/2018/11/30/meta-learning.html ● Gregory Koch et al. Siamese neural networks for one-shot image recognition. ICML Deep Learning Workshop, 2015. ● Oriol Vinyals et al. Matching networks for one shot learning. NeurIPS, 2016. ● Flood Sung et al. Learning to compare: Relation network for few-shot learning. CVPR, 2018. ● J. Ba et al. Using Fast Weights to Attend to the Recent Past. NeurIPS, 2016. ● Tsendsuren Munkhdalai and Hong Yu. Meta Networks. ICML, 2017. ● Sachin Ravi and Hugo Larochelle. Optimization as a Model for Few-Shot Learning. ICLR, 2017.