Slide 1

Slide 1 text

deeplab 深層学習&ロボティクス勉強会 Meta-Learning: Learning to Learn Fast Takehiko Ohkawa, Haruka Kiyohara, Ryosuke Takanami, Fumi Takahashi, Tatsukichi Shibuya, Ryota Marumoto

Slide 2

Slide 2 text

深層学習&ロボティクス勉強会 deeplabは2019年4月に設立した学生による人工知能研究会である.東大,東工大,早 慶大をはじめとする都内の学部生を中心に20名以上が参加し,2019年度は5.4日に1 回ペース,年間60回を超える勉強会を開催し,人工知能関連分野 (ML, DL, CV, NLP, RL, Robotics, Speech, HCI, CognitiveScience, etc) を探究している. 今回は「深層学習の最新トレンドと強化学習,ロボティックス分野における発展」をテー マとし,勉強会を実施した.題材としてOpenAIのRoboticsチームの研究者であるLilian Wengさんのブログ (https://lilianweng.github.io/lil-log) を参考にし,資料作成,発表, ディスカッションを行った.

Slide 3

Slide 3 text

Meta-Learning ● 学習データが少ないタスクや未知のタスクに対して, 類似のタスクで学習した情報を 活用することで, 効果的な学習を可能とする. ⇒ Few-shot classification は教師ありメタ学習の1種. ● 教師あり学習から強化学習まで, 機械学習の幅広い分野への応用が可能. ● Learning to learn (学習方法の学習) とも呼ばれている. Meta Learning の例 ○ 大量の猫の画像を学習したモデルに対して, 猫ではない画像を識別させる. ○ 平坦な環境で訓練したロボットに, スロープの上でタスクを行わせる. ○ ゲームボットに新たなゲームをマスターさせる.

Slide 4

Slide 4 text

Define the Meta-Learning Problem ● 各データセット 𝐷 を1タスクとし, それぞれのタスクの損失をもとに, モデル全体の学 習を行う. ● Learner がサポートデータセット 𝑆 と予測データセット 𝐵 を用いてベースタスクの学 習, Meta-Learner がタスクの集合を用いて学習プロセスの学習 (メタパラメタの更 新) を行うことで, 下記の式を最大化する. Meta-Learner Learner

Slide 5

Slide 5 text

Few-shot Learning ● 学習サンプルが少ないデータを分類する学習法. ● 一般的に, Few-shot leraning はメタ学習問題のインスタンスとされている. ● K-shot N-class classification task は, それぞれ K 個のサンプルを持つ, N 個のク ラスのデータの学習を行う. 学習ステップ 1. ラベルのサブセット 𝐿 ⊂ ℒ𝑙𝑎𝑏𝑒𝑙 をランダムに サンプルし, 1タスクとする 2. サポートデータセット 𝑆𝐿⊂ 𝐷 と 予測データ 𝐵𝐿 ⊂ 𝐷 をサンプル 3. 各タスクで Few-shot 分類を行う 4. タスクの損失から誤差逆伝播 でメタパラメタを更新 4-shot 2-class learning の例

Slide 6

Slide 6 text

Common Approachs ● Metric-based, Model-based, Optimization-based の3つのタイプに分類できる. Metric-based Model-based Optimization-based Key Idea Metric learning RNN; memory Gradient descent How 𝑓𝜃 (𝒙, 𝑆) is modeled? ෍ 𝑥𝑖,𝑦𝑖 ∈𝑆 𝑘𝜃 𝒙,𝒙𝒊 𝑦𝑖 (∗) 𝑓𝜃 (𝒙, 𝑆) P 𝑔𝜙 𝜃,𝑆𝐿 (𝑦|𝒙) Examples • Convolutional Siamese Neural Network • Matching Networks • Relation Network • Prototypical Network • Memory-Augumented Neural Network • Meta Network • LSTM Meta-Learner • MAML • Reptile Strength Weakness + Simple and effective - Limited to supervised learning + Flexible - Weak generalization + Robust generalizability - Computationary expensive

Slide 7

Slide 7 text

Metric-based ● Metric-learning を用いたメタ学習 ● 特徴量空間をメタ学習し, テストデータとの類似度から識別を行う. ● Strength: ○ シンプルな概念 ○ テスト時に, タスクごとの調整が不必要. ● Weakness: ○ 教師あり学習に限定される. ○ メタ学習時とメタテスト時のタスクが大きく違うと, 精度が低下する.

Slide 8

Slide 8 text

Convolutional Siamese Neural Network ● Siamese Neural Network はペアになるサンプルをネットワーク 𝑓𝜃 に入力し, 埋め込 み表現の距離から同じクラスかどうか識別. 交差エントロピーでロスを計算. ● 最も近いサンプルのクラスからテストデータを分類. ● One-shot 画像分類への応用も可能. [Koch, Zemel & Salakhutdinov (2015)]

Slide 9

Slide 9 text

Matching Networks ● Matching Networks はサポートデータ S とテストデータの埋め込み表現を 𝑓𝜃 と 𝑔𝜃 を用いて獲得し, attention kernel 𝑎 𝑥, 𝑥𝑖 を用いて分類を行う. ● Full context embeddings [Vinyals et al., 2016] では, 単純なCNNの代わりに, LSTM を用いて特徴量を埋め込むことで, One-shot learning での精度向上に成功.

Slide 10

Slide 10 text

Relation Network ● Relation Network (RN) [Sung et al., 2018] は Siamese Network と同様に, ペアとな る画像の埋め込みをネットワーク 𝑓𝜃 で獲得し, 類似度が高いサンプルのクラスに分 類する. ● 違いとしては ○ L1 距離の替わりに, 識別用のネットワーク 𝑔𝜙 用いて類似度を計算. ○ 損失に MSE を用いることで, 関係性を回帰的に予測.

Slide 11

Slide 11 text

Prototypical Network ● Prototypical Network [Snell, Swersky & Zemel, 2017] は 𝑓𝜃 を用いて各クラスに対 してプロトタイプとなる埋め込み表現を獲得する. ● プロトタイプの埋め込み 𝑓𝜃 (𝑥) と各クラスの特徴量ベクトル 𝑣𝑐 の距離の softmax からクラスを識別.

Slide 12

Slide 12 text

Model-based ● RNN をベースとしたメタ学習. ● モデルの内部構造をメタ学習する. ● Strength: ○ 強化学習など応用の幅が広い. ● Weakness: ○ 教師あり学習では, Metrics-based と比較して精度が劣る. ○ タスクのばらつきが大きい場合, 汎化性能が大きく下がる.

Slide 13

Slide 13 text

Memory-Augumented Neural Network ● Memory-Augumented Neural Network (MANN) は外部記憶を用いることで, 学習を 促進. ● メタ学習では, 訓練タスクをランダムに系列化し, パラメタを更新していく. ● メモリの書き換えには Least Recently Used Access (LRUA) が使われる.

Slide 14

Slide 14 text

Meta Networks ● Meta Networks [Munkhdali & Yu, 2017] は fast weights を用いることで, メタ学習の の学習効率を向上させる. ● Fast weights: 直近の状態を短期的に記憶する. 更新スピードが速い. 直近の記憶を直ちに思い出せる脳の原理と似ている. [J. Ba et al, 2016] ● Slow weights: 確率的勾配法で更新し, 長期的な記憶をニューロンとして保存する.

Slide 15

Slide 15 text

Optimization-based ● 学習を効率的にするような最適化方法をメタ学習する. ● Strength: ○ ばらつきの大きいタスク分布でも学習がうまくいく. ○ 強化学習など応用の幅が広い. ● Weakness: ○ 計算コストが大きい.

Slide 16

Slide 16 text

● 勾配によるパラメタの更新の代わりに, LSTM のセルをタスクのパラメタとし, 学習を 行う. [Ravi&Larochelle, 2017] ● ミニバッチを用いて Learner 𝑅Θ の学習を行い, Meta-learner 𝑀𝜃 のパラメータを更 新する. LSTM Meta-Learner

Slide 17

Slide 17 text

MAML ● Model-Agonistic Meta-Learning (MAML) [Finn, et al. 2017] はタスクのミニバッチ 𝑇𝑖 の確率勾配法により, パラメータ 𝜃 の初期値を最適化する. ● Model & Task agnostic のため, 回帰や強化学習にも応用可能. ● Outer-loop の勾配計算にへシアンを用いるためメモリの消費量が課題. ⇒ First Order MAML (FOMAML) は1次近似のみを活用.

Slide 18

Slide 18 text

Reptile ● Reptile [Nichol, Achiam & Schulman, 2018] はMAMLと比べて, シンプルな最適化ア ルゴリズム. ● パラメータの初期値の更新を (𝜃 − 𝑊)/𝛼 で行う. ● ユーグリッド空間で最適解に向かっていく.

Slide 19

Slide 19 text

Summary ● メタ学習は, 複数のタスクやドメインでの学習を有効活用することで, 未知のタスク の学習を最適化する. ● Learning to learn (学習方法の学習). ● Model-based, Metric-based, Optimization-based の3つに分けられる. ● Automated Machine Learning の実現に向けた活用が期待されている. ● より人間の思考プロセスに近い学習法とも捉えられる. ● 課題: ● マルチモーダルなタスク/ドメインへの適用 ● 学習プロセスの過学習による, メタ汎化性能の低下

Slide 20

Slide 20 text

References ● Lilian Weng. Meta-Learning: Learning to Learn Fast. 2018. https://lilianweng.github.io/lil-log/2018/11/30/meta-learning.html ● Gregory Koch et al. Siamese neural networks for one-shot image recognition. ICML Deep Learning Workshop, 2015. ● Oriol Vinyals et al. Matching networks for one shot learning. NeurIPS, 2016. ● Flood Sung et al. Learning to compare: Relation network for few-shot learning. CVPR, 2018. ● J. Ba et al. Using Fast Weights to Attend to the Recent Past. NeurIPS, 2016. ● Tsendsuren Munkhdalai and Hong Yu. Meta Networks. ICML, 2017. ● Sachin Ravi and Hugo Larochelle. Optimization as a Model for Few-Shot Learning. ICLR, 2017.