Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Meta Learning : Learning to Learn Fast

deeplab
January 17, 2021

Meta Learning : Learning to Learn Fast

深層学習&ロボティクス勉強会の資料です.
題材としてOpenAI の Robotics チームの研究者である Lilian
Weng さんのブログ (https://lilianweng.github.io/lil-log) を参考にし,資料作成,発表,ディスカッションを行いました.

deeplab

January 17, 2021
Tweet

More Decks by deeplab

Other Decks in Research

Transcript

  1. deeplab 深層学習&ロボティクス勉強会 Meta-Learning: Learning to Learn Fast Takehiko Ohkawa, Haruka

    Kiyohara, Ryosuke Takanami, Fumi Takahashi, Tatsukichi Shibuya, Ryota Marumoto
  2. 深層学習&ロボティクス勉強会 deeplabは2019年4月に設立した学生による人工知能研究会である.東大,東工大,早 慶大をはじめとする都内の学部生を中心に20名以上が参加し,2019年度は5.4日に1 回ペース,年間60回を超える勉強会を開催し,人工知能関連分野 (ML, DL, CV, NLP, RL, Robotics,

    Speech, HCI, CognitiveScience, etc) を探究している. 今回は「深層学習の最新トレンドと強化学習,ロボティックス分野における発展」をテー マとし,勉強会を実施した.題材としてOpenAIのRoboticsチームの研究者であるLilian Wengさんのブログ (https://lilianweng.github.io/lil-log) を参考にし,資料作成,発表, ディスカッションを行った.
  3. Meta-Learning • 学習データが少ないタスクや未知のタスクに対して, 類似のタスクで学習した情報を 活用することで, 効果的な学習を可能とする. ⇒ Few-shot classification は教師ありメタ学習の1種.

    • 教師あり学習から強化学習まで, 機械学習の幅広い分野への応用が可能. • Learning to learn (学習方法の学習) とも呼ばれている. Meta Learning の例 ◦ 大量の猫の画像を学習したモデルに対して, 猫ではない画像を識別させる. ◦ 平坦な環境で訓練したロボットに, スロープの上でタスクを行わせる. ◦ ゲームボットに新たなゲームをマスターさせる.
  4. Define the Meta-Learning Problem • 各データセット 𝐷 を1タスクとし, それぞれのタスクの損失をもとに, モデル全体の学

    習を行う. • Learner がサポートデータセット 𝑆 と予測データセット 𝐵 を用いてベースタスクの学 習, Meta-Learner がタスクの集合を用いて学習プロセスの学習 (メタパラメタの更 新) を行うことで, 下記の式を最大化する. Meta-Learner Learner
  5. Few-shot Learning • 学習サンプルが少ないデータを分類する学習法. • 一般的に, Few-shot leraning はメタ学習問題のインスタンスとされている. •

    K-shot N-class classification task は, それぞれ K 個のサンプルを持つ, N 個のク ラスのデータの学習を行う. 学習ステップ 1. ラベルのサブセット 𝐿 ⊂ ℒ𝑙𝑎𝑏𝑒𝑙 をランダムに サンプルし, 1タスクとする 2. サポートデータセット 𝑆𝐿⊂ 𝐷 と 予測データ 𝐵𝐿 ⊂ 𝐷 をサンプル 3. 各タスクで Few-shot 分類を行う 4. タスクの損失から誤差逆伝播 でメタパラメタを更新 4-shot 2-class learning の例
  6. Common Approachs • Metric-based, Model-based, Optimization-based の3つのタイプに分類できる. Metric-based Model-based Optimization-based

    Key Idea Metric learning RNN; memory Gradient descent How 𝑓𝜃 (𝒙, 𝑆) is modeled? ෍ 𝑥𝑖,𝑦𝑖 ∈𝑆 𝑘𝜃 𝒙,𝒙𝒊 𝑦𝑖 (∗) 𝑓𝜃 (𝒙, 𝑆) P 𝑔𝜙 𝜃,𝑆𝐿 (𝑦|𝒙) Examples • Convolutional Siamese Neural Network • Matching Networks • Relation Network • Prototypical Network • Memory-Augumented Neural Network • Meta Network • LSTM Meta-Learner • MAML • Reptile Strength Weakness + Simple and effective - Limited to supervised learning + Flexible - Weak generalization + Robust generalizability - Computationary expensive
  7. Metric-based • Metric-learning を用いたメタ学習 • 特徴量空間をメタ学習し, テストデータとの類似度から識別を行う. • Strength: ◦

    シンプルな概念 ◦ テスト時に, タスクごとの調整が不必要. • Weakness: ◦ 教師あり学習に限定される. ◦ メタ学習時とメタテスト時のタスクが大きく違うと, 精度が低下する.
  8. Convolutional Siamese Neural Network • Siamese Neural Network はペアになるサンプルをネットワーク 𝑓𝜃

    に入力し, 埋め込 み表現の距離から同じクラスかどうか識別. 交差エントロピーでロスを計算. • 最も近いサンプルのクラスからテストデータを分類. • One-shot 画像分類への応用も可能. [Koch, Zemel & Salakhutdinov (2015)]
  9. Matching Networks • Matching Networks はサポートデータ S とテストデータの埋め込み表現を 𝑓𝜃 と

    𝑔𝜃 を用いて獲得し, attention kernel 𝑎 𝑥, 𝑥𝑖 を用いて分類を行う. • Full context embeddings [Vinyals et al., 2016] では, 単純なCNNの代わりに, LSTM を用いて特徴量を埋め込むことで, One-shot learning での精度向上に成功.
  10. Relation Network • Relation Network (RN) [Sung et al., 2018]

    は Siamese Network と同様に, ペアとな る画像の埋め込みをネットワーク 𝑓𝜃 で獲得し, 類似度が高いサンプルのクラスに分 類する. • 違いとしては ◦ L1 距離の替わりに, 識別用のネットワーク 𝑔𝜙 用いて類似度を計算. ◦ 損失に MSE を用いることで, 関係性を回帰的に予測.
  11. Prototypical Network • Prototypical Network [Snell, Swersky & Zemel, 2017]

    は 𝑓𝜃 を用いて各クラスに対 してプロトタイプとなる埋め込み表現を獲得する. • プロトタイプの埋め込み 𝑓𝜃 (𝑥) と各クラスの特徴量ベクトル 𝑣𝑐 の距離の softmax からクラスを識別.
  12. Model-based • RNN をベースとしたメタ学習. • モデルの内部構造をメタ学習する. • Strength: ◦ 強化学習など応用の幅が広い.

    • Weakness: ◦ 教師あり学習では, Metrics-based と比較して精度が劣る. ◦ タスクのばらつきが大きい場合, 汎化性能が大きく下がる.
  13. Memory-Augumented Neural Network • Memory-Augumented Neural Network (MANN) は外部記憶を用いることで, 学習を

    促進. • メタ学習では, 訓練タスクをランダムに系列化し, パラメタを更新していく. • メモリの書き換えには Least Recently Used Access (LRUA) が使われる.
  14. Meta Networks • Meta Networks [Munkhdali & Yu, 2017] は

    fast weights を用いることで, メタ学習の の学習効率を向上させる. • Fast weights: 直近の状態を短期的に記憶する. 更新スピードが速い. 直近の記憶を直ちに思い出せる脳の原理と似ている. [J. Ba et al, 2016] • Slow weights: 確率的勾配法で更新し, 長期的な記憶をニューロンとして保存する.
  15. MAML • Model-Agonistic Meta-Learning (MAML) [Finn, et al. 2017] はタスクのミニバッチ

    𝑇𝑖 の確率勾配法により, パラメータ 𝜃 の初期値を最適化する. • Model & Task agnostic のため, 回帰や強化学習にも応用可能. • Outer-loop の勾配計算にへシアンを用いるためメモリの消費量が課題. ⇒ First Order MAML (FOMAML) は1次近似のみを活用.
  16. Reptile • Reptile [Nichol, Achiam & Schulman, 2018] はMAMLと比べて, シンプルな最適化ア

    ルゴリズム. • パラメータの初期値の更新を (𝜃 − 𝑊)/𝛼 で行う. • ユーグリッド空間で最適解に向かっていく.
  17. Summary • メタ学習は, 複数のタスクやドメインでの学習を有効活用することで, 未知のタスク の学習を最適化する. • Learning to learn

    (学習方法の学習). • Model-based, Metric-based, Optimization-based の3つに分けられる. • Automated Machine Learning の実現に向けた活用が期待されている. • より人間の思考プロセスに近い学習法とも捉えられる. • 課題: • マルチモーダルなタスク/ドメインへの適用 • 学習プロセスの過学習による, メタ汎化性能の低下
  18. References • Lilian Weng. Meta-Learning: Learning to Learn Fast. 2018.

    https://lilianweng.github.io/lil-log/2018/11/30/meta-learning.html • Gregory Koch et al. Siamese neural networks for one-shot image recognition. ICML Deep Learning Workshop, 2015. • Oriol Vinyals et al. Matching networks for one shot learning. NeurIPS, 2016. • Flood Sung et al. Learning to compare: Relation network for few-shot learning. CVPR, 2018. • J. Ba et al. Using Fast Weights to Attend to the Recent Past. NeurIPS, 2016. • Tsendsuren Munkhdalai and Hong Yu. Meta Networks. ICML, 2017. • Sachin Ravi and Hugo Larochelle. Optimization as a Model for Few-Shot Learning. ICLR, 2017.