Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Self Supervised Representation Learning

deeplab
December 27, 2020

Self Supervised Representation Learning

深層学習&ロボティクス勉強会の資料です.
題材としてOpenAI の Robotics チームの研究者である Lilian
Weng さんのブログ (https://lilianweng.github.io/lil-log) を参考にし,資料作成,発表,ディスカッションを行いました.

deeplab

December 27, 2020
Tweet

More Decks by deeplab

Other Decks in Research

Transcript

  1. 深層学習&ロボティクス勉強会 deeplabは2019年4月に設立した学生による人工知能研究会である.東大,東工大,早 慶大をはじめとする都内の学部生を中心に20名以上が参加し,2019年度は5.4日に1 回ペース,年間60回を超える勉強会を開催し,人工知能関連分野 (ML, DL, CV, NLP, RL, Robotics,

    Speech, HCI, CognitiveScience, etc) を探究している. 今回は「深層学習の最新トレンドと強化学習,ロボティックス分野における発展」をテー マとし,勉強会を実施した.題材としてOpenAIのRoboticsチームの研究者であるLilian Wengさんのブログ (https://lilianweng.github.io/lil-log) を参考にし,資料作成,発表, ディスカッションを行った.
  2. Why Self-Supervised Learning? • 常に生成される大規模なラベルなしデータを利用するには、データ自身から教師信 号を得られるように学習目標を適切に設定することが必要. • 自己教師あり学習において重要なのはタスクパフォーマンスではなく表現学習. • 自己教師あり学習の一例

    • 画像をランダムに回転させ、モデルにどのくらい回転しているか予測させる. • 回転予測のパフォーマンスは気にしない. • 少ないラベルデータで物体認識識別モデルを構築するために必要な質のいい潜在変数 を学習できていると期待できる. • 生成モデルも自己教師あり学習の一種とみなせるが,目的は異なる. • 多くのタスクで有用な良い特徴量を獲得することが自己教師あり表現学習の目的.
  3. Distortion • 少しの歪みを画像に加えても画像の持つsemanticsは変化しないと考えられる.こ の性質を利用して,歪みに対して頑健な特徴量を学習できる. • 各画像に対してtransformation (i.e., translation, rotation, scaling,

    etc.) を加えたもの をもと画像のクラスに対応させる (Exemplar-CNN) [Dosovitskiy et al., 2015]. • 一定の角度回転させた画像を与え, 画像の回転角を識別するように 学習 [Gidaris et al., 2018].
  4. Colorization • グレースケールの入力画像に色を付けるように学習させる [Zhang et al., 2016]. • RGBやCMYKといったカラーモデルではなく,CIE Lab*

    colorという人間の視覚に近 いカラーで出力する. • L*は,明るさを表現し,0で黒,100で白を意味している. • a*は,負の数だと緑を,正の数だとマゼンタを表現している. • b*は,負の数だと青,正の数だと黄色を表現している.
  5. Generative Modeling • 有用な潜在表現を獲得しながら,元の入力画像を再構成するように学習する方法. • Denoising autoencoder [Vincent et al.,

    2008] は,ノイズを載せた画像からノイズを 載せる前の画像を復元する. • 画像を途中でチャンネルごとに分割し,ほかのチャンネルを予測して学習 (split- brain autoencoder) [Zhang et al., 2017]. • 他にもGANを使用したBidirectional GANs [Donahue et al., 2017] も存在する.
  6. Other Techniques • Contrastive Predictive Coding (CPC) は,画像のcontextをencoderで抽出し,将来 のcontextを予測するように学習する [Henaff

    et al., 2019]. • Momentum Contrast (MoCo) では,instance discriminationをkey-queryタスクとして 学習し,supervisedなモデルよりもMoCoをtransfer learningする方が良いという結果 が得られた [He et al., 2019].
  7. Multi-View Metric Learning • Metric Learningのゴールは,データのcontextの関係性に従って変化する潜在表現 を獲得すること. • Time-Contrastive Networks

    (TCN) [Sermanet et al., 2018]は,複数視点の画像を 用いて,時系列情報を埋め込むことができるように学習する. [Jang et al., 2018]
  8. Autonomous Goal Generation • Reinforcement learning with Imagined Goals (RIG)

    [Nair et al., 2018] は,自己教師 あり学習によって方策を学習する. • ゴールを潜在空間上で仮に設定し,ゴールに近づくように埋め込み表現を獲得する 方法を学習しながら強化学習をする.
  9. Bisimulation • Reconstructionベースのモデルによって生成される潜在空間は,RLに役立つかどう かは保証されていないという問題がある. • 他にもDeep Bisimulation for Control (DBC)

    [Zhang et al., 2020] は,観測の潜在表 現を学習している.(ドメイン知識がなくとも,観測の潜在表現がRLにおいて有用で あることが知られている.) [Gelada et al., 2019]
  10. Summary • Self-supervised representation learningは,良い潜在表現を獲得することを目的と した事前学習として用いられる. • Self-supervised representation learningが利用されている領域として,自然言語処

    理以外に以下の三つがあげられる. • Image: 画像内のcontextをうまく潜在空間内に埋め込み,タスクに応じて transfer learningする. • Video: 動画という画像の系列情報を学習し,学習した表現を動作認識や object trackingといった下流のタスクに活かす. • Control (RL): 環境の状態 (観測) をいかに良い潜在表現に落とし込み,agentの controlに役立てるかが目的.
  11. References (1/3) • Lilian Weng. Self-supervised representation learning. 2019. https://lilianweng.github.io/lil-log/2019/11/10/self-supervised-learning.html

    • Yann LeCun. Self-supervised learning: could machines learn like humans? 2018. https://www.youtube.com/watch?v=7I0Qt7GALVk • Alexey Dosovitskiy et al. Discriminative unsupervised feature learning with exemplar convolutional neural networks. IEEE TPAMI, 2015. • Spyros Gidaris et al. Unsupervised representation learning by predicting image rotations. ICLR, 2018. • Mehdi Noroozi and Paolo Favaro. Unsupervised learning of visual representations by solving jigsaw puzzles. ECCV, 2016. • Richard Zhang et al. Colorful image colorization. ECCV, 2016.
  12. References (2/3) • Pascal Vincent et al. Extracting and composing

    robust features with denoising autoencoders. ICML, 2008. • Richard Zhang et al. Split-brain autoencoders: unsupervised learning by cross- channel prediction. CVPR, 2017. • Jeff Donahue et al. Adversarial feature learning. ICLR, 2017. • Olivier J. Henaff et al. Data-efficient image recognition with contrastive predictive coding. arXiv, 2019. • Kaiming He et al. Momentum contrast for unsupervised visual representation learning. CVPR, 2020. • Xiaolong Wang and Abhinav Gupta. Unsupervised learning of visual representations using videos. ICCV, 2015.
  13. References (3/3) • Ishan Misra et al. Shuffle and learn:

    unsupervised learning using temporal order verification. ECCV, 2016. • Carl Vondrick et al. Tracking emerges by colorizing videos. ECCV, 2018. • Eric Jang et al. Grasp2Vec: learning object representations from self-supervised grasping. CoRL, 2018. • Pierre Sermanet et al. Time-contrastive networks: self-supervised learning from video. CVPR, 2018. • Ashvin Nair et al. Visual reinforcement learning with imagined goals. NeurIPS, 2018. • Carles Gelada et al. DeepMDP: learning continuous latent space models for representation learning. ICML, 2019. • Amy Zhang et al. Learning invariant representations for reinforcement learning without reconstruction. arXiv, 2020.