Slide 1

Slide 1 text

deeplab 深層学習&ロボティクス勉強会 Self-Supervised Representation Learning Takehiko Ohkawa, Haruka Kiyohara, Ryosuke Takanami, Fumi Takahashi, Tatsukichi Shibuya, Ryota Marumoto

Slide 2

Slide 2 text

深層学習&ロボティクス勉強会 deeplabは2019年4月に設立した学生による人工知能研究会である.東大,東工大,早 慶大をはじめとする都内の学部生を中心に20名以上が参加し,2019年度は5.4日に1 回ペース,年間60回を超える勉強会を開催し,人工知能関連分野 (ML, DL, CV, NLP, RL, Robotics, Speech, HCI, CognitiveScience, etc) を探究している. 今回は「深層学習の最新トレンドと強化学習,ロボティックス分野における発展」をテー マとし,勉強会を実施した.題材としてOpenAIのRoboticsチームの研究者であるLilian Wengさんのブログ (https://lilianweng.github.io/lil-log) を参考にし,資料作成,発表, ディスカッションを行った.

Slide 3

Slide 3 text

Self-Supervised Learning ● ラベル付きデータの拡張性の問題から教師なし学習の利用が期待されている. ● 教師あり学習のタスクを特別に設計することで自己教師あり学習を行う. ● 自然言語処理において入力データのみを用いた自己教師あり学習がよく行われる. [LeCun, 2018]

Slide 4

Slide 4 text

Why Self-Supervised Learning? ● 常に生成される大規模なラベルなしデータを利用するには、データ自身から教師信 号を得られるように学習目標を適切に設定することが必要. ● 自己教師あり学習において重要なのはタスクパフォーマンスではなく表現学習. ● 自己教師あり学習の一例 • 画像をランダムに回転させ、モデルにどのくらい回転しているか予測させる. • 回転予測のパフォーマンスは気にしない. • 少ないラベルデータで物体認識識別モデルを構築するために必要な質のいい潜在変数 を学習できていると期待できる. ● 生成モデルも自己教師あり学習の一種とみなせるが,目的は異なる. ● 多くのタスクで有用な良い特徴量を獲得することが自己教師あり表現学習の目的.

Slide 5

Slide 5 text

Images-Based ● ラベルなしの画像を用いてモデルを事前学習し,そのモデルの中間層を識別モデ ルに使用するというのが主流. ● 手法 • Distortion • Patches • Colorization • Generative Modeling • Other Techniques

Slide 6

Slide 6 text

Distortion ● 少しの歪みを画像に加えても画像の持つsemanticsは変化しないと考えられる.こ の性質を利用して,歪みに対して頑健な特徴量を学習できる. ● 各画像に対してtransformation (i.e., translation, rotation, scaling, etc.) を加えたもの をもと画像のクラスに対応させる (Exemplar-CNN) [Dosovitskiy et al., 2015]. ● 一定の角度回転させた画像を与え, 画像の回転角を識別するように 学習 [Gidaris et al., 2018].

Slide 7

Slide 7 text

Patches ● 一つの画像からいくつかpatchを切り出し,それらpatch同士の関係を予測できるよ うに学習. ● 画像の一部を9つに分割し,Jigsaw puzzleのように元通りにするよう学習する方法 が代表的 [Noroozi & Favaro, 2016].

Slide 8

Slide 8 text

Colorization ● グレースケールの入力画像に色を付けるように学習させる [Zhang et al., 2016]. ● RGBやCMYKといったカラーモデルではなく,CIE Lab* colorという人間の視覚に近 いカラーで出力する. • L*は,明るさを表現し,0で黒,100で白を意味している. • a*は,負の数だと緑を,正の数だとマゼンタを表現している. • b*は,負の数だと青,正の数だと黄色を表現している.

Slide 9

Slide 9 text

Generative Modeling ● 有用な潜在表現を獲得しながら,元の入力画像を再構成するように学習する方法. ● Denoising autoencoder [Vincent et al., 2008] は,ノイズを載せた画像からノイズを 載せる前の画像を復元する. ● 画像を途中でチャンネルごとに分割し,ほかのチャンネルを予測して学習 (split- brain autoencoder) [Zhang et al., 2017]. ● 他にもGANを使用したBidirectional GANs [Donahue et al., 2017] も存在する.

Slide 10

Slide 10 text

Other Techniques ● Contrastive Predictive Coding (CPC) は,画像のcontextをencoderで抽出し,将来 のcontextを予測するように学習する [Henaff et al., 2019]. ● Momentum Contrast (MoCo) では,instance discriminationをkey-queryタスクとして 学習し,supervisedなモデルよりもMoCoをtransfer learningする方が良いという結果 が得られた [He et al., 2019].

Slide 11

Slide 11 text

Video-Based ● 動画の重要な特徴は,意味的に関連しているフレームの系列であること. ● ラベルなしの動画を用いてモデルを事前学習し,そのモデルの中間層をfine-tuning して動作認識,segmentation,object trackingといったタスクに適用するのが主流. ● 手法 • Tracking • Frame Sequence • Video Colorization

Slide 12

Slide 12 text

Tracking ● 近いフレーム同士内で登場する同じ物体は,潜在空間上でも近い関係にあるよう に表現学習をする. ● 30フレームの最初と最後の2フレームを , ,ランダムパッチを と置く. [Wang & Gupta, 2015]

Slide 13

Slide 13 text

Frame Sequence ● 動画タスクにおいて良い表現とは,フレームの時系列関係が学習できているもの. ● 事前学習として,動画のフレームの並びが適当かどうか判定する [Misra et al., 2016]. ● 動作認識のパフォーマンス向上に貢献.

Slide 14

Slide 14 text

Video Colorization ● Video colorizationタスクによって得られた表現は,video segmentationやvisual region trackingにそのまま適用できる. ● 画像のcolorizationとは異なり,前後のフレームを教師に色を付ける [Vondrick et al., 2018].

Slide 15

Slide 15 text

Control-Based ● RLにおいて視覚情報からagentを制御することは難しい. ● 視覚情報はノイズが多く,環境の真の状態とはあまり相関しない. ● 自己教師あり表現学習によって視覚情報から良質なstate embeddingが得られる可 能性が示唆されている. ● 手法 • Multi-View Metric Learning • Autonomous Goal Generation • Bisimulation

Slide 16

Slide 16 text

Multi-View Metric Learning ● Metric Learningのゴールは,データのcontextの関係性に従って変化する潜在表現 を獲得すること. ● Time-Contrastive Networks (TCN) [Sermanet et al., 2018]は,複数視点の画像を 用いて,時系列情報を埋め込むことができるように学習する. [Jang et al., 2018]

Slide 17

Slide 17 text

Autonomous Goal Generation ● Reinforcement learning with Imagined Goals (RIG) [Nair et al., 2018] は,自己教師 あり学習によって方策を学習する. ● ゴールを潜在空間上で仮に設定し,ゴールに近づくように埋め込み表現を獲得する 方法を学習しながら強化学習をする.

Slide 18

Slide 18 text

Bisimulation ● Reconstructionベースのモデルによって生成される潜在空間は,RLに役立つかどう かは保証されていないという問題がある. ● 他にもDeep Bisimulation for Control (DBC) [Zhang et al., 2020] は,観測の潜在表 現を学習している.(ドメイン知識がなくとも,観測の潜在表現がRLにおいて有用で あることが知られている.) [Gelada et al., 2019]

Slide 19

Slide 19 text

Summary ● Self-supervised representation learningは,良い潜在表現を獲得することを目的と した事前学習として用いられる. ● Self-supervised representation learningが利用されている領域として,自然言語処 理以外に以下の三つがあげられる. ● Image: 画像内のcontextをうまく潜在空間内に埋め込み,タスクに応じて transfer learningする. ● Video: 動画という画像の系列情報を学習し,学習した表現を動作認識や object trackingといった下流のタスクに活かす. ● Control (RL): 環境の状態 (観測) をいかに良い潜在表現に落とし込み,agentの controlに役立てるかが目的.

Slide 20

Slide 20 text

References (1/3) ● Lilian Weng. Self-supervised representation learning. 2019. https://lilianweng.github.io/lil-log/2019/11/10/self-supervised-learning.html ● Yann LeCun. Self-supervised learning: could machines learn like humans? 2018. https://www.youtube.com/watch?v=7I0Qt7GALVk ● Alexey Dosovitskiy et al. Discriminative unsupervised feature learning with exemplar convolutional neural networks. IEEE TPAMI, 2015. ● Spyros Gidaris et al. Unsupervised representation learning by predicting image rotations. ICLR, 2018. ● Mehdi Noroozi and Paolo Favaro. Unsupervised learning of visual representations by solving jigsaw puzzles. ECCV, 2016. ● Richard Zhang et al. Colorful image colorization. ECCV, 2016.

Slide 21

Slide 21 text

References (2/3) ● Pascal Vincent et al. Extracting and composing robust features with denoising autoencoders. ICML, 2008. ● Richard Zhang et al. Split-brain autoencoders: unsupervised learning by cross- channel prediction. CVPR, 2017. ● Jeff Donahue et al. Adversarial feature learning. ICLR, 2017. ● Olivier J. Henaff et al. Data-efficient image recognition with contrastive predictive coding. arXiv, 2019. ● Kaiming He et al. Momentum contrast for unsupervised visual representation learning. CVPR, 2020. ● Xiaolong Wang and Abhinav Gupta. Unsupervised learning of visual representations using videos. ICCV, 2015.

Slide 22

Slide 22 text

References (3/3) ● Ishan Misra et al. Shuffle and learn: unsupervised learning using temporal order verification. ECCV, 2016. ● Carl Vondrick et al. Tracking emerges by colorizing videos. ECCV, 2018. ● Eric Jang et al. Grasp2Vec: learning object representations from self-supervised grasping. CoRL, 2018. ● Pierre Sermanet et al. Time-contrastive networks: self-supervised learning from video. CVPR, 2018. ● Ashvin Nair et al. Visual reinforcement learning with imagined goals. NeurIPS, 2018. ● Carles Gelada et al. DeepMDP: learning continuous latent space models for representation learning. ICML, 2019. ● Amy Zhang et al. Learning invariant representations for reinforcement learning without reconstruction. arXiv, 2020.