Slide 1

Slide 1 text

2020.10.02 加藤 直樹 北村 博俊 佐々木 辰也 中村 遵介 林 俊宏 株式会社ディー・エヌ・エー + 株式会社 Mobility Technologies ECCV2020 論文紹介

Slide 2

Slide 2 text

About ECCV2020再録論文1,360本の中から、参加メンバーが特に注目度や有益性が高いと 判断した24本の論文を解説します 2

Slide 3

Slide 3 text

3 Topics 01|3D Geometry 02|Object Detection 03|Segmentation 04|Human Recognition 05|Video & Action Understanding 06|Low-level Vision 07|Unsupervised/Self-supervised Learning 08|Others

Slide 4

Slide 4 text

4 3D Geometry 01

Slide 5

Slide 5 text

5 NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis Link to paper

Slide 6

Slide 6 text

Summary ▪ スパースな複数視点画像を用いた学習により、ある物体やシーンを写した画像から 新たな視点の画像を生成するneural radiance field (NeRF) を提案 ▪ カメラ光線に基づいた生成と種々の工夫により、 視点の変化に対して連続的かつ精細な生成を実現 6

Slide 7

Slide 7 text

Method ▪ 空間上のある点がある視線方向に放つ色および密度(物体の存在)をMLPで推定 ▪ 色は座標と視線方向に依存し、密度は座標のみに依存するようそれぞれの入出力層を調整 ▪ カメラ光線がもたらす色をvolume renderingにより計算 ▪ 光線上の色と密度の組を用いた積分処理により画素色が得られる (物体の存在により後の光線が遮られることを考慮した定式化) ▪ 実際には光線を一様に離散化した点群を用いた総和演算で上記計算を近似 ▪ レンダリングされた画素色と実際の色に対する二乗誤差でモデルを学習 7 ネットワーク構造 neural radiance fieldによるシーン表現

Slide 8

Slide 8 text

Method ▪ positional encoding: ▪ NNは高周波な関数を近似し難いため、入力に対して直接モデルを適用すると 座標と向きの変化に対する色と密度の高周波な変化を表現できない ▪ そこで、入力座標と視線方向を下式により高次元ベクトルにエンコードしてモデルに入力 ▪ hierarchical sampling: ▪ 物体の存在しない空間や遮蔽された領域はレンダリング結果に影響しないため、 光線上に沿った一様な点群を用いてレンダリングするのは非効率 ▪ そこで、一様な点群から大まかな推定をするcoarse networkと、 それにより計算されたレンダリング結果に対する影響度の高い点を重点的にサンプリングする fine networkを併用して最終的なレンダリングを実施 8

Slide 9

Slide 9 text

最終的なモデルは光の反射を考慮した精細な生成が可能 ▪ 視点方向を入力しないと、光の反射を表現できない ▪ positional encodingをしないと、高周波な生成ができない(細部がぼやける) Results 9

Slide 10

Slide 10 text

▪ 人工画像、実画像データセットの双方で既存手法を凌駕する性能を達成 Results 10 ▪ ablation study結果

Slide 11

Slide 11 text

▪ 結果例(プロジェクトページの動画が分かりやすい) ▪ 精細かつ視点変化に対してなめらかな生成が可能 ▪ 向きによる見え方の違い(光の反射など)をリアルに再現 Results 11

Slide 12

Slide 12 text

▪ 後継研究もすでに存在 (ワークショップ Deep Internal Learning: Training with no prior examples より) Results 12

Slide 13

Slide 13 text

13 Object Detection 02

Slide 14

Slide 14 text

14 Corner Proposal Network for Anchor-free, Two- stage Object Detection Link to paper

Slide 15

Slide 15 text

Summary ▪ anchor-freeの物体検出モデルはanchor-basedの物体検出モデルと比較して、recallが 高い反面、物体が密接している場合はキーポイントの対応が正しく取れないため、 false positiveが増加するケースが多い ▪ 本論文では、anchor-freeの物体検出モデルをキーポイントの検出/クラス分類に分け たCPN(Corner Proposal Network)を提案 ▪ 既存のanchor-freeモデルと比較してprecision, recall共に向上 15

Slide 16

Slide 16 text

Method ▪ 左上/右下のキーポイントを検出し、クラスごとにキーポイントのペアを作成 ▪ Box Feature Mapから求めたキーポイントのペアごとにRoIAlign + CNNで物体かどう かの分類を行い、false positiveを除去する ▪ 残ったキーポイントのペアに対してRoIAlign+CNNでクラスラベルを求める 16

Slide 17

Slide 17 text

▪ COCO test-devで既存手法と比較 ▪ いずれのanchor-free手法よりも高性能かつ高速 Results 17

Slide 18

Slide 18 text

18 BorderDet: Border Feature for Dense Object Detection Link to paper

Slide 19

Slide 19 text

Summary ▪ 物体境界の特徴を抽出するモジュールを追加した2段階物体検出手法BorderDetを提案 19

Slide 20

Slide 20 text

Method ▪ 1段階目の予測グリッド点と予測バウンディングボックスの4辺にそれぞれ一定数の特 徴マップを割り当て ▪ 各辺に対応した特徴マップで、辺を均等に分割した点から特徴抽出しmax-pool ▪ これによりその辺上の物体境界に反応するようになる ▪ これらの特徴を合わせて2段階目の予測を実施 20

Slide 21

Slide 21 text

▪ MS COCO で評価を実施 ▪ 同じバックボーンの既存手法を上回る性能 ▪ 強いバックボーンでマルチスケールの学習・評価をした場合、 COCO AP 50.3 Results 21

Slide 22

Slide 22 text

22 Segmentation 03

Slide 23

Slide 23 text

Conditional Convolution for Instance Segmentation 23 Link to paper

Slide 24

Slide 24 text

Summary ▪ FCOSをone-stage instance segmentationに発展させた手法の提案 ▪ controllerで各インスタンスの特徴(相対位置、形状等)がエンコードされたmask head のパラメータを生成し、それを用いてマスクを出力 ▪ Mask R-CNNと比較して高速かつ高精度 24

Slide 25

Slide 25 text

▪ COCO test-devにおいてAverage Precisionを比較 ▪ 既存の手法と比較して優れた精度を示す ▪ semantic segmentationタスクを同時に解くことで1ポイント精度向上 Results 25

Slide 26

Slide 26 text

SOLO: Segmentation Objects by Locations 26 Link to paper

Slide 27

Slide 27 text

▪ single-shot instance segmentation手法の提案 ▪ FPNの出力の各feature mapをSxSにグリッド分割し、各グリットに対してクラスとマ スクの予測を行い、クラス予測で前景となったグリッドのマスクを出力 ▪ 既存のsingle-shot instance segmentationよりも優れた性能を示した Summary 27

Slide 28

Slide 28 text

Method ▪ FPNの各feature mapに対して、category branchではSxSにBilinear補間を行い、 グリッドごとにクラスを予測 ▪ mask branchではチャンネル方向に各グリッドに対応するマスク予測を行う ▪ mask branchの前にCoordConvを使用し、座標情報を考慮することでグリッドごとに 上手くマスクを振り分けることが可能 28

Slide 29

Slide 29 text

▪ データセットはCOCO test-devを使用 ▪ mask APは既存のone-stage手法よりも優れた性能を示した ▪ mask branchのS^2のチャンネル数は冗長なため、マスクの予測を縦横を分割して行う Decoupled headも提案 ▪ Decouple headを用いた手法(D-SOLO)の方が高精度かつ効率的 Results 29

Slide 30

Slide 30 text

SegFix: Model-Agnostic Boundary Refinement for Segmentation 30 Link to paper

Slide 31

Slide 31 text

Summary ▪ 不確実性の高い物体境界領域のセグメンテーション結果をrefineする手法の提案 ▪ 物体境界の予測結果をより確実性の高い物体中心の予測結果に置き換える ▪ 既存のセグメンテーションモデルに組み込むことで物体境界の検出精度向上を確認 31

Slide 32

Slide 32 text

Method ▪ boundary branchで物体境界を1, 物体内部を0としたbinary boundary mapを予測 ▪ direction branchでは物体中心の向きを上下左右+斜めのどこにあるかを8クラス分類 として解くことで求める ▪ 上記2つの予測結果の要素積により、物体境界が属する物体が求まる ▪ 推論時は、セグメンテーションモデルの予測を上記を用いて置き換える 32

Slide 33

Slide 33 text

▪ Cityscapes validation datasetで比較 ▪ 評価指標はboundary F1-score ▪ いずれの手法でもSegFixによって検出性能が向上 Results 33

Slide 34

Slide 34 text

34 Human Recognition 04

Slide 35

Slide 35 text

35 VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Environment Link to paper

Slide 36

Slide 36 text

Summary ▪ 複数カメラを用いた複数人物3Dポーズ推定の既存手法では、 各カメラからの2Dポーズ推定、cross view matching、三角測量を別個に行っていた ▪ 3次元空間を明示的に扱う統一的なアプローチを導入し、遮蔽に頑健なモデルを提案 36

Slide 37

Slide 37 text

Method ▪ 各カメラ画像に対する関節点毎のヒートマップ(HRNetで推定)を 3次元空間を離散化したfeature volumeに逆射影 ▪ 各voxelに人物が存在するか否かを3D CNNで推定 (GTは人物位置を中心とするガウス分布、L2ロスで学習) 37

Slide 38

Slide 38 text

Method ▪ 各proposalを中心とする空間的解像度の高いfeature volumeを構築 ▪ 3D CNNで特徴抽出し、出力の重心座標を各関節点の推定座標とする(L1ロスで学習) ▪ モデル全体をend-to-endに学習可能 38

Slide 39

Slide 39 text

▪ 2Dポーズ推定において非常に高い性能を確認 Results 39 HRNet(上段)および提案手法(下段)の2Dポーズ推定結果

Slide 40

Slide 40 text

▪ Panopticデータセットでのablation study結果 ▪ feature volumeの解像度、カメラ数、人工的なヒートマップを用いたモデルの学習、 異なるカメラを使用したときなどの性能を検証 Results 40 人工的なヒートマップでの学習 学習時と異なるカメラで評価

Slide 41

Slide 41 text

▪ CampusおよびShelfデータセットで最高精度を達成 Results 41

Slide 42

Slide 42 text

42 Motion Capture from Internet Videos Link to paper

Slide 43

Slide 43 text

Summary ▪ 単眼映像からのモーションキャプチャにおけるデプスの曖昧性と遮蔽を解決するため、 ネットから収集した同一種類の行動の動画を用いてマルチビュー化 ▪ 最適化に基づくアプローチにより、映像タイミングの不一致、カメラ視点が不明である こと、人物の動きが動画毎に少しずつ異なるといった問題に対処 43

Slide 44

Slide 44 text

Method ▪ 各映像で推定された3Dポーズの類似度を元に映像タイミングを一致させる ▪ 人物姿勢とカメラパラメータを復元(低ランク近似により映像毎の姿勢の違いを表現) ▪ 上記プロセスを交互に繰り返す 44

Slide 45

Slide 45 text

▪ 既存の単眼映像に対するモーションキャプチャ手法であるHMMRとの比較結果 ▪ 複数視点映像を使用するため奥行きに関する推定の頑健性が高い Results 45

Slide 46

Slide 46 text

▪ 複数映像を使用することでエラーが低下、またHMMRと比べ低いエラーを達成 ▪ 映像タイミングの一致、モーションキャプチャの交互最適化によりエラーが削減 Results 46

Slide 47

Slide 47 text

47 Video & Action Understanding 05

Slide 48

Slide 48 text

48 Directional Temporal Modeling for Action Recognition Link to paper

Slide 49

Slide 49 text

Summary ▪ 行動認識に対する3D CNN適用の問題点を指摘 ▪ 時系列的に局所的な受容野でしか有効性が確認されていない ▪ 時間方向へのglobal average poolingにより映像の順序に関する情報が失われる ▪ 上記問題を解決するためchannel independent directional convolution (CIDC)を提案 ▪ CIDCユニットの既存モデルへの導入による性能向上を4つのデータセットで確認 49 既存手法とは異なり背景領域にアクティベーションが出ない

Slide 50

Slide 50 text

Method channel dependent directional convolution (CIDC) ユニットを提案 ▪ カーネルサイズ1のgrouped convolutionによりチャネル毎に特徴マップを分割 ▪ 分割された特徴マップの時間方向をチャネルとみなして畳み込みを適用 ▪ このとき、各フィルタは特定の時刻より前の特徴マップのみを入力とするため フレームの順序関係を考慮した特徴抽出が可能 50

Slide 51

Slide 51 text

Method ▪ CIDCユニットをバックボーンの各ステージの出力に対して適用し、 複数解像度の特徴マップを徐々に統合(要素毎に和をとる) ▪ 後段ステージの反応の大きな箇所を重視するよう前段ステージの特徴マップに アテンションを適用 51

Slide 52

Slide 52 text

▪ 既存モデルのバックボーンにCIDCユニットを付加することによる性能向上を HMDB51、Kinetics-400、UCF101、Something-Something V2の 4つのデータセットで確認 Results 52 HMDB51およびUCF101データセットでの評価結果

Slide 53

Slide 53 text

▪ 複数解像度に対するCIDCユニットの適用およびアテションの有効性を確認 ▪ 時系列的に双方向なCIDCユニットの使用が効果的 Results 53

Slide 54

Slide 54 text

▪ 各手法のactivation mapの可視化結果 ▪ 長期的な情報を考慮できるため行動クラスに無関係な 短期的な物体や背景の動きに対する反応が出ない Results 54

Slide 55

Slide 55 text

55 Connecting Vision and Language with Localized Narratives Link to paper

Slide 56

Slide 56 text

▪ 言語と画像を結びつけるタスクとしてキャプショニングがあるが、 言語的な表現と画像上の位置の結びつけは困難であることが知られている ▪ この問題に対し新たなアノテーション方法としてLocalized Narrattivesを提案し、 COCO、Flickr30k、ADE20Kといった既存のデータセットにアノテーションを行い、 既存のアノテーションスタイルと比較し良い結果が得られることを確認 ▪ Googleの世界最大規模の公開データセットであるOpenImages V6の 一部としてデータを公開 Summary 56

Slide 57

Slide 57 text

▪ 従来のアノテーションは静止画を説明するセンテンスおよびbboxを付与するだけだが 提案手法は静止画を口頭で説明しながらマウスで位置を示す形でアノテーション ▪ これにより静止画でありながらアノテーションは時系列であり、且つ、 テキスト、音声、画像位置とマルチモーダルとなる Method 57

Slide 58

Slide 58 text

▪ 従来のアノテーションは静止画を説明するセンテンスおよびbboxを付与するだけだが 提案手法は静止画を口頭で説明しながらマウスで位置を示す形でアノテーション ▪ これにより静止画でありながらアノテーションは時系列であり、且つ、 テキスト、音声、画像位置とマルチモーダルとなる Method 58

Slide 59

Slide 59 text

▪ 従来のアノテーションは静止画を説明するセンテンスおよびbboxを付与するだけだが 提案手法は静止画を口頭で説明しながらマウスで位置を示す形でアノテーション ▪ これにより静止画でありながらアノテーションは時系列であり、且つ、 テキスト、音声、画像位置とマルチモーダルとなる Method 59

Slide 60

Slide 60 text

Results 60 ▪ 通常のキャプションとControlled image captioningの比較結果

Slide 61

Slide 61 text

▪ Controlled iamge captioningタスクでCOCOを使ったablation study ▪ 全ての指標で既存のアノテーションスタイルを上回る結果 Results 61

Slide 62

Slide 62 text

62 TCGM: An Information-Theoretic Framework for Semi-Supervised Multi-Modality Learning Link to paper

Slide 63

Slide 63 text

Summary 63 ▪ マルチモーダル学習により多くの情報を得られるが各モダリティにラベルを付けることは難しい これを緩和するため本論文では、半教師付きマルチモーダル学習のための 新しい情報理論的アプローチ(TCGM)を提案 ▪ ラベル付けされていないモダリティ間の情報を利用し、各モダリティの分類器の学習を容易にできる ▪ 具体的には、各モダリティの分類器でTotal Correlation Gainを最大化してsemi-supervised learningする ▪ ニュース分類、感情認識(IEMOCAP、MOSIデータセット)、疾患(アルツハイマー)予測等、 様々なタスクにおけるsemi-supervised learningでSoTA

Slide 64

Slide 64 text

▪ Total Correlation Gain Maximization ▪ 異なるmodalityでそれぞれclassifierを用意し、Cross Entropyで教師あり学習 ▪ 半教師で、異なるmodalityで同じdata pointの時、出力が一致する場合は報酬を与え、 一方、異なるmodalityで異なるdata pointの時、出力が一致する場合はペナルティを与える Method 64

Slide 65

Slide 65 text

Method 65 ▪ 異なるmodalityでそれぞれclassifierを用意 Cross Entropyで教師あり学習 ▪ 半教師で、異なるmodalityで同じdata pointの時、 モデル間の出力が一致する場合は報酬を与え、 一方、異なるmodalityで異なるdata pointの時、 モデル間の出力が一致する場合はペナルティ

Slide 66

Slide 66 text

▪ IEMOCAP, MOSIといった感情認識タスクでSoTA ▪ ラベル付けされたデータの割合が少ない場合も、多い場合も、良い性能 Results 66

Slide 67

Slide 67 text

▪ IEMOCAP, MOSIといった感情認識タスクでSoTA ▪ ラベル付けされたデータの割合が少ない場合も、多い場合も、良い性能 Results 67

Slide 68

Slide 68 text

▪ IEMOCAP, MOSIといった感情認識タスクでSoTA ▪ ラベル付けされたデータの割合が少ない場合も、多い場合も、良い性能 Results 68

Slide 69

Slide 69 text

69 MovieNet: A Holistic Dataset for Movie Understanding Link to paper

Slide 70

Slide 70 text

▪ 映画を理解するためのデータセットMovieNetを公開 ▪ 1,100本の映画、予告編、写真、プロット説明などのマルチモーダルデータが含まれている ▪ ラベルとしては、110万字のtextとbboxとidentity、42Kのscene、2.5Kの説明文、65Kの場所とアクション タグ、92Kのスタイルタグが付与されている ▪ タスクとしては、Action RecognitionのようなタスクからSegment Retrieval、ジャンル分類のようなタスク まで幅広く設定されている ▪ 類似発表でTVR: A Large-Scale Dataset for Video-Subtitle Moment Retrieval等もあり、活況な分野と言える Summary 70

Slide 71

Slide 71 text

71

Slide 72

Slide 72 text

72 Few-Shot Scene-Adaptive Anomaly Detection Link to paper

Slide 73

Slide 73 text

▪ 監視カメラにおける異常行動検知でfew-shotの正常系で未知シーンに適応的に学習 ▪ 異常行動検知では未知シーンに適応させる設定自体が新しく、より現実的な問題設定 Summary 73

Slide 74

Slide 74 text

▪ 異常検知は再構成誤差を使うものが多いが提案手法はr-GANと呼ぶ構成で 未来frameを予測し予測との乖離に基づき異常検知 ▪ 学習のスキームとして、Meta-TrainingでtrainデータのInner Updateとvalデータの Outer Updateを実施し、Meta-testingの初期値を探索 Method 74

Slide 75

Slide 75 text

▪ Shanghai TechまたはUCF crimeのどちらかでpre-trained, fine-tuned結果と比較す る形でUCSD Ped, CUHK Avenue, UR Fallで提案手法を評価(表はUCF Crimeのもの) ▪ Pre-trained, Fine-tunedと比べた時、 提案手法が5~30pt良い Results 75

Slide 76

Slide 76 text

76 Low-level Vision 06

Slide 77

Slide 77 text

77 RAFT: Recurrent All-Pairs Field Transforms for Optical Flow Link to paper Link to code

Slide 78

Slide 78 text

Summary ▪ 2枚の画像からoptical flowを推定するタスク ▪ CNNで算出したブロックごとの特徴の相関行列を利用 ▪ GRUで繰り返しoptical flowをアップデート ▪ 小物体の動きも推定可能 ▪ 既存手法から大幅に精度向上 78

Slide 79

Slide 79 text

Method ▪ CNNで2枚のフレームのそれぞれごとの特徴を獲得(W/8 * H/8) ▪ 2枚のフレーム特徴の全点同士について、相関行列を算出し、複数スケールでpooling ▪ 0初期化したoptical flowを、上の相関行列を元にGRUで繰り返し更新 ▪ CNNで抽出したフレーム1のコンテキスト情報も同時に利用 79

Slide 80

Slide 80 text

▪ GRUで算出したoptical flowはH/8 * W/8なのでconvex upscalingで拡大 ▪ 8近傍+自身の画素の重み付き和を補間値とし、各重みをCNNで算出(正の値) ▪ 損失はGRUのN回の出力結果とGTのoptical flowの重み付きL1 lossの合計 Method 80

Slide 81

Slide 81 text

▪ 評価はend-point error:推定値とGTとの全画素のユークリッド距離の平均 Results 81 S...Sintel / C...FlyingChairs / T...FlyingThing / K...KITTI / H...HD1K

Slide 82

Slide 82 text

Results:Ablation study 82

Slide 83

Slide 83 text

Results:Visual 83

Slide 84

Slide 84 text

Invertible Image Rescaling 84 Link to paper

Slide 85

Slide 85 text

Summary ▪ 情報損失を抑えつつ見た目の良い縮小/拡大ができるCNNの提案 ▪ 可逆変換を取り入れて超解像の不可能決定性を緩和 ▪ 既存の拡大モデルに比べてパラメータ数が減少 85

Slide 86

Slide 86 text

Method ▪ 高画質な入力画像をハール変換を用いて、ローパスされた画像・水平/垂直/斜め方向 の詳細係数(テクスチャ)を算出 ▪ 非線形な可逆変換を用いて低画質画像と高周波成分の情報を保存したzを出力 ▪ zと低画質画像から逆変換を用いて高画質画像を復元(学習時はランダムなzを使用) ▪ 3(+1)つの距離を用いて学習 ▪ 生成した低画質画像とバイキュービック縮小で生成した低画質画像の距離 ▪ 低画質画像から逆変換で戻した高画質画像と入力画像の距離(2種類) ▪ 入力画像の分布と、入力の縮小画像の分布&zの同時分布を逆変換で戻した際の分布間距離 86

Slide 87

Slide 87 text

Result ▪ 既存手法と提案手法の見た目の比較 87

Slide 88

Slide 88 text

Result ▪ 損失の比較実験 (guide=低画質同士の誤差, recon=高画質同士の誤差, distr=分布間距離) 低画質画像を厳密にバイキュービック補間に近付く必要はなく、高画質画像は正確に復 元したいため、それぞれL2 / L1が適切であると推測 ▪ 生成した低画質画像:左がバイキュービック / 右が提案手法 88

Slide 89

Slide 89 text

Exploiting Deep Generative Prior for Versatile Image Restoration and Manipulation 89 Link to paper

Slide 90

Slide 90 text

Summary ▪ Deep Image Priorの発展 ▪ 大量の自然画像で学習したGANのGeneratorモデルをpriorとして利用 ▪ 色、テクスチャ、高次の情報等をpriorとして獲得 90

Slide 91

Slide 91 text

▪ 画像Iを劣化させた画像I’を元に、生成器がI’に近い画像を出力できるようなzを探索 ▪ 同時に、よりI’に近づけるよう生成器のパラメータ自体も更新 ▪ 生成器のパラメータを固定すると、I’の再現に限界 ▪ 生成器のパラメータ更新は、入力に近い層から徐々に更新する層を拡大 ▪ 生成器のパラメータを更新する過程でpriorが欠落する現象の防止 ▪ 先にテクスチャを近づけようとして高次の情報が欠落すると推測 ▪ 探索するzの初期値z0 は100個の乱数値から最もI’に近しくなる値を選択 ▪ 識別器での特徴空間のL1 lossを損失として利用 ▪ MSEやperceptual lossだと画素レベルの低次元特徴を近づけようとして画像が壊れがち Method 91

Slide 92

Slide 92 text

Method 92 使用する損失関数での再現の比較 入力 初期値に よる再現 更新結果 初期値に よる再現 更新結果 入力 テクスチャは 似るが 林檎の色合い ではない ほぼ良いが 一部色が 合っていない 部分がある テクスチャも 林檎らしさも 守られている

Slide 93

Slide 93 text

Result ▪ 様々なタスクで応用可能 93

Slide 94

Slide 94 text

Result ▪ 既存手法との比較(colorization) ▪ 既存手法との比較(single image super-resolution) 94

Slide 95

Slide 95 text

Across Scales & Across Dimensions: Temporal Super-Resolution using Deep Internal Learning 95 Link to paper

Slide 96

Slide 96 text

Summary ▪ 高精度なフレーム補間学習をZero-shotで実現 ▪ カメラの時間方向のナイキスト周波数を超えて動く物体も捉えることが可能 ▪ フレームと空間方向の同時サンプリングによるデータの水増しと 軸回転によるデータの水増しを提案 96

Slide 97

Slide 97 text

Method ▪ 高速で動く物体をフレームレートの低いカメラで撮影すると大きなモーションブラー& 本来の動きと異なる動き(エイリアシング)が出ることが問題 ▪ 時間方向の超解像と捉えZSSRを参考に、自己教師型学習 ▪ 入力動画のフレームレートを落とし入力を復元しようとすると、よりフレームレートを落とす ことになりさらに見た目上のブラーとエイリアシングが拡大 ▪ 一方で画像サイズを縮小することで見かけ上のフレームレートが増加 97

Slide 98

Slide 98 text

Method ▪ xy-tの軸をtx-yやyt-xに入れ替えると元動画と似たようなモーションを持つ動画にな ることから、軸変換によるデータ拡張を提案 ▪ 徐々にフレームレートを上げていくスキーマを提案 98

Slide 99

Slide 99 text

Result ▪ 既存手法との補間結果の見た目の比較:モーションブラーが除去されている 99

Slide 100

Slide 100 text

Result ▪ 既存手法とのx8のフレーム補間でのPSNR/SSIM比較 モーションの激しい難しい動画でも高精度を維持 ▪ データの水増しに関する比較実験 軸変換による水増しの有用性を提示 100

Slide 101

Slide 101 text

Feature Representation Matters: End-to-End Learning for Reference-based Image Super-resolution 101 Link to paper

Slide 102

Slide 102 text

Summary ▪ 参照ベースの超解像 ▪ 参照画像が低画質画像がテクスチャレベルで近しい必要がある制約を除外 ▪ 低画質画像と参照画像のそれぞれの特徴空間でパッチレベルの近傍探索 ▪ シンプルな損失関数で既存手法を上回る精度 102

Slide 103

Slide 103 text

Method ▪ 入力の低画質画像 / 参照画像の低画質画像 / 参照画像をそれぞれエンコーダで各画素 ごとに特徴抽出 ▪ 入力の低画質画像特徴と参照画像の低画質画像特徴を、3x3のパッチレベルで 内積を取り類似度を比較 ▪ 最も近いパッチについて、高画質の参照画像から対応する部分の特徴を選択していき、 出力する高画質画像用の特徴を作成 103

Slide 104

Slide 104 text

Method ▪ 特徴抽出にはVGGのような分類タスク用のネットワークではなく、単一画像超解像用 のネットワークの中間出力を利用 ▪ 入力画像・入力画像の特徴・作成した高画質用の特徴を元に高画質画像を生成 104

Slide 105

Slide 105 text

Result ▪ 既存手法との比較:参照ベース手法のSOTAであるSRNTTと比較して精度向上 105

Slide 106

Slide 106 text

Result ▪ 参照画像と入力画像はアライメント不要 ▪ 同一物体・テクスチャが映っている成約も不要 106

Slide 107

Slide 107 text

107 What Matters in Unsupervised Optical Flow Link to paper

Slide 108

Slide 108 text

Summary ▪ 教師なしのオプティカルフロー予測モデルの学習で何が重要か綿密に調べた論文 ▪ 提案手法は既存の教師なし手法の性能を大きく上回り、かつ教師あり手法のFlowNet2 と同程度の性能を達成 108

Slide 109

Slide 109 text

Method ▪ PWC-Netをベースに実験 ▪ photometric loss、occlusionの扱い、smoothnessの正則化といったキー要素に対し て、どの手法が最適か実験 ▪ 各種の改良 ▪ cost volumeの正規化 ▪ occlusion mask部分での勾配伝播の停止 ▪ upsample前のsmoothnessを適用 ▪ cropとresizeを使った自己教師あり学習 ▪ etc. 109

Slide 110

Slide 110 text

▪ 既存の教師なし手法を大きく上回る性能 ▪ KITTI 2015で教師ありのFlowNet2と同程度の性能 Results 110

Slide 111

Slide 111 text

111 Unsupervised/Self-supervised Learning 07

Slide 112

Slide 112 text

112 Memory-augmented Dense Predictive Coding for Video Representation Learning Link to paper

Slide 113

Slide 113 text

▪ 行動認識におけるself-supervisedな表現学習 ▪ 未来のframeの動きを予測するには可能性を複数考慮する必要があるという 考え方のもとMemDPCを提案 Summary 113

Slide 114

Slide 114 text

Method 114 ▪ 特徴量レベルで未来のframeを予測し、contrastive lossを使って self-supervisedな学習を行う ▪ Compressive memory moduleを使うことで複数の未来を予測 ▪ predictive addressingメカニズムで外部メモリバンクにアクセス ▪ 外部メモリバンクは、学習中にデータセット全体で共有され、各メモリエントリが潜在的な仮 説として機能メモリエントリ上の確率分布を推測

Slide 115

Slide 115 text

▪ Oops datasetで評価を実施 ▪ Oops datasetは人間の意図しない行動(転倒など)を含むデータセット ▪ 圧倒的に少ない学習データでSoTAを達成 Results 115

Slide 116

Slide 116 text

116 SCAN: Learning to Classify Images without Labels Link to paper

Slide 117

Slide 117 text

Summary ▪ 画像の教師なし分類(クラスタリング)における既存手法の問題点を指摘 ▪ 表現学習 + K-means:クラスタの割り当てが不均衡になる ▪ end-to-endなアプローチ:ネットワークの初期値が学習の要となるため 低レベルな特徴への依存度が高い ▪ 表現学習とクラスタリングの学習からなるアプローチを提案し上記問題に対処 ▪ CIFAR10、CIFAR100-20、STL10で最高精度を達成するとともに、 ImageNetではいくつかの半教師あり学習手法を上回る性能を達成 117

Slide 118

Slide 118 text

Method Semantic Clustering by Adopting Nearest neighbors (SCAN) を提案 ▪ 表現学習: ▪ instance discrimination(SimCLRまたはMoCOを採用)によりモデルを学習 ▪ データ拡張前後の画像の特徴表現を明示的に近づけるようロスを付加 ▪ クラスタリングの学習: ▪ 表現学習で得られた重みを初期値とし、出力ベクトルの次元数を クラスタ数とみなしてモデルを学習 ▪ SCAN-loss:ある画像とそのk近傍画像の出力ベクトルの距離を近づけるとともに、 出力ベクトルのエントロピーを最大化するようロスを付加 → 類似画像のクラスタ割り当てに一貫性をもたせつつ、 データ全体のクラスタ割り当ての均衡をとる ▪ self-labeling:確信度の高いサンプルに擬似ラベルを付与してcross entropyロスを適用 ▪ 評価時はハンガリアン法でクラスタとデータセットのクラスの対応付けを行う 118

Slide 119

Slide 119 text

Results ▪ CIFAR10、CIFAR100-20、STL10で最高精度を達成 ▪ pretext + K-meansでも十分高い性能 → タスクの分割が有効 119

Slide 120

Slide 120 text

▪ ImageNetでは、ラベルを一切用いていないにもかかわらず いくつかの半教師あり学習手法の性能を凌駕(教師なしの比較手法はない) Results 120

Slide 121

Slide 121 text

▪ 意味的に適切なクラスタが抽出されている ▪ 分類に失敗した場合でも意味的に似たクラスへの混同が多いことを確認 Results 121 ImageNetから抽出されたクラスタ ImageNetの混同行列

Slide 122

Slide 122 text

122 Others 08

Slide 123

Slide 123 text

123 EagleEye: Fast Sub-net Evaluation for Efficient Neural Network Pruning Link to paper

Slide 124

Slide 124 text

Summary ▪ フィルタプルーニングの手法 ▪ adaptive BNを用いることで高速かつ精確にプルーニング後の精度を評価可能 ▪ CIFAR-10, ImageNetでのプルーニングで既存手法を上回る性能 124

Slide 125

Slide 125 text

Method ▪ ランダムに各層のプルーニング率を大量生成 ▪ それぞれL1ノルムでプルーニング ▪ BNのstatsを初期化 ▪ 学習データの一部を用いてそれぞれのBNのstatsを更新 (adaptive BN) ▪ 性能が最も良いものをfine-tune 125

Slide 126

Slide 126 text

▪ adaptive BNを用いた方が用いない場合よりfine-tune後の精度と相関が高い (左下図) ▪ ImageNetでResNet-50をプルーニングした場合の結果 (右下表) Results 126

Slide 127

Slide 127 text

127 Big Transfer (BiT): General Visual Representation Learning Link to paper

Slide 128

Slide 128 text

Summary ▪ 大規模データセットでの事前学習とそのモデルのfine-tuneについて調べた論文 128

Slide 129

Slide 129 text

Method ▪ ResNet152x4をILSVRC2012, ImageNet-21k, JFT-300Mでそれぞれ学習 ▪ それにより得られるモデルをそれぞれBiT-S, BiT-M, BiT-Lと呼ぶ ▪ BiT-Lの学習では512台のTPUv3を利用 ▪ BNの代わりにGN+WSを利用 ▪ その後、各種データセットでfine-tune ▪ データセットサイズと画像解像度に基づいてスケジュール、解像度、MixUpの利用有無を決定 ▪ 他のハイパラは固定 ▪ weight decayは利用しない 129

Slide 130

Slide 130 text

▪ BiT-Lのfine-tuneにより各種データセットでSOTA ▪ その他、データセットサイズ、モデルサイズ、スケジューリング等について調査 ▪ データセットサイズは基本大きい方がいいが、モデルサイズが小さ過ぎると劣化する場合あり ▪ データセットサイズが大きい場合は長く学習させた方が良い ▪ 一見サチって見えても学習率を下げずにより長く学習させることで最終性能が改善 ▪ ハイパラによっては学習初期は良さそうでも最終的に劣化する場合あり Results 130

Slide 131

Slide 131 text

131 COCO-FUNIT: Few-Shot Unsupervised Image Translation with a Content Conditioned Style Encoder Link to paper

Slide 132

Slide 132 text

Summary ▪ few-shotでのimage-to-image translationを、動物の全身画像のような姿勢バリエー ションが豊富な画像でも可能にする手法COCO-FUNITを提案 132

Slide 133

Slide 133 text

Method ▪ 既存手法FUNITをベースにstyle encoderをCOontent-COnditioned style encoder (COCO)に変更 ▪ 既存手法ではstyle encoderがスタイル画像のcontentの情報もエンコードしてしまっている のが問題であるとし、content画像で条件付けすることで、それが抑制されることを期待 133

Slide 134

Slide 134 text

▪ 姿勢変化の大きいデータセットで評価して、既存手法より良い性能を達成 Results 134