ECCV2020 papers

2020.10.02 加藤直樹北村博俊佐々木辰也中村遵介林
俊宏株式会社ディー・エヌ・エー＋株式会社 Mobility Technologies ECCV2020 論文紹介

About ECCV2020再録論文1,360本の中から、参加メンバーが特に注目度や有益性が高いと判断した24本の論文を解説します 2

3 Topics 01｜3D Geometry 02｜Object Detection 03｜Segmentation 04｜Human Recognition 05｜Video
& Action Understanding 06｜Low-level Vision 07｜Unsupervised/Self-supervised Learning 08｜Others

4 3D Geometry 01

5 NeRF: Representing Scenes as Neural Radiance Fields for View
Synthesis Link to paper

Summary ▪ スパースな複数視点画像を用いた学習により、ある物体やシーンを写した画像から新たな視点の画像を生成するneural radiance field (NeRF) を提案 ▪ カメラ光線に基づいた生成と種々の工夫により、
視点の変化に対して連続的かつ精細な生成を実現 6

Method ▪ 空間上のある点がある視線方向に放つ色および密度（物体の存在）をMLPで推定 ▪ 色は座標と視線方向に依存し、密度は座標のみに依存するようそれぞれの入出力層を調整 ▪ カメラ光線がもたらす色をvolume renderingにより計算 ▪ 光線上の色と密度の組を用いた積分処理により画素色が得られる
（物体の存在により後の光線が遮られることを考慮した定式化） ▪ 実際には光線を一様に離散化した点群を用いた総和演算で上記計算を近似 ▪ レンダリングされた画素色と実際の色に対する二乗誤差でモデルを学習 7 ネットワーク構造 neural radiance fieldによるシーン表現

Method ▪ positional encoding： ▪ NNは高周波な関数を近似し難いため、入力に対して直接モデルを適用すると座標と向きの変化に対する色と密度の高周波な変化を表現できない ▪ そこで、入力座標と視線方向を下式により高次元ベクトルにエンコードしてモデルに入力 ▪
hierarchical sampling： ▪ 物体の存在しない空間や遮蔽された領域はレンダリング結果に影響しないため、光線上に沿った一様な点群を用いてレンダリングするのは非効率 ▪ そこで、一様な点群から大まかな推定をするcoarse networkと、それにより計算されたレンダリング結果に対する影響度の高い点を重点的にサンプリングする fine networkを併用して最終的なレンダリングを実施 8

最終的なモデルは光の反射を考慮した精細な生成が可能 ▪ 視点方向を入力しないと、光の反射を表現できない ▪ positional encodingをしないと、高周波な生成ができない（細部がぼやける） Results 9

▪ 人工画像、実画像データセットの双方で既存手法を凌駕する性能を達成 Results 10 ▪ ablation study結果

▪ 結果例（プロジェクトページの動画が分かりやすい） ▪ 精細かつ視点変化に対してなめらかな生成が可能 ▪ 向きによる見え方の違い（光の反射など）をリアルに再現 Results 11

▪ 後継研究もすでに存在（ワークショップ Deep Internal Learning: Training with no prior
examples より） Results 12

13 Object Detection 02

14 Corner Proposal Network for Anchor-free, Two- stage Object Detection
Link to paper

Summary ▪ anchor-freeの物体検出モデルはanchor-basedの物体検出モデルと比較して、recallが高い反面、物体が密接している場合はキーポイントの対応が正しく取れないため、 false positiveが増加するケースが多い ▪ 本論文では、anchor-freeの物体検出モデルをキーポイントの検出/クラス分類に分けたCPN(Corner Proposal
Network)を提案 ▪ 既存のanchor-freeモデルと比較してprecision, recall共に向上 15

Method ▪ 左上/右下のキーポイントを検出し、クラスごとにキーポイントのペアを作成 ▪ Box Feature Mapから求めたキーポイントのペアごとにRoIAlign + CNNで物体かどうかの分類を行い、false
positiveを除去する ▪ 残ったキーポイントのペアに対してRoIAlign+CNNでクラスラベルを求める 16

▪ COCO test-devで既存手法と比較 ▪ いずれのanchor-free手法よりも高性能かつ高速 Results 17

18 BorderDet: Border Feature for Dense Object Detection Link to
paper

Summary ▪ 物体境界の特徴を抽出するモジュールを追加した2段階物体検出手法BorderDetを提案 19

Method ▪ 1段階目の予測グリッド点と予測バウンディングボックスの4辺にそれぞれ一定数の特徴マップを割り当て ▪ 各辺に対応した特徴マップで、辺を均等に分割した点から特徴抽出しmax-pool ▪ これによりその辺上の物体境界に反応するようになる ▪ これらの特徴を合わせて2段階目の予測を実施
20

▪ MS COCO で評価を実施 ▪ 同じバックボーンの既存手法を上回る性能 ▪ 強いバックボーンでマルチスケールの学習・評価をした場合、 COCO AP
50.3 Results 21

22 Segmentation 03

Conditional Convolution for Instance Segmentation 23 Link to paper

Summary ▪ FCOSをone-stage instance segmentationに発展させた手法の提案 ▪ controllerで各インスタンスの特徴(相対位置、形状等)がエンコードされたmask head のパラメータを生成し、それを用いてマスクを出力 ▪
Mask R-CNNと比較して高速かつ高精度 24

▪ COCO test-devにおいてAverage Precisionを比較 ▪ 既存の手法と比較して優れた精度を示す ▪ semantic segmentationタスクを同時に解くことで1ポイント精度向上 Results
25

SOLO: Segmentation Objects by Locations 26 Link to paper

▪ single-shot instance segmentation手法の提案 ▪ FPNの出力の各feature mapをSxSにグリッド分割し、各グリットに対してクラスとマスクの予測を行い、クラス予測で前景となったグリッドのマスクを出力 ▪ 既存のsingle-shot
instance segmentationよりも優れた性能を示した Summary 27

Method ▪ FPNの各feature mapに対して、category branchではSxSにBilinear補間を行い、グリッドごとにクラスを予測 ▪ mask branchではチャンネル方向に各グリッドに対応するマスク予測を行う ▪
mask branchの前にCoordConvを使用し、座標情報を考慮することでグリッドごとに上手くマスクを振り分けることが可能 28

▪ データセットはCOCO test-devを使用 ▪ mask APは既存のone-stage手法よりも優れた性能を示した ▪ mask branchのS^2のチャンネル数は冗長なため、マスクの予測を縦横を分割して行う Decoupled
headも提案 ▪ Decouple headを用いた手法(D-SOLO)の方が高精度かつ効率的 Results 29

SegFix: Model-Agnostic Boundary Refinement for Segmentation 30 Link to paper

Summary ▪ 不確実性の高い物体境界領域のセグメンテーション結果をrefineする手法の提案 ▪ 物体境界の予測結果をより確実性の高い物体中心の予測結果に置き換える ▪ 既存のセグメンテーションモデルに組み込むことで物体境界の検出精度向上を確認 31

Method ▪ boundary branchで物体境界を1, 物体内部を0としたbinary boundary mapを予測 ▪ direction branchでは物体中心の向きを上下左右+斜めのどこにあるかを８クラス分類
として解くことで求める ▪ 上記２つの予測結果の要素積により、物体境界が属する物体が求まる ▪ 推論時は、セグメンテーションモデルの予測を上記を用いて置き換える 32

▪ Cityscapes validation datasetで比較 ▪ 評価指標はboundary F1-score ▪ いずれの手法でもSegFixによって検出性能が向上 Results
33

34 Human Recognition 04

35 VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild
Environment Link to paper

Summary ▪ 複数カメラを用いた複数人物3Dポーズ推定の既存手法では、各カメラからの2Dポーズ推定、cross view matching、三角測量を別個に行っていた ▪ 3次元空間を明示的に扱う統一的なアプローチを導入し、遮蔽に頑健なモデルを提案 36

Method ▪ 各カメラ画像に対する関節点毎のヒートマップ（HRNetで推定）を 3次元空間を離散化したfeature volumeに逆射影 ▪ 各voxelに人物が存在するか否かを3D CNNで推定（GTは人物位置を中心とするガウス分布、L2ロスで学習） 37

Method ▪ 各proposalを中心とする空間的解像度の高いfeature volumeを構築 ▪ 3D CNNで特徴抽出し、出力の重心座標を各関節点の推定座標とする（L1ロスで学習） ▪ モデル全体をend-to-endに学習可能 38

▪ 2Dポーズ推定において非常に高い性能を確認 Results 39 HRNet（上段）および提案手法（下段）の2Dポーズ推定結果

▪ Panopticデータセットでのablation study結果 ▪ feature volumeの解像度、カメラ数、人工的なヒートマップを用いたモデルの学習、異なるカメラを使用したときなどの性能を検証 Results 40 人工的なヒートマップでの学習
学習時と異なるカメラで評価

▪ CampusおよびShelfデータセットで最高精度を達成 Results 41

42 Motion Capture from Internet Videos Link to paper

Summary ▪ 単眼映像からのモーションキャプチャにおけるデプスの曖昧性と遮蔽を解決するため、ネットから収集した同一種類の行動の動画を用いてマルチビュー化 ▪ 最適化に基づくアプローチにより、映像タイミングの不一致、カメラ視点が不明であること、人物の動きが動画毎に少しずつ異なるといった問題に対処 43

Method ▪ 各映像で推定された3Dポーズの類似度を元に映像タイミングを一致させる ▪ 人物姿勢とカメラパラメータを復元（低ランク近似により映像毎の姿勢の違いを表現） ▪ 上記プロセスを交互に繰り返す 44

▪ 既存の単眼映像に対するモーションキャプチャ手法であるHMMRとの比較結果 ▪ 複数視点映像を使用するため奥行きに関する推定の頑健性が高い Results 45

▪ 複数映像を使用することでエラーが低下、またHMMRと比べ低いエラーを達成 ▪ 映像タイミングの一致、モーションキャプチャの交互最適化によりエラーが削減 Results 46

47 Video & Action Understanding 05

48 Directional Temporal Modeling for Action Recognition Link to paper

Summary ▪ 行動認識に対する3D CNN適用の問題点を指摘 ▪ 時系列的に局所的な受容野でしか有効性が確認されていない ▪ 時間方向へのglobal average poolingにより映像の順序に関する情報が失われる
▪ 上記問題を解決するためchannel independent directional convolution (CIDC)を提案 ▪ CIDCユニットの既存モデルへの導入による性能向上を4つのデータセットで確認 49 既存手法とは異なり背景領域にアクティベーションが出ない

Method channel dependent directional convolution (CIDC) ユニットを提案 ▪ カーネルサイズ1のgrouped convolutionによりチャネル毎に特徴マップを分割
▪ 分割された特徴マップの時間方向をチャネルとみなして畳み込みを適用 ▪ このとき、各フィルタは特定の時刻より前の特徴マップのみを入力とするためフレームの順序関係を考慮した特徴抽出が可能 50

Method ▪ CIDCユニットをバックボーンの各ステージの出力に対して適用し、複数解像度の特徴マップを徐々に統合（要素毎に和をとる） ▪ 後段ステージの反応の大きな箇所を重視するよう前段ステージの特徴マップにアテンションを適用 51

▪ 既存モデルのバックボーンにCIDCユニットを付加することによる性能向上を HMDB51、Kinetics-400、UCF101、Something-Something V2の 4つのデータセットで確認 Results 52 HMDB51およびUCF101データセットでの評価結果

▪ 複数解像度に対するCIDCユニットの適用およびアテションの有効性を確認 ▪ 時系列的に双方向なCIDCユニットの使用が効果的 Results 53

▪ 各手法のactivation mapの可視化結果 ▪ 長期的な情報を考慮できるため行動クラスに無関係な短期的な物体や背景の動きに対する反応が出ない Results 54

55 Connecting Vision and Language with Localized Narratives Link to
paper

▪ 言語と画像を結びつけるタスクとしてキャプショニングがあるが、言語的な表現と画像上の位置の結びつけは困難であることが知られている ▪ この問題に対し新たなアノテーション方法としてLocalized Narrattivesを提案し、 COCO、Flickr30k、ADE20Kといった既存のデータセットにアノテーションを行い、既存のアノテーションスタイルと比較し良い結果が得られることを確認 ▪ Googleの世界最大規模の公開データセットであるOpenImages
V6の一部としてデータを公開 Summary 56

▪ 従来のアノテーションは静止画を説明するセンテンスおよびbboxを付与するだけだが提案手法は静止画を口頭で説明しながらマウスで位置を示す形でアノテーション ▪ これにより静止画でありながらアノテーションは時系列であり、且つ、テキスト、音声、画像位置とマルチモーダルとなる Method 57

Results 60 ▪ 通常のキャプションとControlled image captioningの比較結果

▪ Controlled iamge captioningタスクでCOCOを使ったablation study ▪ 全ての指標で既存のアノテーションスタイルを上回る結果 Results 61

62 TCGM: An Information-Theoretic Framework for Semi-Supervised Multi-Modality Learning Link
to paper

Summary 63 ▪ マルチモーダル学習により多くの情報を得られるが各モダリティにラベルを付けることは難しいこれを緩和するため本論文では、半教師付きマルチモーダル学習のための新しい情報理論的アプローチ(TCGM)を提案 ▪ ラベル付けされていないモダリティ間の情報を利用し、各モダリティの分類器の学習を容易にできる ▪ 具体的には、各モダリティの分類器でTotal
Correlation Gainを最大化してsemi-supervised learningする ▪ ニュース分類、感情認識（IEMOCAP、MOSIデータセット）、疾患（アルツハイマー）予測等、様々なタスクにおけるsemi-supervised learningでSoTA

▪ Total Correlation Gain Maximization ▪ 異なるmodalityでそれぞれclassifierを用意し、Cross Entropyで教師あり学習 ▪ 半教師で、異なるmodalityで同じdata
pointの時、出力が一致する場合は報酬を与え、一方、異なるmodalityで異なるdata pointの時、出力が一致する場合はペナルティを与える Method 64

Method 65 ▪ 異なるmodalityでそれぞれclassifierを用意 Cross Entropyで教師あり学習 ▪ 半教師で、異なるmodalityで同じdata pointの時、モデル間の出力が一致する場合は報酬を与え、
一方、異なるmodalityで異なるdata pointの時、モデル間の出力が一致する場合はペナルティ

▪ IEMOCAP, MOSIといった感情認識タスクでSoTA ▪ ラベル付けされたデータの割合が少ない場合も、多い場合も、良い性能 Results 66

69 MovieNet: A Holistic Dataset for Movie Understanding Link to
paper

▪ 映画を理解するためのデータセットMovieNetを公開 ▪ 1,100本の映画、予告編、写真、プロット説明などのマルチモーダルデータが含まれている ▪ ラベルとしては、110万字のtextとbboxとidentity、42Kのscene、2.5Kの説明文、65Kの場所とアクションタグ、92Kのスタイルタグが付与されている ▪ タスクとしては、Action RecognitionのようなタスクからSegment
Retrieval、ジャンル分類のようなタスクまで幅広く設定されている ▪ 類似発表でTVR: A Large-Scale Dataset for Video-Subtitle Moment Retrieval等もあり、活況な分野と言える Summary 70

72 Few-Shot Scene-Adaptive Anomaly Detection Link to paper

▪ 監視カメラにおける異常行動検知でfew-shotの正常系で未知シーンに適応的に学習 ▪ 異常行動検知では未知シーンに適応させる設定自体が新しく、より現実的な問題設定 Summary 73

▪ 異常検知は再構成誤差を使うものが多いが提案手法はr-GANと呼ぶ構成で未来frameを予測し予測との乖離に基づき異常検知 ▪ 学習のスキームとして、Meta-TrainingでtrainデータのInner Updateとvalデータの Outer Updateを実施し、Meta-testingの初期値を探索 Method 74

▪ Shanghai TechまたはUCF crimeのどちらかでpre-trained, fine-tuned結果と比較する形でUCSD Ped, CUHK Avenue, UR
Fallで提案手法を評価（表はUCF Crimeのもの） ▪ Pre-trained, Fine-tunedと比べた時、提案手法が5~30pt良い Results 75

76 Low-level Vision 06

77 RAFT: Recurrent All-Pairs Field Transforms for Optical Flow Link
to paper Link to code

Summary ▪ 2枚の画像からoptical flowを推定するタスク ▪ CNNで算出したブロックごとの特徴の相関行列を利用 ▪ GRUで繰り返しoptical flowをアップデート ▪
小物体の動きも推定可能 ▪ 既存手法から大幅に精度向上 78

Method ▪ CNNで2枚のフレームのそれぞれごとの特徴を獲得（W/8 * H/8） ▪ 2枚のフレーム特徴の全点同士について、相関行列を算出し、複数スケールでpooling ▪ 0初期化したoptical flowを、上の相関行列を元にGRUで繰り返し更新
▪ CNNで抽出したフレーム1のコンテキスト情報も同時に利用 79

▪ GRUで算出したoptical flowはH/8 * W/8なのでconvex upscalingで拡大 ▪ 8近傍+自身の画素の重み付き和を補間値とし、各重みをCNNで算出（正の値） ▪ 損失はGRUのN回の出力結果とGTのoptical
flowの重み付きL1 lossの合計 Method 80

▪ 評価はend-point error：推定値とGTとの全画素のユークリッド距離の平均 Results 81 S...Sintel / C...FlyingChairs / T...FlyingThing
/ K...KITTI / H...HD1K

Results：Ablation study 82

Results：Visual 83

Invertible Image Rescaling 84 Link to paper

Summary ▪ 情報損失を抑えつつ見た目の良い縮小/拡大ができるCNNの提案 ▪ 可逆変換を取り入れて超解像の不可能決定性を緩和 ▪ 既存の拡大モデルに比べてパラメータ数が減少 85

Method ▪ 高画質な入力画像をハール変換を用いて、ローパスされた画像・水平/垂直/斜め方向の詳細係数（テクスチャ）を算出 ▪ 非線形な可逆変換を用いて低画質画像と高周波成分の情報を保存したzを出力 ▪ zと低画質画像から逆変換を用いて高画質画像を復元（学習時はランダムなzを使用） ▪ 3（+1）つの距離を用いて学習
▪ 生成した低画質画像とバイキュービック縮小で生成した低画質画像の距離 ▪ 低画質画像から逆変換で戻した高画質画像と入力画像の距離（2種類） ▪ 入力画像の分布と、入力の縮小画像の分布&zの同時分布を逆変換で戻した際の分布間距離 86

Result ▪ 既存手法と提案手法の見た目の比較 87

Result ▪ 損失の比較実験（guide=低画質同士の誤差, recon=高画質同士の誤差, distr=分布間距離）低画質画像を厳密にバイキュービック補間に近付く必要はなく、高画質画像は正確に復元したいため、それぞれL2 / L1が適切であると推測
▪ 生成した低画質画像：左がバイキュービック / 右が提案手法 88

Exploiting Deep Generative Prior for Versatile Image Restoration and Manipulation
89 Link to paper

Summary ▪ Deep Image Priorの発展 ▪ 大量の自然画像で学習したGANのGeneratorモデルをpriorとして利用 ▪ 色、テクスチャ、高次の情報等をpriorとして獲得 90

▪ 画像Iを劣化させた画像I’を元に、生成器がI’に近い画像を出力できるようなzを探索 ▪ 同時に、よりI’に近づけるよう生成器のパラメータ自体も更新 ▪ 生成器のパラメータを固定すると、I’の再現に限界 ▪ 生成器のパラメータ更新は、入力に近い層から徐々に更新する層を拡大 ▪ 生成器のパラメータを更新する過程でpriorが欠落する現象の防止
▪ 先にテクスチャを近づけようとして高次の情報が欠落すると推測 ▪ 探索するzの初期値z0 は100個の乱数値から最もI’に近しくなる値を選択 ▪ 識別器での特徴空間のL1 lossを損失として利用 ▪ MSEやperceptual lossだと画素レベルの低次元特徴を近づけようとして画像が壊れがち Method 91

Method 92 使用する損失関数での再現の比較入力初期値による再現更新結果初期値による再現更新結果
入力テクスチャは似るが林檎の色合いではないほぼ良いが一部色が合っていない部分があるテクスチャも林檎らしさも守られている

Result ▪ 様々なタスクで応用可能 93

Result ▪ 既存手法との比較（colorization） ▪ 既存手法との比較（single image super-resolution） 94

Across Scales & Across Dimensions: Temporal Super-Resolution using Deep Internal
Learning 95 Link to paper

Summary ▪ 高精度なフレーム補間学習をZero-shotで実現 ▪ カメラの時間方向のナイキスト周波数を超えて動く物体も捉えることが可能 ▪ フレームと空間方向の同時サンプリングによるデータの水増しと軸回転によるデータの水増しを提案 96

Method ▪ 高速で動く物体をフレームレートの低いカメラで撮影すると大きなモーションブラー& 本来の動きと異なる動き（エイリアシング）が出ることが問題 ▪ 時間方向の超解像と捉えZSSRを参考に、自己教師型学習 ▪ 入力動画のフレームレートを落とし入力を復元しようとすると、よりフレームレートを落とすことになりさらに見た目上のブラーとエイリアシングが拡大 ▪
一方で画像サイズを縮小することで見かけ上のフレームレートが増加 97

Method ▪ xy-tの軸をtx-yやyt-xに入れ替えると元動画と似たようなモーションを持つ動画になることから、軸変換によるデータ拡張を提案 ▪ 徐々にフレームレートを上げていくスキーマを提案 98

Result ▪ 既存手法との補間結果の見た目の比較：モーションブラーが除去されている 99

Result ▪ 既存手法とのx8のフレーム補間でのPSNR/SSIM比較モーションの激しい難しい動画でも高精度を維持 ▪ データの水増しに関する比較実験軸変換による水増しの有用性を提示 100

Feature Representation Matters: End-to-End Learning for Reference-based Image Super-resolution 101
Link to paper

Summary ▪ 参照ベースの超解像 ▪ 参照画像が低画質画像がテクスチャレベルで近しい必要がある制約を除外 ▪ 低画質画像と参照画像のそれぞれの特徴空間でパッチレベルの近傍探索 ▪ シンプルな損失関数で既存手法を上回る精度 102

Method ▪ 入力の低画質画像 / 参照画像の低画質画像 / 参照画像をそれぞれエンコーダで各画素ごとに特徴抽出 ▪ 入力の低画質画像特徴と参照画像の低画質画像特徴を、3x3のパッチレベルで
内積を取り類似度を比較 ▪ 最も近いパッチについて、高画質の参照画像から対応する部分の特徴を選択していき、出力する高画質画像用の特徴を作成 103

Method ▪ 特徴抽出にはVGGのような分類タスク用のネットワークではなく、単一画像超解像用のネットワークの中間出力を利用 ▪ 入力画像・入力画像の特徴・作成した高画質用の特徴を元に高画質画像を生成 104

Result ▪ 既存手法との比較：参照ベース手法のSOTAであるSRNTTと比較して精度向上 105

Result ▪ 参照画像と入力画像はアライメント不要 ▪ 同一物体・テクスチャが映っている成約も不要 106

107 What Matters in Unsupervised Optical Flow Link to paper

Summary ▪ 教師なしのオプティカルフロー予測モデルの学習で何が重要か綿密に調べた論文 ▪ 提案手法は既存の教師なし手法の性能を大きく上回り、かつ教師あり手法のFlowNet2 と同程度の性能を達成 108

Method ▪ PWC-Netをベースに実験 ▪ photometric loss、occlusionの扱い、smoothnessの正則化といったキー要素に対して、どの手法が最適か実験 ▪ 各種の改良 ▪
cost volumeの正規化 ▪ occlusion mask部分での勾配伝播の停止 ▪ upsample前のsmoothnessを適用 ▪ cropとresizeを使った自己教師あり学習 ▪ etc. 109

▪ 既存の教師なし手法を大きく上回る性能 ▪ KITTI 2015で教師ありのFlowNet2と同程度の性能 Results 110

111 Unsupervised/Self-supervised Learning 07

112 Memory-augmented Dense Predictive Coding for Video Representation Learning Link
to paper

▪ 行動認識におけるself-supervisedな表現学習 ▪ 未来のframeの動きを予測するには可能性を複数考慮する必要があるという考え方のもとMemDPCを提案 Summary 113

Method 114 ▪ 特徴量レベルで未来のframeを予測し、contrastive lossを使って self-supervisedな学習を行う ▪ Compressive memory moduleを使うことで複数の未来を予測
▪ predictive addressingメカニズムで外部メモリバンクにアクセス ▪ 外部メモリバンクは、学習中にデータセット全体で共有され、各メモリエントリが潜在的な仮説として機能メモリエントリ上の確率分布を推測

▪ Oops datasetで評価を実施 ▪ Oops datasetは人間の意図しない行動(転倒など)を含むデータセット ▪ 圧倒的に少ない学習データでSoTAを達成 Results 115

116 SCAN: Learning to Classify Images without Labels Link to
paper

Summary ▪ 画像の教師なし分類（クラスタリング）における既存手法の問題点を指摘 ▪ 表現学習 + K-means：クラスタの割り当てが不均衡になる ▪ end-to-endなアプローチ：ネットワークの初期値が学習の要となるため低レベルな特徴への依存度が高い
▪ 表現学習とクラスタリングの学習からなるアプローチを提案し上記問題に対処 ▪ CIFAR10、CIFAR100-20、STL10で最高精度を達成するとともに、 ImageNetではいくつかの半教師あり学習手法を上回る性能を達成 117

Method Semantic Clustering by Adopting Nearest neighbors (SCAN) を提案 ▪
表現学習： ▪ instance discrimination（SimCLRまたはMoCOを採用）によりモデルを学習 ▪ データ拡張前後の画像の特徴表現を明示的に近づけるようロスを付加 ▪ クラスタリングの学習： ▪ 表現学習で得られた重みを初期値とし、出力ベクトルの次元数をクラスタ数とみなしてモデルを学習 ▪ SCAN-loss：ある画像とそのk近傍画像の出力ベクトルの距離を近づけるとともに、出力ベクトルのエントロピーを最大化するようロスを付加 → 類似画像のクラスタ割り当てに一貫性をもたせつつ、データ全体のクラスタ割り当ての均衡をとる ▪ self-labeling：確信度の高いサンプルに擬似ラベルを付与してcross entropyロスを適用 ▪ 評価時はハンガリアン法でクラスタとデータセットのクラスの対応付けを行う 118

Results ▪ CIFAR10、CIFAR100-20、STL10で最高精度を達成 ▪ pretext + K-meansでも十分高い性能 → タスクの分割が有効 119

▪ ImageNetでは、ラベルを一切用いていないにもかかわらずいくつかの半教師あり学習手法の性能を凌駕（教師なしの比較手法はない） Results 120

▪ 意味的に適切なクラスタが抽出されている ▪ 分類に失敗した場合でも意味的に似たクラスへの混同が多いことを確認 Results 121 ImageNetから抽出されたクラスタ ImageNetの混同行列

122 Others 08

123 EagleEye: Fast Sub-net Evaluation for Efficient Neural Network Pruning
Link to paper

Summary ▪ フィルタプルーニングの手法 ▪ adaptive BNを用いることで高速かつ精確にプルーニング後の精度を評価可能 ▪ CIFAR-10, ImageNetでのプルーニングで既存手法を上回る性能 124

Method ▪ ランダムに各層のプルーニング率を大量生成 ▪ それぞれL1ノルムでプルーニング ▪ BNのstatsを初期化 ▪ 学習データの一部を用いてそれぞれのBNのstatsを更新 (adaptive
BN) ▪ 性能が最も良いものをfine-tune 125

▪ adaptive BNを用いた方が用いない場合よりfine-tune後の精度と相関が高い (左下図) ▪ ImageNetでResNet-50をプルーニングした場合の結果 (右下表) Results 126

127 Big Transfer (BiT): General Visual Representation Learning Link to
paper

Summary ▪ 大規模データセットでの事前学習とそのモデルのfine-tuneについて調べた論文 128

Method ▪ ResNet152x4をILSVRC2012, ImageNet-21k, JFT-300Mでそれぞれ学習 ▪ それにより得られるモデルをそれぞれBiT-S, BiT-M, BiT-Lと呼ぶ ▪
BiT-Lの学習では512台のTPUv3を利用 ▪ BNの代わりにGN+WSを利用 ▪ その後、各種データセットでfine-tune ▪ データセットサイズと画像解像度に基づいてスケジュール、解像度、MixUpの利用有無を決定 ▪ 他のハイパラは固定 ▪ weight decayは利用しない 129

▪ BiT-Lのfine-tuneにより各種データセットでSOTA ▪ その他、データセットサイズ、モデルサイズ、スケジューリング等について調査 ▪ データセットサイズは基本大きい方がいいが、モデルサイズが小さ過ぎると劣化する場合あり ▪ データセットサイズが大きい場合は長く学習させた方が良い ▪ 一見サチって見えても学習率を下げずにより長く学習させることで最終性能が改善
▪ ハイパラによっては学習初期は良さそうでも最終的に劣化する場合あり Results 130

131 COCO-FUNIT: Few-Shot Unsupervised Image Translation with a Content Conditioned
Style Encoder Link to paper

Summary ▪ few-shotでのimage-to-image translationを、動物の全身画像のような姿勢バリエーションが豊富な画像でも可能にする手法COCO-FUNITを提案 132

Method ▪ 既存手法FUNITをベースにstyle encoderをCOontent-COnditioned style encoder (COCO)に変更 ▪ 既存手法ではstyle encoderがスタイル画像のcontentの情報もエンコードしてしまっている
のが問題であるとし、content画像で条件付けすることで、それが抑制されることを期待 133

▪ 姿勢変化の大きいデータセットで評価して、既存手法より良い性能を達成 Results 134

ECCV2020 papers

ECCV2020 papers

More Decks by GO Inc. AI Tech

Other Decks in Research

Featured

Transcript