Pro Yearly is on sale from $80 to $50! »

ECCV2020 papers

362e55239a0463356377118628470d15?s=47 MoT AI Tech
October 02, 2020

ECCV2020 papers

2020年8月23日から28日にかけてオンラインで開催された、コンピュータビジョン分野で世界最大規模の国際会議であるECCV2020に、DeNAとMoTの研究開発エンジニア5名(加藤直樹、北村博俊、佐々木辰也、中村遵介、林俊宏)が参加しました。
本資料では、再録論文1,360本の中から特に注目度や有益性が高いとメンバーが判断した論文24本を解説しています。

362e55239a0463356377118628470d15?s=128

MoT AI Tech

October 02, 2020
Tweet

Transcript

  1. 2020.10.02 加藤 直樹 北村 博俊 佐々木 辰也 中村 遵介 林

    俊宏 株式会社ディー・エヌ・エー + 株式会社 Mobility Technologies ECCV2020 論文紹介
  2. About ECCV2020再録論文1,360本の中から、参加メンバーが特に注目度や有益性が高いと 判断した24本の論文を解説します 2

  3. 3 Topics 01|3D Geometry 02|Object Detection 03|Segmentation 04|Human Recognition 05|Video

    & Action Understanding 06|Low-level Vision 07|Unsupervised/Self-supervised Learning 08|Others
  4. 4 3D Geometry 01

  5. 5 NeRF: Representing Scenes as Neural Radiance Fields for View

    Synthesis Link to paper
  6. Summary ▪ スパースな複数視点画像を用いた学習により、ある物体やシーンを写した画像から 新たな視点の画像を生成するneural radiance field (NeRF) を提案 ▪ カメラ光線に基づいた生成と種々の工夫により、

    視点の変化に対して連続的かつ精細な生成を実現 6
  7. Method ▪ 空間上のある点がある視線方向に放つ色および密度(物体の存在)をMLPで推定 ▪ 色は座標と視線方向に依存し、密度は座標のみに依存するようそれぞれの入出力層を調整 ▪ カメラ光線がもたらす色をvolume renderingにより計算 ▪ 光線上の色と密度の組を用いた積分処理により画素色が得られる

    (物体の存在により後の光線が遮られることを考慮した定式化) ▪ 実際には光線を一様に離散化した点群を用いた総和演算で上記計算を近似 ▪ レンダリングされた画素色と実際の色に対する二乗誤差でモデルを学習 7 ネットワーク構造 neural radiance fieldによるシーン表現
  8. Method ▪ positional encoding: ▪ NNは高周波な関数を近似し難いため、入力に対して直接モデルを適用すると 座標と向きの変化に対する色と密度の高周波な変化を表現できない ▪ そこで、入力座標と視線方向を下式により高次元ベクトルにエンコードしてモデルに入力 ▪

    hierarchical sampling: ▪ 物体の存在しない空間や遮蔽された領域はレンダリング結果に影響しないため、 光線上に沿った一様な点群を用いてレンダリングするのは非効率 ▪ そこで、一様な点群から大まかな推定をするcoarse networkと、 それにより計算されたレンダリング結果に対する影響度の高い点を重点的にサンプリングする fine networkを併用して最終的なレンダリングを実施 8
  9. 最終的なモデルは光の反射を考慮した精細な生成が可能 ▪ 視点方向を入力しないと、光の反射を表現できない ▪ positional encodingをしないと、高周波な生成ができない(細部がぼやける) Results 9

  10. ▪ 人工画像、実画像データセットの双方で既存手法を凌駕する性能を達成 Results 10 ▪ ablation study結果

  11. ▪ 結果例(プロジェクトページの動画が分かりやすい) ▪ 精細かつ視点変化に対してなめらかな生成が可能 ▪ 向きによる見え方の違い(光の反射など)をリアルに再現 Results 11

  12. ▪ 後継研究もすでに存在 (ワークショップ Deep Internal Learning: Training with no prior

    examples より) Results 12
  13. 13 Object Detection 02

  14. 14 Corner Proposal Network for Anchor-free, Two- stage Object Detection

    Link to paper
  15. Summary ▪ anchor-freeの物体検出モデルはanchor-basedの物体検出モデルと比較して、recallが 高い反面、物体が密接している場合はキーポイントの対応が正しく取れないため、 false positiveが増加するケースが多い ▪ 本論文では、anchor-freeの物体検出モデルをキーポイントの検出/クラス分類に分け たCPN(Corner Proposal

    Network)を提案 ▪ 既存のanchor-freeモデルと比較してprecision, recall共に向上 15
  16. Method ▪ 左上/右下のキーポイントを検出し、クラスごとにキーポイントのペアを作成 ▪ Box Feature Mapから求めたキーポイントのペアごとにRoIAlign + CNNで物体かどう かの分類を行い、false

    positiveを除去する ▪ 残ったキーポイントのペアに対してRoIAlign+CNNでクラスラベルを求める 16
  17. ▪ COCO test-devで既存手法と比較 ▪ いずれのanchor-free手法よりも高性能かつ高速 Results 17

  18. 18 BorderDet: Border Feature for Dense Object Detection Link to

    paper
  19. Summary ▪ 物体境界の特徴を抽出するモジュールを追加した2段階物体検出手法BorderDetを提案 19

  20. Method ▪ 1段階目の予測グリッド点と予測バウンディングボックスの4辺にそれぞれ一定数の特 徴マップを割り当て ▪ 各辺に対応した特徴マップで、辺を均等に分割した点から特徴抽出しmax-pool ▪ これによりその辺上の物体境界に反応するようになる ▪ これらの特徴を合わせて2段階目の予測を実施

    20
  21. ▪ MS COCO で評価を実施 ▪ 同じバックボーンの既存手法を上回る性能 ▪ 強いバックボーンでマルチスケールの学習・評価をした場合、 COCO AP

    50.3 Results 21
  22. 22 Segmentation 03

  23. Conditional Convolution for Instance Segmentation 23 Link to paper

  24. Summary ▪ FCOSをone-stage instance segmentationに発展させた手法の提案 ▪ controllerで各インスタンスの特徴(相対位置、形状等)がエンコードされたmask head のパラメータを生成し、それを用いてマスクを出力 ▪

    Mask R-CNNと比較して高速かつ高精度 24
  25. ▪ COCO test-devにおいてAverage Precisionを比較 ▪ 既存の手法と比較して優れた精度を示す ▪ semantic segmentationタスクを同時に解くことで1ポイント精度向上 Results

    25
  26. SOLO: Segmentation Objects by Locations 26 Link to paper

  27. ▪ single-shot instance segmentation手法の提案 ▪ FPNの出力の各feature mapをSxSにグリッド分割し、各グリットに対してクラスとマ スクの予測を行い、クラス予測で前景となったグリッドのマスクを出力 ▪ 既存のsingle-shot

    instance segmentationよりも優れた性能を示した Summary 27
  28. Method ▪ FPNの各feature mapに対して、category branchではSxSにBilinear補間を行い、 グリッドごとにクラスを予測 ▪ mask branchではチャンネル方向に各グリッドに対応するマスク予測を行う ▪

    mask branchの前にCoordConvを使用し、座標情報を考慮することでグリッドごとに 上手くマスクを振り分けることが可能 28
  29. ▪ データセットはCOCO test-devを使用 ▪ mask APは既存のone-stage手法よりも優れた性能を示した ▪ mask branchのS^2のチャンネル数は冗長なため、マスクの予測を縦横を分割して行う Decoupled

    headも提案 ▪ Decouple headを用いた手法(D-SOLO)の方が高精度かつ効率的 Results 29
  30. SegFix: Model-Agnostic Boundary Refinement for Segmentation 30 Link to paper

  31. Summary ▪ 不確実性の高い物体境界領域のセグメンテーション結果をrefineする手法の提案 ▪ 物体境界の予測結果をより確実性の高い物体中心の予測結果に置き換える ▪ 既存のセグメンテーションモデルに組み込むことで物体境界の検出精度向上を確認 31

  32. Method ▪ boundary branchで物体境界を1, 物体内部を0としたbinary boundary mapを予測 ▪ direction branchでは物体中心の向きを上下左右+斜めのどこにあるかを8クラス分類

    として解くことで求める ▪ 上記2つの予測結果の要素積により、物体境界が属する物体が求まる ▪ 推論時は、セグメンテーションモデルの予測を上記を用いて置き換える 32
  33. ▪ Cityscapes validation datasetで比較 ▪ 評価指標はboundary F1-score ▪ いずれの手法でもSegFixによって検出性能が向上 Results

    33
  34. 34 Human Recognition 04

  35. 35 VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild

    Environment Link to paper
  36. Summary ▪ 複数カメラを用いた複数人物3Dポーズ推定の既存手法では、 各カメラからの2Dポーズ推定、cross view matching、三角測量を別個に行っていた ▪ 3次元空間を明示的に扱う統一的なアプローチを導入し、遮蔽に頑健なモデルを提案 36

  37. Method ▪ 各カメラ画像に対する関節点毎のヒートマップ(HRNetで推定)を 3次元空間を離散化したfeature volumeに逆射影 ▪ 各voxelに人物が存在するか否かを3D CNNで推定 (GTは人物位置を中心とするガウス分布、L2ロスで学習) 37

  38. Method ▪ 各proposalを中心とする空間的解像度の高いfeature volumeを構築 ▪ 3D CNNで特徴抽出し、出力の重心座標を各関節点の推定座標とする(L1ロスで学習) ▪ モデル全体をend-to-endに学習可能 38

  39. ▪ 2Dポーズ推定において非常に高い性能を確認 Results 39 HRNet(上段)および提案手法(下段)の2Dポーズ推定結果

  40. ▪ Panopticデータセットでのablation study結果 ▪ feature volumeの解像度、カメラ数、人工的なヒートマップを用いたモデルの学習、 異なるカメラを使用したときなどの性能を検証 Results 40 人工的なヒートマップでの学習

    学習時と異なるカメラで評価
  41. ▪ CampusおよびShelfデータセットで最高精度を達成 Results 41

  42. 42 Motion Capture from Internet Videos Link to paper

  43. Summary ▪ 単眼映像からのモーションキャプチャにおけるデプスの曖昧性と遮蔽を解決するため、 ネットから収集した同一種類の行動の動画を用いてマルチビュー化 ▪ 最適化に基づくアプローチにより、映像タイミングの不一致、カメラ視点が不明である こと、人物の動きが動画毎に少しずつ異なるといった問題に対処 43

  44. Method ▪ 各映像で推定された3Dポーズの類似度を元に映像タイミングを一致させる ▪ 人物姿勢とカメラパラメータを復元(低ランク近似により映像毎の姿勢の違いを表現) ▪ 上記プロセスを交互に繰り返す 44

  45. ▪ 既存の単眼映像に対するモーションキャプチャ手法であるHMMRとの比較結果 ▪ 複数視点映像を使用するため奥行きに関する推定の頑健性が高い Results 45

  46. ▪ 複数映像を使用することでエラーが低下、またHMMRと比べ低いエラーを達成 ▪ 映像タイミングの一致、モーションキャプチャの交互最適化によりエラーが削減 Results 46

  47. 47 Video & Action Understanding 05

  48. 48 Directional Temporal Modeling for Action Recognition Link to paper

  49. Summary ▪ 行動認識に対する3D CNN適用の問題点を指摘 ▪ 時系列的に局所的な受容野でしか有効性が確認されていない ▪ 時間方向へのglobal average poolingにより映像の順序に関する情報が失われる

    ▪ 上記問題を解決するためchannel independent directional convolution (CIDC)を提案 ▪ CIDCユニットの既存モデルへの導入による性能向上を4つのデータセットで確認 49 既存手法とは異なり背景領域にアクティベーションが出ない
  50. Method channel dependent directional convolution (CIDC) ユニットを提案 ▪ カーネルサイズ1のgrouped convolutionによりチャネル毎に特徴マップを分割

    ▪ 分割された特徴マップの時間方向をチャネルとみなして畳み込みを適用 ▪ このとき、各フィルタは特定の時刻より前の特徴マップのみを入力とするため フレームの順序関係を考慮した特徴抽出が可能 50
  51. Method ▪ CIDCユニットをバックボーンの各ステージの出力に対して適用し、 複数解像度の特徴マップを徐々に統合(要素毎に和をとる) ▪ 後段ステージの反応の大きな箇所を重視するよう前段ステージの特徴マップに アテンションを適用 51

  52. ▪ 既存モデルのバックボーンにCIDCユニットを付加することによる性能向上を HMDB51、Kinetics-400、UCF101、Something-Something V2の 4つのデータセットで確認 Results 52 HMDB51およびUCF101データセットでの評価結果

  53. ▪ 複数解像度に対するCIDCユニットの適用およびアテションの有効性を確認 ▪ 時系列的に双方向なCIDCユニットの使用が効果的 Results 53

  54. ▪ 各手法のactivation mapの可視化結果 ▪ 長期的な情報を考慮できるため行動クラスに無関係な 短期的な物体や背景の動きに対する反応が出ない Results 54

  55. 55 Connecting Vision and Language with Localized Narratives Link to

    paper
  56. ▪ 言語と画像を結びつけるタスクとしてキャプショニングがあるが、 言語的な表現と画像上の位置の結びつけは困難であることが知られている ▪ この問題に対し新たなアノテーション方法としてLocalized Narrattivesを提案し、 COCO、Flickr30k、ADE20Kといった既存のデータセットにアノテーションを行い、 既存のアノテーションスタイルと比較し良い結果が得られることを確認 ▪ Googleの世界最大規模の公開データセットであるOpenImages

    V6の 一部としてデータを公開 Summary 56
  57. ▪ 従来のアノテーションは静止画を説明するセンテンスおよびbboxを付与するだけだが 提案手法は静止画を口頭で説明しながらマウスで位置を示す形でアノテーション ▪ これにより静止画でありながらアノテーションは時系列であり、且つ、 テキスト、音声、画像位置とマルチモーダルとなる Method 57

  58. ▪ 従来のアノテーションは静止画を説明するセンテンスおよびbboxを付与するだけだが 提案手法は静止画を口頭で説明しながらマウスで位置を示す形でアノテーション ▪ これにより静止画でありながらアノテーションは時系列であり、且つ、 テキスト、音声、画像位置とマルチモーダルとなる Method 58

  59. ▪ 従来のアノテーションは静止画を説明するセンテンスおよびbboxを付与するだけだが 提案手法は静止画を口頭で説明しながらマウスで位置を示す形でアノテーション ▪ これにより静止画でありながらアノテーションは時系列であり、且つ、 テキスト、音声、画像位置とマルチモーダルとなる Method 59

  60. Results 60 ▪ 通常のキャプションとControlled image captioningの比較結果

  61. ▪ Controlled iamge captioningタスクでCOCOを使ったablation study ▪ 全ての指標で既存のアノテーションスタイルを上回る結果 Results 61

  62. 62 TCGM: An Information-Theoretic Framework for Semi-Supervised Multi-Modality Learning Link

    to paper
  63. Summary 63 ▪ マルチモーダル学習により多くの情報を得られるが各モダリティにラベルを付けることは難しい これを緩和するため本論文では、半教師付きマルチモーダル学習のための 新しい情報理論的アプローチ(TCGM)を提案 ▪ ラベル付けされていないモダリティ間の情報を利用し、各モダリティの分類器の学習を容易にできる ▪ 具体的には、各モダリティの分類器でTotal

    Correlation Gainを最大化してsemi-supervised learningする ▪ ニュース分類、感情認識(IEMOCAP、MOSIデータセット)、疾患(アルツハイマー)予測等、 様々なタスクにおけるsemi-supervised learningでSoTA
  64. ▪ Total Correlation Gain Maximization ▪ 異なるmodalityでそれぞれclassifierを用意し、Cross Entropyで教師あり学習 ▪ 半教師で、異なるmodalityで同じdata

    pointの時、出力が一致する場合は報酬を与え、 一方、異なるmodalityで異なるdata pointの時、出力が一致する場合はペナルティを与える Method 64
  65. Method 65 ▪ 異なるmodalityでそれぞれclassifierを用意 Cross Entropyで教師あり学習 ▪ 半教師で、異なるmodalityで同じdata pointの時、 モデル間の出力が一致する場合は報酬を与え、

    一方、異なるmodalityで異なるdata pointの時、 モデル間の出力が一致する場合はペナルティ
  66. ▪ IEMOCAP, MOSIといった感情認識タスクでSoTA ▪ ラベル付けされたデータの割合が少ない場合も、多い場合も、良い性能 Results 66

  67. ▪ IEMOCAP, MOSIといった感情認識タスクでSoTA ▪ ラベル付けされたデータの割合が少ない場合も、多い場合も、良い性能 Results 67

  68. ▪ IEMOCAP, MOSIといった感情認識タスクでSoTA ▪ ラベル付けされたデータの割合が少ない場合も、多い場合も、良い性能 Results 68

  69. 69 MovieNet: A Holistic Dataset for Movie Understanding Link to

    paper
  70. ▪ 映画を理解するためのデータセットMovieNetを公開 ▪ 1,100本の映画、予告編、写真、プロット説明などのマルチモーダルデータが含まれている ▪ ラベルとしては、110万字のtextとbboxとidentity、42Kのscene、2.5Kの説明文、65Kの場所とアクション タグ、92Kのスタイルタグが付与されている ▪ タスクとしては、Action RecognitionのようなタスクからSegment

    Retrieval、ジャンル分類のようなタスク まで幅広く設定されている ▪ 類似発表でTVR: A Large-Scale Dataset for Video-Subtitle Moment Retrieval等もあり、活況な分野と言える Summary 70
  71. 71

  72. 72 Few-Shot Scene-Adaptive Anomaly Detection Link to paper

  73. ▪ 監視カメラにおける異常行動検知でfew-shotの正常系で未知シーンに適応的に学習 ▪ 異常行動検知では未知シーンに適応させる設定自体が新しく、より現実的な問題設定 Summary 73

  74. ▪ 異常検知は再構成誤差を使うものが多いが提案手法はr-GANと呼ぶ構成で 未来frameを予測し予測との乖離に基づき異常検知 ▪ 学習のスキームとして、Meta-TrainingでtrainデータのInner Updateとvalデータの Outer Updateを実施し、Meta-testingの初期値を探索 Method 74

  75. ▪ Shanghai TechまたはUCF crimeのどちらかでpre-trained, fine-tuned結果と比較す る形でUCSD Ped, CUHK Avenue, UR

    Fallで提案手法を評価(表はUCF Crimeのもの) ▪ Pre-trained, Fine-tunedと比べた時、 提案手法が5~30pt良い Results 75
  76. 76 Low-level Vision 06

  77. 77 RAFT: Recurrent All-Pairs Field Transforms for Optical Flow Link

    to paper Link to code
  78. Summary ▪ 2枚の画像からoptical flowを推定するタスク ▪ CNNで算出したブロックごとの特徴の相関行列を利用 ▪ GRUで繰り返しoptical flowをアップデート ▪

    小物体の動きも推定可能 ▪ 既存手法から大幅に精度向上 78
  79. Method ▪ CNNで2枚のフレームのそれぞれごとの特徴を獲得(W/8 * H/8) ▪ 2枚のフレーム特徴の全点同士について、相関行列を算出し、複数スケールでpooling ▪ 0初期化したoptical flowを、上の相関行列を元にGRUで繰り返し更新

    ▪ CNNで抽出したフレーム1のコンテキスト情報も同時に利用 79
  80. ▪ GRUで算出したoptical flowはH/8 * W/8なのでconvex upscalingで拡大 ▪ 8近傍+自身の画素の重み付き和を補間値とし、各重みをCNNで算出(正の値) ▪ 損失はGRUのN回の出力結果とGTのoptical

    flowの重み付きL1 lossの合計 Method 80
  81. ▪ 評価はend-point error:推定値とGTとの全画素のユークリッド距離の平均 Results 81 S...Sintel / C...FlyingChairs / T...FlyingThing

    / K...KITTI / H...HD1K
  82. Results:Ablation study 82

  83. Results:Visual 83

  84. Invertible Image Rescaling 84 Link to paper

  85. Summary ▪ 情報損失を抑えつつ見た目の良い縮小/拡大ができるCNNの提案 ▪ 可逆変換を取り入れて超解像の不可能決定性を緩和 ▪ 既存の拡大モデルに比べてパラメータ数が減少 85

  86. Method ▪ 高画質な入力画像をハール変換を用いて、ローパスされた画像・水平/垂直/斜め方向 の詳細係数(テクスチャ)を算出 ▪ 非線形な可逆変換を用いて低画質画像と高周波成分の情報を保存したzを出力 ▪ zと低画質画像から逆変換を用いて高画質画像を復元(学習時はランダムなzを使用) ▪ 3(+1)つの距離を用いて学習

    ▪ 生成した低画質画像とバイキュービック縮小で生成した低画質画像の距離 ▪ 低画質画像から逆変換で戻した高画質画像と入力画像の距離(2種類) ▪ 入力画像の分布と、入力の縮小画像の分布&zの同時分布を逆変換で戻した際の分布間距離 86
  87. Result ▪ 既存手法と提案手法の見た目の比較 87

  88. Result ▪ 損失の比較実験 (guide=低画質同士の誤差, recon=高画質同士の誤差, distr=分布間距離) 低画質画像を厳密にバイキュービック補間に近付く必要はなく、高画質画像は正確に復 元したいため、それぞれL2 / L1が適切であると推測

    ▪ 生成した低画質画像:左がバイキュービック / 右が提案手法 88
  89. Exploiting Deep Generative Prior for Versatile Image Restoration and Manipulation

    89 Link to paper
  90. Summary ▪ Deep Image Priorの発展 ▪ 大量の自然画像で学習したGANのGeneratorモデルをpriorとして利用 ▪ 色、テクスチャ、高次の情報等をpriorとして獲得 90

  91. ▪ 画像Iを劣化させた画像I’を元に、生成器がI’に近い画像を出力できるようなzを探索 ▪ 同時に、よりI’に近づけるよう生成器のパラメータ自体も更新 ▪ 生成器のパラメータを固定すると、I’の再現に限界 ▪ 生成器のパラメータ更新は、入力に近い層から徐々に更新する層を拡大 ▪ 生成器のパラメータを更新する過程でpriorが欠落する現象の防止

    ▪ 先にテクスチャを近づけようとして高次の情報が欠落すると推測 ▪ 探索するzの初期値z0 は100個の乱数値から最もI’に近しくなる値を選択 ▪ 識別器での特徴空間のL1 lossを損失として利用 ▪ MSEやperceptual lossだと画素レベルの低次元特徴を近づけようとして画像が壊れがち Method 91
  92. Method 92 使用する損失関数での再現の比較 入力 初期値に よる再現 更新結果 初期値に よる再現 更新結果

    入力 テクスチャは 似るが 林檎の色合い ではない ほぼ良いが 一部色が 合っていない 部分がある テクスチャも 林檎らしさも 守られている
  93. Result ▪ 様々なタスクで応用可能 93

  94. Result ▪ 既存手法との比較(colorization) ▪ 既存手法との比較(single image super-resolution) 94

  95. Across Scales & Across Dimensions: Temporal Super-Resolution using Deep Internal

    Learning 95 Link to paper
  96. Summary ▪ 高精度なフレーム補間学習をZero-shotで実現 ▪ カメラの時間方向のナイキスト周波数を超えて動く物体も捉えることが可能 ▪ フレームと空間方向の同時サンプリングによるデータの水増しと 軸回転によるデータの水増しを提案 96

  97. Method ▪ 高速で動く物体をフレームレートの低いカメラで撮影すると大きなモーションブラー& 本来の動きと異なる動き(エイリアシング)が出ることが問題 ▪ 時間方向の超解像と捉えZSSRを参考に、自己教師型学習 ▪ 入力動画のフレームレートを落とし入力を復元しようとすると、よりフレームレートを落とす ことになりさらに見た目上のブラーとエイリアシングが拡大 ▪

    一方で画像サイズを縮小することで見かけ上のフレームレートが増加 97
  98. Method ▪ xy-tの軸をtx-yやyt-xに入れ替えると元動画と似たようなモーションを持つ動画にな ることから、軸変換によるデータ拡張を提案 ▪ 徐々にフレームレートを上げていくスキーマを提案 98

  99. Result ▪ 既存手法との補間結果の見た目の比較:モーションブラーが除去されている 99

  100. Result ▪ 既存手法とのx8のフレーム補間でのPSNR/SSIM比較 モーションの激しい難しい動画でも高精度を維持 ▪ データの水増しに関する比較実験 軸変換による水増しの有用性を提示 100

  101. Feature Representation Matters: End-to-End Learning for Reference-based Image Super-resolution 101

    Link to paper
  102. Summary ▪ 参照ベースの超解像 ▪ 参照画像が低画質画像がテクスチャレベルで近しい必要がある制約を除外 ▪ 低画質画像と参照画像のそれぞれの特徴空間でパッチレベルの近傍探索 ▪ シンプルな損失関数で既存手法を上回る精度 102

  103. Method ▪ 入力の低画質画像 / 参照画像の低画質画像 / 参照画像をそれぞれエンコーダで各画素 ごとに特徴抽出 ▪ 入力の低画質画像特徴と参照画像の低画質画像特徴を、3x3のパッチレベルで

    内積を取り類似度を比較 ▪ 最も近いパッチについて、高画質の参照画像から対応する部分の特徴を選択していき、 出力する高画質画像用の特徴を作成 103
  104. Method ▪ 特徴抽出にはVGGのような分類タスク用のネットワークではなく、単一画像超解像用 のネットワークの中間出力を利用 ▪ 入力画像・入力画像の特徴・作成した高画質用の特徴を元に高画質画像を生成 104

  105. Result ▪ 既存手法との比較:参照ベース手法のSOTAであるSRNTTと比較して精度向上 105

  106. Result ▪ 参照画像と入力画像はアライメント不要 ▪ 同一物体・テクスチャが映っている成約も不要 106

  107. 107 What Matters in Unsupervised Optical Flow Link to paper

  108. Summary ▪ 教師なしのオプティカルフロー予測モデルの学習で何が重要か綿密に調べた論文 ▪ 提案手法は既存の教師なし手法の性能を大きく上回り、かつ教師あり手法のFlowNet2 と同程度の性能を達成 108

  109. Method ▪ PWC-Netをベースに実験 ▪ photometric loss、occlusionの扱い、smoothnessの正則化といったキー要素に対し て、どの手法が最適か実験 ▪ 各種の改良 ▪

    cost volumeの正規化 ▪ occlusion mask部分での勾配伝播の停止 ▪ upsample前のsmoothnessを適用 ▪ cropとresizeを使った自己教師あり学習 ▪ etc. 109
  110. ▪ 既存の教師なし手法を大きく上回る性能 ▪ KITTI 2015で教師ありのFlowNet2と同程度の性能 Results 110

  111. 111 Unsupervised/Self-supervised Learning 07

  112. 112 Memory-augmented Dense Predictive Coding for Video Representation Learning Link

    to paper
  113. ▪ 行動認識におけるself-supervisedな表現学習 ▪ 未来のframeの動きを予測するには可能性を複数考慮する必要があるという 考え方のもとMemDPCを提案 Summary 113

  114. Method 114 ▪ 特徴量レベルで未来のframeを予測し、contrastive lossを使って self-supervisedな学習を行う ▪ Compressive memory moduleを使うことで複数の未来を予測

    ▪ predictive addressingメカニズムで外部メモリバンクにアクセス ▪ 外部メモリバンクは、学習中にデータセット全体で共有され、各メモリエントリが潜在的な仮 説として機能メモリエントリ上の確率分布を推測
  115. ▪ Oops datasetで評価を実施 ▪ Oops datasetは人間の意図しない行動(転倒など)を含むデータセット ▪ 圧倒的に少ない学習データでSoTAを達成 Results 115

  116. 116 SCAN: Learning to Classify Images without Labels Link to

    paper
  117. Summary ▪ 画像の教師なし分類(クラスタリング)における既存手法の問題点を指摘 ▪ 表現学習 + K-means:クラスタの割り当てが不均衡になる ▪ end-to-endなアプローチ:ネットワークの初期値が学習の要となるため 低レベルな特徴への依存度が高い

    ▪ 表現学習とクラスタリングの学習からなるアプローチを提案し上記問題に対処 ▪ CIFAR10、CIFAR100-20、STL10で最高精度を達成するとともに、 ImageNetではいくつかの半教師あり学習手法を上回る性能を達成 117
  118. Method Semantic Clustering by Adopting Nearest neighbors (SCAN) を提案 ▪

    表現学習: ▪ instance discrimination(SimCLRまたはMoCOを採用)によりモデルを学習 ▪ データ拡張前後の画像の特徴表現を明示的に近づけるようロスを付加 ▪ クラスタリングの学習: ▪ 表現学習で得られた重みを初期値とし、出力ベクトルの次元数を クラスタ数とみなしてモデルを学習 ▪ SCAN-loss:ある画像とそのk近傍画像の出力ベクトルの距離を近づけるとともに、 出力ベクトルのエントロピーを最大化するようロスを付加 → 類似画像のクラスタ割り当てに一貫性をもたせつつ、 データ全体のクラスタ割り当ての均衡をとる ▪ self-labeling:確信度の高いサンプルに擬似ラベルを付与してcross entropyロスを適用 ▪ 評価時はハンガリアン法でクラスタとデータセットのクラスの対応付けを行う 118
  119. Results ▪ CIFAR10、CIFAR100-20、STL10で最高精度を達成 ▪ pretext + K-meansでも十分高い性能 → タスクの分割が有効 119

  120. ▪ ImageNetでは、ラベルを一切用いていないにもかかわらず いくつかの半教師あり学習手法の性能を凌駕(教師なしの比較手法はない) Results 120

  121. ▪ 意味的に適切なクラスタが抽出されている ▪ 分類に失敗した場合でも意味的に似たクラスへの混同が多いことを確認 Results 121 ImageNetから抽出されたクラスタ ImageNetの混同行列

  122. 122 Others 08

  123. 123 EagleEye: Fast Sub-net Evaluation for Efficient Neural Network Pruning

    Link to paper
  124. Summary ▪ フィルタプルーニングの手法 ▪ adaptive BNを用いることで高速かつ精確にプルーニング後の精度を評価可能 ▪ CIFAR-10, ImageNetでのプルーニングで既存手法を上回る性能 124

  125. Method ▪ ランダムに各層のプルーニング率を大量生成 ▪ それぞれL1ノルムでプルーニング ▪ BNのstatsを初期化 ▪ 学習データの一部を用いてそれぞれのBNのstatsを更新 (adaptive

    BN) ▪ 性能が最も良いものをfine-tune 125
  126. ▪ adaptive BNを用いた方が用いない場合よりfine-tune後の精度と相関が高い (左下図) ▪ ImageNetでResNet-50をプルーニングした場合の結果 (右下表) Results 126

  127. 127 Big Transfer (BiT): General Visual Representation Learning Link to

    paper
  128. Summary ▪ 大規模データセットでの事前学習とそのモデルのfine-tuneについて調べた論文 128

  129. Method ▪ ResNet152x4をILSVRC2012, ImageNet-21k, JFT-300Mでそれぞれ学習 ▪ それにより得られるモデルをそれぞれBiT-S, BiT-M, BiT-Lと呼ぶ ▪

    BiT-Lの学習では512台のTPUv3を利用 ▪ BNの代わりにGN+WSを利用 ▪ その後、各種データセットでfine-tune ▪ データセットサイズと画像解像度に基づいてスケジュール、解像度、MixUpの利用有無を決定 ▪ 他のハイパラは固定 ▪ weight decayは利用しない 129
  130. ▪ BiT-Lのfine-tuneにより各種データセットでSOTA ▪ その他、データセットサイズ、モデルサイズ、スケジューリング等について調査 ▪ データセットサイズは基本大きい方がいいが、モデルサイズが小さ過ぎると劣化する場合あり ▪ データセットサイズが大きい場合は長く学習させた方が良い ▪ 一見サチって見えても学習率を下げずにより長く学習させることで最終性能が改善

    ▪ ハイパラによっては学習初期は良さそうでも最終的に劣化する場合あり Results 130
  131. 131 COCO-FUNIT: Few-Shot Unsupervised Image Translation with a Content Conditioned

    Style Encoder Link to paper
  132. Summary ▪ few-shotでのimage-to-image translationを、動物の全身画像のような姿勢バリエー ションが豊富な画像でも可能にする手法COCO-FUNITを提案 132

  133. Method ▪ 既存手法FUNITをベースにstyle encoderをCOontent-COnditioned style encoder (COCO)に変更 ▪ 既存手法ではstyle encoderがスタイル画像のcontentの情報もエンコードしてしまっている

    のが問題であるとし、content画像で条件付けすることで、それが抑制されることを期待 133
  134. ▪ 姿勢変化の大きいデータセットで評価して、既存手法より良い性能を達成 Results 134