CVPR2020 Report

2020.07.16 濱田晃一　林俊宏　洪嘉源　唐澤拓己　木村元紀　宮澤一之夏目亮太　鈴木
達哉　Sergey Tarasenko　横尾修平株式会社ディー・エヌ・エー＋株式会社 Mobility Technologies CVPR2020 参加レポート

2 項目 01｜オンライン参加の概要 02｜統計・傾向 03｜論文紹介 04｜Workshop/Tutorial紹介

3 01 オンライン参加の概要

4 ▪ 09:00-18:00, 22:00-06:00 PDTの2スロット開催 ▪ 動画とスライドが特設サイト上で常時公開 ▪ 指定の時間になるとZOOMで著者の方に質疑応答可能 ▪
各発表ページ上のコメント欄でも質問可能 ▪ Networking RoungeというチャットとZOOMの交流の場が存在オンライン参加の概要

5 ▪ 日本で現地時間参加するのはつらい ▪ 海外（特に欧米）の研究者と交流するためには、現地時間参加の方が良いが、時差があるため体力的・家庭的に負担が大きい ▪ 国外の研究者と交流するのが難しい ▪ 質疑応答のZOOMやNetworking
Roungeは提供されているが、交流という観点ではオフラインの方が向いていると感じた ▪ サイトが重い ▪ 特設サイトが重く開けない状態が度々発生した ▪ ZOOMのURLや発表動画を予め手元に用意しておくことで回避 ▪ 発表を探し歩く体験は良かった ▪ 動画が公開されているため、自分のタイミングで動画を閲覧でき、さらに気になった場合、 ZOOMに参加する流れは快適 ▪ PosterもOralと同じ5分の動画であれば、さらに良かったオンライン参加の様子・感想

6 02 統計・傾向

7 ▪ バーチャル会議になったためか、参加者人数は10年ぶりに下がった ▪ それでも2018年よりは多い参加者数の推移

8 ▪ 登録数・投稿数・採択数・oral数は全て2019年より多い ▪ 採択率・oral率は2019年より下がっている ▪ 採択率25%（vs. 28% in 2019）
▪ oral率5.7%（vs. 6.3% in 2019） Oral/Poster採択状況

9 ▪ 中国勢が一番多い ▪ 著者数top 10組織のうち7つは中国系国や機関ごとの著者分布

10 ▪ AIの説明性や倫理に関する分野をメインテーマとして新たに追加新たに追加された分野

11 分野ごとの論文数 CVPR2019 CVPR2020 前年からの差分が目立つトピック

12 ▪ 全体 ▪ 論文数の多いトピックについては昨年の傾向と大差なし（参考：CVPR2019参加レポート） ▪ semi/self/unsupervised、graph NN、uncertaintyなどがキーワードとして目立つ ▪ 物体認識
▪ imbalanced、long-tail、few-shotといったキーワードを含む論文がオーラルに目立つ ▪ EﬃcientDetのような有名SoTAモデルでもインクリメンタルなAP改善であるためかポスター ▪ セグメンテーション ▪ 1-stage手法などリアルタイム化を狙ったものが多い ▪ 3D ▪ 単眼カメラからのデプス推定は論文数、精度共に進展著しい ▪ デプス解像度の改善やuncertaintyなどに着目したものが多い ▪ トラッキング ▪ unsupervised手法がsupervised手法に匹敵しつつあり今後の主流となりそう傾向

13 03 論文紹介

14 Awards 03-01

15 Unsupervised Learning of Probably Symmetric Deformable 3D Objects from
Images in the Wild CVPR 2020 Best Paper Link to paper

Summary 物体の対称性を活用することで、特定物体カテゴリに対して単一画像から三次元再構成を行うモデルを、単一視点の画像データ群の学習データから教師なしで構築する手法の提案 16

Method ▪ 入力画像から、物体の向き、深度マップ、テクスチャを予測し、それらからレンダリング出力、入力画像との再構成損失を計算し学習 ▪ このとき、単なる二次元画像再構成により向きと深度マップを適切に出力せず損失を下げられるため、ﬂippingによりテクスチャと深度マップに対称性を制約 17

Method ▪ さらに非対称な照明条件に対応するため、照明条件の予測を切り分け、対象性の制約を持ったalbedoと深度マップを考慮したshadingにより正面のビューを出力 ▪ その上で非対称な構造のalbedoに対応するため、信頼度マップを出力し、 reconstruction lossにて考慮 18

Results 19 人の顔、猫の顔、車についてのreconstructionの結果

Results 20 [45] Sahasrabudhe et al. ICCV Workshops, 2019. [52]
Szabo et al. arXiv, 2019 他手法とのreconstruction結果の比較

21 BSP-Net: Generating Compact Meshes via Binary Space Partitioning CVPR
2020 Best Student Paper Link to paper

22 ▪ 従来の3次元モデル生成では生成結果にマーチングキューブ法を適用するなどしてポリゴンを求めていたのに対し、コンパクトなポリゴンモデルを直接的に生成 ▪ 超平面での再帰的な分割を繰り返すことでシーンを表現するBSP（Binary Space Partitioning）木をニューラルネットワークに取り入れたBSP-Netを提案 ▪ 3次元モデルのセグメンテーションや単眼画像からの3次元再構成で効果を確認
Summary

23 ▪ BSP木による表現は3段階であり、まず空間を2分割する複数の平面方程式を定義 ▪ 次にそれらの組み合わせにより、3次元モデルを構成する単位となるパーツを獲得 ▪ 最後に全てのパーツを統合することで3次元モデルを生成 Method

24 ▪ BSP-Netでは、まず入力特徴ベクトルからMLPで複数の平面パラメータを生成 ▪ これらにバイナリ行列Tを適用することでグルーピングを行いパーツを獲得 ▪ 最後にsumまたはmin-poolingによりパーツを統合して3次元モデルを生成 ▪ 入力データを再構成するように学習するため、学習のための真値は不要 Method

25 ▪ 3次元モデルの再構成誤差およびセグメンテーション精度を従来手法と比較 ▪ いずれの精度も従来手法を上回る Results 再構成誤差の比較セグメンテーション精度の比較

26 ▪ 入力画像からCNNで生成したlatent codeをBSP-Netの入力とすることで一枚の画像から3次元再構成が可能 ▪ 従来手法よりも大幅に少ないポリゴン数で同等以上の精度を実現 Results 再構成誤差
ポリゴン数頂点数

27 DeepCap: Monocular Human Performance Capture Using Weak Supervision CVPR
2020 Best Student Paper Honorable Mention Link to paper

28 ▪ 人物が写った一枚の画像からその人物の3次元姿勢と衣服の表面形状を推定 ▪ 学習時には多視点画像を利用し、明示的な3次元アノテーションが不要 ▪ 微分可能なモデルで人物形状の変化を表現することで2次元の多視点画像と人物モデルとの比較およびロスのbackpropagationを可能に Summary

29 ▪ PoseNetで画像から人物の関節角度とカメラに対する相対角度を推定し、結果を kinematicsレイヤに入力することで各関節の3次元座標を出力 ▪ これを多視点画像のそれぞれに投影し、多視点画像上でOpenPoseで検出した関節座標との差分をロスとして学習 Method

30 ▪ DefNetで画像から人物の衣類形状の変形を表すパラメータを推定し、結果を deformationレイヤに入力することで衣類形状テンプレートを変形させる ▪ 変形させたテンプレートから2次元シルエットを生成し、多視点画像から求めたシルエットとの差分をロスとして学習（合わせてPoseNetと同様の関節ロスも導入） Method

31 Results

32 ▪ 定量評価では姿勢推定の精度と衣服表面形状の復元精度を従来手法と比較 ▪ 単眼画像を入力とする従来手法との比較では提案手法は最も精度が高く、多視点画像を入力とする手法（図中のMVBL）の精度に匹敵 Results 姿勢推定の精度比較形状推定の精度比較

33 3D Perception, Shape-From-X 03-02

34 3D Packing for Self-Supervised Monocular Depth Estimation Link to
paper

Summary ▪ self-supervised monocular depth estimationの既存手法に対して、特徴マップの詳細情報を保つPackNetを提案し精度向上 ▪ 速度情報を取り入れることでscale-awareな出力のモデルを構築 ▪
新規データセットDDAD (Dense Depth for Automated Driving)の構築 35

Method 複数フレームから深度推定、カメラポーズ推定を同時に行い、それらと後続フレームから構築する先頭フレームと真の先頭フレームとの誤差を計算し学習する枠組み ▪ 特徴マップの詳細情報を保つpacking/unpacking blockにより構築されたPackNet ▪ ポーズ出力に対して速度の教師情報を与えることでscale-awareなモデルを構築 36 packing/unpacking
block

Method Packing / Unpacking blockにより構築したPackNet Stride、poolingを使わず、空間的な情報をチャンネル方向に織り込んだ状態で3D convすることで詳細情報を失いにくい圧縮、非圧縮処理を実現 37

Results 38 他手法との定性的な結果の比較 [18] Godard et al. ICCV2019 [14] Fu
et al. CVPR2018 [52] Zhou et al. CVPR2017

Results 他手法との定量的な結果の比較 scale-awareなモデルを構築しても精度が劣化していない 39 KITTIデータセットでの距離が 80m以内での評価 CS+K：CityScapesによる事前学習と KITTIによるファインニューニング、 M：monocularに依る学習、+v：速度情報の使用

40 D3VO: Deep Depth, Deep Pose and Deep Uncertainty for
Monocular Visual Odometry Link to paper

41 ▪ 単眼visual odometryにおいてデプス、カメラ姿勢、不確かさをCNNにより推定 ▪ 学習にはステレオ映像を利用し、self-supervisedで真値なしでの学習を実現 ▪ 推定結果をvisual odometryにおけるバンドル調整に取り込み定式化 Summary

42 ▪ ステレオ画像間で画像をワープさせた際のロスによりDepth/PoseNetを学習 ▪ 画像間の輝度変化を補正するための係数も同時に学習 ▪ DepthNetはデプスに加え、推定の不確かさ（uncertainty）を示すマップを出力 Method 入力画像推定デプスD
不確かさΣ エッジ領域や移動物体領域で不確定性が高くなる

43 ▪ visual odometryにおける最適化で用いられるエネルギー項にCNNで推定したデプス、カメラ姿勢、不確かさを導入 ▪ photometric energy ▪ フレーム間の差異であるphotometric
energyの最小化では一般的に乱数でデプスが初期化されるが、これをCNNで推定したデプスによる初期化に変更 ▪ 加えて、推定した不確かさを利用した重み付けを実施 ▪ pose energy ▪ 新しいフレームが入力された際のトラッキングは一般的に定速条件に基づき初期化されるが、ここにCNNで推定したカメラ姿勢を導入 Method

44 ▪ 単眼デプス推定およびvisual odometryの性能をKITTI、EuRoC MAVで評価 ▪ カメラのみを用いる従来手法の性能を上回っただけでなく、カメラに加えIMUを用いる手法と同等の性能を達成 Results 従来手法（カメラ＆IMU）
提案手法（カメラのみ）

45 Self-Supervised Monocular Scene Flow Estimation Link to paper

Summary 自己教師付き学習による、単眼カメラ画像の連続フレームからdepthとscene ﬂowを同時に推定するモデル構築の提案 46

Method Optical flow推定モデル PWC-Net [Sun et al. 2018] をバックボーンにモデル構築通常、Optical
flow cost volumeからoptical flowを推定するところを、depthとscene flow を別々に推定しそれらを投影することでoptical flowを出力するモデルに変更 47

Method 損失関数は、depthに関する従来のdisparity loss [Godard et al. 2019]と、新規に提案するscene flow lossを使用し学習
Scene flow lossは大きく分けて2つ： 1. Photometric loss：推定depth、scene flowを用いて変換した点を、2Dに投影したときの画像上での誤差 2. 3D point reconstruction loss：推定depth、scene flowにより算出される移動後の depthと、変換後の画像上での座標への推定depthの誤差このときscene flowよりocclusion領域を推定し非occlusion領域のみ適用 48

Results 従来の単眼による推定手法の中でScene ﬂow accuracyのstate-of-the-artを達成 49 KITTIデータセットに対する実験結果 • D1-all：reference frameのdisparityの不正解割合 •
D2-all：target imageをreference frameへmappingした際のdisparityの不正解割合 • F1-all：optical flowの不正解割合 • SF1-all：上記のいずれかが不正解の割合

50 Footprints and Free Space From a Single Color Image
Link to paper

Summary ▪ 1枚のRGB画像からカメラから観測可能な移動可能領域（traversable surface）と遮蔽されたtraversable surfaceを同時に推定するモデルを構築 ▪ 従来の手法はカメラから観測可能な表面の
み予測するが経路計画（path planning）などの際、用途が限定的 51

Method ステレオカメラ動画を用いることで遮蔽された領域を含めた教師付きデータを作成 52

Method ステレオカメラ動画を用いることで遮蔽された領域を含めた教師付きデータを作成 ▪ ターゲットとなるフレームから連続してフレームを取得 ▪ 各フレームから、ステレオマッチングを用いて観測可能な領域のtraversable segmentaitonとdepth mapを推定 53

Method ステレオカメラ動画を用いることで遮蔽された領域を含めた教師付きデータを作成 ▪ 全フレームで得られた結果をターゲットのフレームにWarpingし、集約することで S_traversable、D*_tを作成 ▪ 最終的に、S_traversable、D*_tを教師データとして使用 ▪ S_traversableは、{traversable, untraversable,
unknown}のラベルを付与 54

Method 作成した学習データを用いて、４つの出力を行うimage-to-image translatonモデルを学習 ▪ Visible ground segmentation ▪ Hidden ground
segmentation ▪ Visible depth map ▪ Hidden ground depth map 損失関数 55

Results 56 Prediction for indoor dataset（Matter port） Prediction for outdoor
dataset（KITTI） Evaluating on the KITTI dataset

57 Generating and Exploiting Probabilistic Monocular Depth Estimates Link to
paper

Summary ▪ monocular depth estimationは、推定精度向上のために入力に追加情報を活用することが多いが、各ケースでモデルが異なり独立に再学習が必要 ▪ patchベースのconditonal VAEを用いて、各ケースに依存しないdepth mapの
probability distributionを出力するモデルを構築 ▪ 各追加情報はprobability distributionの出力結果に対して最適化するのみで適用可能 58

Method ▪ 学習済みfeature extractorを用いて特徴マップを生成 ▪ patchごとに独立してconditional VAE（C-VAE）を用いてdepthサンプルを生成 ▪ このときパッチはオーバーラップさせ、各パッチで複数回実行 59

Method ▪ 追加情報を用いない場合、それらを平均することで推定結果を出力 ▪ 追加情報を用いる場合、MAP推定により最終出力を最適化 60

Results 各追加情報を活用した定性的な出力結果 61

Results NYUv2 testセットに対して、各ケースで最も良い結果を達成 62

63 PIFuHD: Multi-Level Pixel-Aligned Implicit Function for High-Resolution 3D Human
Digitization Link to paper

Summary ▪ マルチレベルなアーキテクチャを用いた一枚画像からの人の三次元復元 ▪ coarseレベルでは低解像度で全体のコンテキストを学習 ▪ ﬁneレベルでは詳細なジオメトリに注目した学習 ▪ 1k解像度の入力画像をフルに活用して、既存の手法を上回る結果を実現 64

Method ▪ 既存手法の特徴抽出ネットワークPIFu（論文中ではCoarse PIFu）は、入力画像の解像度が512x512であり特徴量が128x128であったのに対し、より詳細な復元をするために入力画像の解像度が1024x1024で特徴量が512x512となるFine PIFuを追加 ▪ Fine PIFuは、Coarse
PIFuでencodeされたグローバルな特徴Ωを受け取り、全体のコンテキストを考慮 ▪ 既存手法の背面の復元が滑らかになる問題を防ぐため、見えていない背面の情報を予め画像上で予測し、PIFuの入力とすることで、背面をより詳細な復元を実現 65

Results ▪ 既存手法のPIFuに比べて、服のシワや顔の詳細な情報を復元出来ている ▪ Fine module onlyの場合、グローバルな情報を欠損しているため、復元結果を横から見た時に正しく復元できていない 66

Results ▪ 定性評価でも多くの指標で、既存手法であるPIFuを上回っている 67

68 ARCH: Animatable Reconstruction of Clothed Humans Link to paper

Summary ▪ 単眼画像からアニメーションに対応した、衣服を含む三次元復元を行うend-to-endな手法 ARCH （Animatable Reconstruction of Clothed Humans）を提案
▪ Semantic SpaceとSemantic Deformation Fieldにより、衣服を着用した人物を正準空間に変換することを実現 69

Method ▪ 入力画像に対し、DenseRaCを用いてtemplate modelを復元 ▪ 推定したtemplate modelを用いて、入力ポーズがAポーズにノーマライズされるような空間の変換を行うSemantic Deformation Fieldを生成
▪ Occupancy・Normal・Colorをそれぞれ正準空間で推定し、Implicit Surface Reconsturctionを行う 70

Method ▪ 学習時には、Occupancy・Normal・Colorを三次元正解データとの誤差を用いる ▪ さらに、NormalやColorのrefinementとして、Differentiable Rendererを用いる ▪ 正準空間で点ごとに推定を行った後、Semantic Deformation Fieldを用いて、元のポーズに
変換しレンダリングを行う ▪ レンダリング結果と正解画像との誤差を用いてrefinementを行う 71

Results ▪ セルフコンタクトやオクルージョンがある場合でも、ロバストな復元を実現 ▪ RenderPeople、BUFFデータセットにて、全ての指標でstate-of-the-art 72

73 Geometric Structure Based and Regularized Depth Estimation From 360
Indoor Imagery Link to paper

74 ▪ 室内の深度をRGB全天球画像から推定 ▪ 全天球画像だからこそ可能な部屋の全体構造の学習を組み込み推定精度を向上 ▪ 物体を除いた深度を求めるcounterfactual depth推定タスクにも利用可能 Summary

75 ▪ U-Net構造の深度推定モジュールに、構造推定をPriorとして追加した構造 ▪ 学習時は深度マップから構造を再度推定しRegularizerとすることで精度向上 ▪ 家具の位置を考慮するAttention Moduleも追加 Method

76 ▪ 構造の学習とAttentionモジュールにより全体構造を捉えつつ細部も明瞭に推定 ▪ 構造推定のPrior・Regularizerモジュールはどちらも同程度効果を発揮 Results

77 Face Gesture, Body Pose 03-03

78 Face X-Ray for More General Face Forgery Detection Link
to paper

Summary ▪ 顔の合成画像（偽顔画像）を検出するSOTA手法を提案する ▪ 既存の手法は主に偽造の部分に注目するが、この論文では偽造の部分を背景画像に融合する時の痕跡に注目し、その輪郭を検出する同時に顔画像の真偽を判断する ▪ 特定手法の偽顔画像を学習しなくても検出できる。リアル顔画像だけでも学習できる 79

Method 80 ▪ 合成画像の背景および対象顔領域のマスク輪郭をFace X-Rayと定義する（式②） ▪ リアル画像のみ使う場合、まず顔画像のランドマークを検出し、nearest searchで似る顔画像一枚を選ぶ。ランドマークから初期マスクを作成し、式①②で合成顔画像と Face
X-Ray Bを生成する ▪ 合成画像をCNNに入力してFace X-Ray Bと真偽の分類confを出力し、上記手順の生成物を正解として、教師あり学習する ① ②

Results ▪ FaceForensics++データセットの4種類の手法の偽顔画像の一つを学習して、他の手法の偽顔画像もSOTAで検出できる ▪ リアル顔画像のみの学習＋FaceForensics++データセット追加で他の偽顔画像データセットでSOTAの検出性能が出る 81

82 Advancing High Fidelity Identity Swapping for Forgery Detection Link
to paper

83 ▪ Two-StageのFace swapping（対象画像の顔を別人の顔に置き換える）手法を提案する ▪ 既存の手法と比べて、対象画像の属性を充分に利用し高品質の合成ができ、遮蔽がある場合でもうまく扱える Summary

84 ▪ 二段階のアーキテクチャ: AEI(Adaptive Embedding Integration)-Net + HEAR(Heuristic Error Acknowledging
Reﬁnement)-Net ▪ AEI-Netの目的は高精度のswap画像を生成する ▪ identity encoderで置換え顔画像のid embeddingを抽出し, U-Net型のmulti-level attributes encoderで背景画像の属性を抽出, AADモジュールで上記二つの異なるレベルの特徴を融合する Method

85 ▪ HEAR-Netの目的は顔のocclusionを自然に合成する ▪ AEI-Netで同じ背景画像二枚を合成した場合、occlusion部分がうまく合成できない ▪ ①上記合成画像と元画像の差分＋②AEI-Netで背景画像と別の顔画像の合成画像をself-supervisedで学習して、背景画像のocclusionを保つ合成画像を生成する Method

Results ▪ 既存の手法と比べて背景画像の属性をもっと保留し、遮蔽も残る ▪ FaceForensics++ Datasetの各手法と比べて、顔認証（cosface）でのID復元と pose・expressionの差分が優れる 86

87 3FabRec: Fast Few-shot Face alignment by Reconstruction Link to
paper

Summary ▪ 半教師あり学習によりfew-shotでの顔ランドマーク推定で比較的良い性能を達成 ▪ 教師無しでAAEによる顔復元を学習した後、教師ありでランドマーク推定を学習 ▪ 顔復元の学習により顔形状の情報が暗黙に獲得されるためfew-shotでいける 88

Method ▪ VGGFace2+AﬀectNetの計2M枚でAAEを学習 ▪ デコーダ側に特徴変換を行う層を追加しランドマークのヒートマップを学習 89

Results ▪ SoTA手法に比べても見劣りしない性能 (右表) ▪ 学習データを減らしても比較的高い性能 (下表) 90

91 Learning Meta Face Recognition in Unseen Domains Link to
paper

Summary ▪ マルチドメインの学習データから学習して、未学習の新ドメインでもSOTAの性能を持つ顔認証の学習手法Meta Face Recognitionを提案 ▪ ドメインレベルのサンプリングストラテジーでbatchを取得し、マルチドメインの分布をオプティマイズする勾配を計算し、最後にそれらの勾配を結合する ▪
二つ顔認証の汎化性能を評価するベンチマークを提案する 92

Method 93 ▪ N個ソースドメインから、一つのドメインをテストとし、その他のドメインを学習用としてN個Meta-batchを構築する。各IDからgalleryとprobeを一枚ずつを抽出する ▪ 三種類のロスを計算する：①hard positiveとnegative対をオプティマイズする hard-pair attention
loss、②batch内の分類のsoft classiﬁcation loss、③ドメイン間の距離を近くためのdomain alignment loss ▪ meta-trainでは①②③を計算し、meta-testでは①②を計算する。両者同時にオプティマイズする ▪ 最後に全ての勾配を合算する

Results ▪ マルチドメインの顔認証ベンチマークGFR-RとGFR-Vのデータセットにおいて、SOTA の性能を示す 94

95 Self-supervised Learning of Interpretable Keypoints from Unlabelled Videos Link
to paper

Summary ▪ 自己教師学習で人間に解釈可能なキーポイント推定ができる手法を提案 ▪ ポイントはキーポイントを直接推定せずに骨格画像を経由し、骨格画像とキーポイントの変換を人手で設計すること 96

Method ▪ 全体構成としては画像からキーポイントにして画像を復元する形 ▪ 写っているのが同一人物であることが分かっている動画を利用 ▪ 画像から直接キーポイントを推定せず一度骨格画像を経由するのがアイディア ▪ 骨格画像がリアルかはdiscriminatorで判定 ▪
骨格画像はin-the-wildな画像に対するものでなくmocapから得られるもので良い点が重要 ▪ 骨格画像に元画像の情報が人に分からない形でエンコードされることを防ぐため、骨格画像からキーポイントに変換して戻す処理を挟む ▪ 骨格画像とキーポイントの変換を人が設計することで解釈可能な点が得られる 97

Results ▪ 人姿勢推定及び顔ランドマーク推定で既存の自己教師あり手法と比較し良い性能 ▪ supervised post-process: 学習されたキーポイントから解釈可能な点への変換の学習 98 人姿勢 Simplified
Human3.6M 顔ランドマーク 300W

99 Synthesis, Generative Model 03-04

100 SEAN: Image Synthesis With Semantic Region-Adaptive Normalization Link to
paper

▪ labelmap to image の GANでの生成品質を向上 ▪ 各labelmap 領域での style
埋め込みを向上し、PSNR、visual inception 指標を向上 ▪ 各labelmap 領域ごとに style 指定し生成でき、制御性が向上 101 Summary

102 ▪ 各labelmapごとに、特徴マップを作りSPADE Blockで同時に埋め込み ▪ 学習時には、画像の再構成で学習 ▪ 推論時には、各labelmapごとに別画像から特徴マップ作り sytle指定しての生成が可能 Method
SPADE (従来SoTA) SEAN

103 ▪ 各labelmapごとに、特徴マップを作りSPADE Blockで同時に埋め込み ▪ 学習時には、画像の再構成で学習 ▪ 推論時には、各labelmapごとに別画像から特徴マップ作り sytle指定しての生成が可能 Method

104 ▪ 画像の再構成、labelmap to Imageの生成品質、を CelebAMask-HQ、CityScapes、 ADE20K、Fascadesで比較 ▪ 画像の再構成をSSIM、RMSE、PSNRで、生成品質をmIoU、accuracy、FIDで、それぞれ評価
▪ labelmapごとの埋め込みを行わない従来手法に対し性能向上 Results

105 Results CelebA Mask-HQ ADE20K CityScapes Facades Style Transfer

106 Results Style Interpolation

Learning to Shadow Hand-Drawn Sketches 107 Link to paper

▪ 線画に対する光源方向指定しての影生成 ▪ 線画・影のペアに、光源方向ラベルを付けたデータセットを作成（1160ペア） ▪ 主観評価の指標向上 108 Summary

109 ▪ Shape Net で、2D線画を表現ベクトルへ埋め込み ▪ Render Netで、線画表現埋め込み・光源指定埋め込みから、影生成 ▪ 敵対的
loss、影の再構成 loss（最終出力、及び、途中2段階）で学習 ▪ 光源方向は26方向でアノテーション Method 影の再構成 loss

110 ▪ 線画に対する詳細な影生成を実現 ▪ 主観評価も先行手法から向上 Results 影生成例前方光源側方光源
後方光源

111 ▪ 線画に対する詳細な影生成を実現 ▪ 主観評価も先行手法から向上 Results Deep Normal (ECCVW’18)
Sketch2Normal (PACMGIT’18) Pix2Pix (CVPR’17) U-net (MICCAI’15)

Learning to Cartoonize Using White-Box Cartoon Representations 112 Link to
paper

▪ 写真から Cartoon画像へDomain変換 ▪ 1) Surface Representation、2) Structure Representation、3) Texture
、の３表現の観点でのLossを用い、画像生成学習 ▪ 主観評価の指標向上 113 Summary

▪ 画像の surface representation、structure representation、texture representation の表現を抽出処理し生成学習に利用。lossの重み付けで生成制御 ▪ 他のlossは、total variation
(TV) Loss: 空間的滑らかさ保持と高周波ノイズ除去、 Content Loss: 内容保持 114 Method

115 Results 生成結果入力生成結果入力

116 ▪ Cartoon変換、Photo変換ともに、FID向上 ▪ 主観評価も向上 Results Fast Neural Style
CartoonGAN (CVPR’18) CycleGAN (CVPR’1’) FID User Study

SynSin: End-to-End View Synthesis From a Single Image 117 Link
to paper

▪ 1枚画像からの view synthesis ▪ 3次元幾何のモデル化のために微分可能な point cloud renderer ▪
欠損箇所の補完のためにGANを利用 ▪ self-supervised で end-to-end学習 118 Summary

▪ 入力画像から同解像度の画像特徴、depth mapを予測・3D射影し point cloudを構築 ▪ 微分可能な point cloud renderer
により、point cloud を新しい view に変換し画像特徴を生成し、reﬁnement networkで欠損部分を補完し新しいviewの画像を生成 ▪ adversarial loss、L1 loss、perceptual loss で学習 ▪ テスト時には、未知のシーン画像と期待カメラ視点から、シーン画像の view を生成 119 Method

▪ neural point cloud renderer ▪ end-to-endで微分可能 ▪ 特徴量抽出networkとdepth map算出networkの学習のために、画像特徴量と3D座標のそれ
ぞれで微分可能 ▪ 従来のrendererで課題だった局所的な近傍のみしか扱えない・hard z-buﬀerの扱いを解消 ▪ 3D点集合を近傍を重み重み付けし2D射影することにより 2D座標での誤差逆伝搬を可能に ▪ 射影点集合をα合成し全ての点が最終値に寄与する形に ▪ Rendering高速化（Point cloud to image）forward：従来の27倍、backward：400倍 120 Method

121 ▪ 生成品質を Matterportで学習しMatterport・Replicaで評価、及び、RealEstate10K での学習・評価で比較 ▪ PSNR、SSIM、Perceptual Similarityの指標、及び、主観評価で、定量評価 ▪ 従来手法に対し、性能向上
Results

122 ▪ 生成品質を Matterportで学習しMatterport・Replicaで評価、及び、RealEstate10K での学習・評価で比較 ▪ PSNR、SSIM、Perceptual Similarityの指標、及び、主観評価で、定量評価 ▪ 従来手法に対し、性能向上
Results

123 Self-Supervised Scene De-occlusion Link to paper

124 ▪ 各物体と背景の分離および見えない部分の補完をself-supervisedで実現 ▪ 順序情報や見えない部分のマスクが学習に不要 ▪ 完全な教師あり手法と同程度の精度を達成 ▪ 擬似的なamodal instance
segmentation教師データ作成が可能 Summary

125 ▪ 補完は人為的にオクルージョンデータを作りself-supervisedで学習 ▪ 推論時は隣接物体間で補完時の増大量を比較し順序を推測 ▪ 推測した順序情報も使い各物体を補完 Method

126 ▪ 物体の順序や位置の変更が高品質で実現 ▪ 見えない部分の補完で教師ありに匹敵する精度を達成 ▪ amodal instance segmentationで教師データを使った場合と同精度を達成 Results

127 PULSE: Self-Supervised Photo Upsampling via Latent Space Exploration of
Generative Models Link to paper

128 ▪ 従来一般的であった高解像度画像（真値）と超解像画像の誤差を最小化するというアプローチとは大きく異なる超解像手法を提案 ▪ GANにより獲得した高解像度画像の潜在空間を探索し、ダウンスケールにより入力低解像度画像を正しく再現できる高解像度画像を生成 ▪ 64倍拡大のような従来手法よりも大幅に大きな拡大倍率を実現 Summary

129 ▪ 入力低解像度画像から高解像度画像を再構成しようとすると、実際には解が多数存在するため不良設定問題となり結果がぼやけるなどの問題が発生 ▪ StyleGANを使って高解像度画像の潜在空間を獲得し、潜在変数から生成した高解像動画像をダウンスケールした画像と入力低解像度画像の差分が小さくなるように潜在空間内を探索 ▪ 探索範囲を超球表面に限定することで生成画像の妥当性と探索の容易化を実現
Method 入力低解像度画像解となる高解像度画像は多数存在

130 ▪ Flickr Face HQ Datasetで学習済みのStyleGANを利用しCelebA HQの超解像を実施 ▪ 8倍（16x16 →
128x128）と64倍（16x16 → 1024x1024）の拡大率で実験 Results

131 Results

132 ▪ 定量評価では主観品質を表す尺度としてMOS（Mean Opinion Score）とNIQE （Naturalness Image Quality Evaluator）を利用 ▪
NIQEにおいては実際の高解像度画像を上回るスコアを達成 Results 8倍拡大（128x128）におけるMOS比較（値が大きいほど高品質） 64倍拡大（1024x1024）におけるNIQE比較（値が小さいほど高品質）

133 Object Detection 03-05

134 Bridging the Gap Between Anchor-based and Anchor-free Detection via
Adaptive Training Sample Selection Link to paper

135 ▪ anchor-basedの物体検出モデルとanchor-freeの物体検出モデルにおいて、両者の検出精度の違いの本質的な原因は、学習時のpositive sampleとnegative sampleの定義にあることを明らかにした ▪ 学習サンプルの統計的特性に応じて適応的にpositive/negative sampleを定義づける
ATSS（Adaptive Training Sample Selection）を提案 ▪ ATSSにより、anchor-based/anchor freeの両モデルの検出精度を向上 Summary

136 ▪ anchor-basedモデルのRetinaNetと、anchor-freeモデルのFCOSを比較 ▪ anchor boxを1つに限定したRetinaNetとFCOSにおいて、FCOSに特有のモジュールを RetinaNetに追加し、両モデルの条件を揃えて比較 ▪ 同じ条件に揃えてもAPに0.8ポイントの差異があったが、両者を学習する際の positive/negative
sampleの定義を揃えると、検出精度が一致することを確認 Method

137 ▪ 学習サンプルの統計的特性に応じて適応的にpositive/negative sampleを定義する ATSS（Adaptive Training Sample Selection）を提案 Method

138 ▪ ATSSを適用することでRetinaNet/FCOSの両モデルの検出精度が向上するとともに、検出精度がほぼ一致 ▪ ATSS適用下では、RetinaNetのanchor boxを増やしても精度向上に全く寄与しない（anchor boxが1つであっても検出精度が高い）ことを確認 ▪
ATSSを適用することで、MS COCOデータセットにおいて既存手法を上回る検出精度を達成 Results

139 Overcoming Classiﬁer Imbalance for Long-Tail Object Detection With Balanced
Group Softmax Link to paper

Summary ▪ 通常の検出器がlong-tailedデータセットで学習する際に、分類器の重みのnormは不均衡であることを分析し、分類器が平等に学習していないのは性能が悪いの原因の一つだとわかった ▪ balanced group softmaxを提案し、long-tailedデータセットでの物体検出と segmentationなどのタスクでSOTAの性能を示す
140

Method 141 ▪ classを学習データのインスタンス数によってNグループに分割し（背景classは単独グループに）、各グループの中にothers classを追加する ▪ 各グループごとにsoftmax cross entropy
lossを計算する ▪ 推論時、背景class以外のclassを元のclass IDに戻し、背景グループのothers classの probabilityと乗算でrescaleして、背景classのprobabilityと合わせて最後の結果とする

Results ▪ 一般の検出器および他のlong-tailedデータセット対策のresampling/re-weight手法と比べてSOTAの性能を示す 142

143 Detection in Crowded Scenes: One Proposal, Multiple Predictions Link
to paper

Summary ▪ 混雑したシーンでのoverlapした物体を検出するため、一つのproposalで複数のobject を検出する手法を提案する ▪ EMD loss とset NMSなどのテクニックを使うことで、混雑データセットと普通データセット両方での検出性能を向上する
144

Method 145 ▪ proposalとのIOUは一定値以上のground-truth物体をそのproposalのGTとする ▪ 一つのproposalはK個bboxを推論する（背景クラスを含む） ▪ K個bboxを一番近いGTにmatchするようにEMD lossを定義する ▪
NMSを実行するとき、同じproposal内のbboxをsuppressしない ▪ optionとして、推論したbboxを元のfeatureとconcatするreﬁne moduleを提案する

Results ▪ CrowdHumanおよびCityPersonsデータセットでSOTA ▪ COCO（混雑データセットではない）でも性能向上 146

147 MPM: Joint Representation of Motion and Position Map for
Cell Tracking Link to paper

148 ▪ 位相差顕微鏡画像において、細胞の検出と追跡を同時に予測するMotion and Position Map（MPM）を提案 ▪ 検出と追跡を別々に解く既存手法に比べ、検出精度と追跡精度を大きく向上 Summary

149 ▪ MPM-NetはU-Netをベースとした構造を持ち、隣接する2フレーム（フレームt-1およびフレームt）を重ねた入力画像から、ピクセル毎に3次元のベクトルを出力 ▪ ベクトルは、フレームtにおける細胞の存在確率と、フレームtからフレームt-1の間における細胞の移動量を表現 ▪ シーケンス内の隣接フレームに対してMPM-Netで繰り返し推論を行うことで、シーケンス全体で細胞を追跡
Method

150 ▪ publicな顕微鏡画像のデータセットに対して一部アノテーションを追加し、提案手法を評価 ▪ 複数フレームを入力とすることにより、細胞の検出精度を従来手法に比べて向上既存の追跡手法に比べて追跡精度も大幅に向上 Results

151 Segmentation 03-06

152 PointRend: Image Segmentation as Rendering Link to paper

153 ▪ レンダリングを応用した新しいセグメンテーション手法を提案 ▪ サンプリング密度を領域ごとに適応的に変化させることで、効率良くかつ鮮明なオブジェクト境界を得ることが可能 Summary

154 ▪ まず低い解像度の特徴マップから粗いセグメンテーションを行う ▪ より詳細な推定を行うため、PointRendは境界付近の点のセットを選択し、高解像度な特徴マップと軽量のmlpを用いて各点に対して独立に予測を行う ▪ このプロセスを反復的に適用することで、予測されたマスクの不確実性の高い領域を洗練させていく Method

155 ▪ 推論時は、各領域に関してadaptive subdivisionを用いてcoarse-to-ﬁneに推論を行う ▪ 低解像度のマップに対してbilinear補間を用いて2x upsampleを行い、上位N個の曖昧な領域に関してPointRendを用いてラベルを予測する ▪ このプロセスを目標の解像度になるまで繰り返す
Method

156 ▪ PointRendを学習するときにも、ポイント選択が必要となる ▪ 推論時に似た細分化が必要となるが、sequentialなステップは誤差逆伝播法に向かないため、ランダムサンプリングに基づく以下の戦略を使用 ▪ 1. ランダムに kN
points(k > 1)一様分布からサンプリングする ▪ 2. coarse predictionの予測値を用いて、kN pointsの中から不確実性の高いβN個 (β ∈ [0、 1])の点をサンプリングする ▪ 3. (1 - β)N個を一様分布からサンプリングする Method

157 ▪ Mask R-CNNに比べてオブジェクトの境界が鮮明になっている Results

158 Real-Time Panoptic Segmentation from Dense Detections Link to paper

159 ▪ panoptic segmentationにおいて物体検出の結果を活用しリアルタイム化を実現 ▪ 通常はNMSで破棄する重複バウンティングボックスからインタンスマスクを生成 ▪ SoTAからの性能劣化を3%に抑えて4倍の高速化を達成（30fps@1024x2048） Summary

160 ▪ FPNの各レベルから画素ごとに密なバウンティングボックスを生成し、その特徴マップを流用することでsemantic segmentationを実施 ▪ semantic segmentationのための独立ブランチを設ける場合に比べ計算効率が向上 Method

161 ▪ 密に生成したバウンディングボックスの中からNMSでクエリとなるボックスを選択 ▪ クエリボックスと他ボックスとのIoUおよびsemantic segmentation結果から self-attentionによりインスタンスマスクを生成 Method

162 ▪ CityscapesおよびCOCOを用いて従来のsingle-stage、two-stage手法と比較 ▪ 性能評価にはpanoptic quality（PQ）を利用 ▪ いずれのsingle-stage手法よりも高性能で、かつtwo-stage手法に匹敵 Results Cityscapesでの結果
COCOでの結果

163 Results 入力画像提案手法 (30fps) UPSNet (7fps)

164 Predicting Semantic Map Representations from Images using Pyramid Occupancy
Networks Link to paper

165 ▪ 車両周辺環境のbirds-eye-viewマップを単眼カメラ画像から直接予測する手法を提案 ▪ 車道や歩道などの静的な物体に加え、車両や歩行者などの動的な物体もマッピング ▪ マップは物体カテゴリごとの占有格子地図として表現されているため、ベイズフィルタを用いて異なる視点のカメラから得られたマップをシンプルかつ自然に統合することが可能 Summary

166 ▪ ResNet-50+Feature Pyramid Networkで特徴抽出 ▪ 特徴マップ上の列方向をエンコードすることで、birds-eye-view上での奥行き方向の特徴（BEV features）を抽出 ▪
カメラパラメータを用いてBEV featuresを空間上でリサンプルし、物体カテゴリごとの占有確率を各グリッドで予測 Method

167 ▪ NuScenesおよびArgoverseデータセットで提案手法を評価し、既存手法に比べてそれぞれ9.1%、22.3%の改善 ▪ 得られたマップに対してベイズフィルタを適用することで、複数フレームの情報も容易に統合可能 Results

168 Cars Can't Fly Up in the Sky: Improving Urban-Scene
Segmentation via Height-Driven Attention Networks Link to paper

169 ▪ 車載画像のセグメンテーションでクラスの出現頻度が高さごとに異なることに着目 ▪ この情報を考慮するモジュールは既存モデルに容易に追加可能で精度が向上 Summary

170 ▪ チャンネルごとに位置（高さ方向）の重み付けをするHANetを考案 ▪ 車載画像セグメンテーションにおいては5つの異なる層にHANetを追加 Method

171 ▪ 中間層では高さごとに異なるサイズの受容野に対応する重みが増加 ▪ 出力層では高さごとに実際のクラス分布に対応した重みを学習 ▪ コストをほぼ変えずに精度が向上 Results

172 Foreground-Aware Relation Network for Geospatial Object Segmentation in High
Spatial Resolution Remote Sensing Imagery Link to paper

173 ▪ 高分解能のリモートセンシング画像に対するsemantic segmentationにおける問題 ▪ foreground objectサイズのばらつきが大きい ▪ backgroundクラス内でのバリエーションが非常に大きい ▪
foreground objectよりもbackgroundが圧倒的に多い不均衡データである ▪ これらに対処するためforeground-aware relation network（FarSeg）を提案 Summary

174 ▪ Feature Pyramid Networkの最も解像度の小さいfeatureから画像全体のコンテクストを抽出し、これを用いてpyramidの各featureに対するattention map （foreground-scene relation heatmaps）を生成
▪ attention mapをfeatureに作用させることで、そのシーンに最も適したfeatureを学習 Method

175 ▪ focal lossを用いることでforeground exampleとhard background exampleを優先的に学習することで、クラス不均衡に対処 ▪ 学習初期は通常のcross
entropy lossで学習し、学習が進むにつれてfocal lossに近づけていくことで、学習初期を安定化しつつ最終的な精度も向上 Method

176 ▪ iSAIDデータセット（最大規模の高解像度リモートセンシング画像とsegmentationラベルのデータセット）において評価 ▪ 比較手法の中では最も高精度 ▪ 推論速度と精度のトレードオフでも他手法を凌駕 Results

177 Network Pruning 03-07

178 Towards Eﬃcient Model Compression via Learned Global Ranking Link
to paper

Summary ▪ モデルの大域的なフィルタの重要度をEAで求めるプルーニング手法LeGRを提案 179

Method ▪ フィルタの重要度を大域的に付けられること、及びその重要度はフィルタのL2ノルムの線形変換で測れることを仮定 ▪ 線形変換のパラメータは進化アルゴリズムで学習 ▪ ﬁtnessは「そのパラメータによる大域的重要度で指定の最大プルーニング率分プルーニング後、指定イテレー
ションﬁne-tuneした時のval精度」 180

Results ▪ CIFAR-10/100, ImageNet 等で既存手法より良い性能を確認 181 CIFAR-100での比較結果 ImageNetでの比較結果

182 HRank: Filter Pruning using High-Rank Feature Map Link to
paper

Summary ▪ 特徴マップのランクによる順位付けを用いたプルーニング手法を提案 ▪ 特徴マップのランクが入力画像にあまり依存しないことを観察 ▪ ランクの小さいフィルタを優先的に除去 183

Method ▪ 各フィルタの特徴マップの平均ランクを可視化 (下図) ▪ X軸: フィルタ、Y軸: 画像枚数、色: ランク ▪
平均ランクが入力画像枚数にあまり依存しないことが分かる 184

Results ▪ CIFAR-10及びImageNetによる実験で既存手法と比べて良い性能を確認 185

186 Metric Learning 03-08

Cross-Batch Memory for Embedding Learning 187 Link to paper

Summary ▪ 本研究で提案するXBM（Cross-Batch Memory）は、過去のサンプルの埋め込みを一定期間保持することで、一度に多くのサンプルを考慮可能 ▪ 学習の経過による埋め込みの変化が微小なことを理論的・実験的に示した ▪ 既存の距離学習の損失関数に自然に組み込むことが可能であり、contrastive lossと組
み合わせるだけで画像検索のタスクにおいてstate-of-the-artの性能を示した 188

Method ▪ 距離学習は、典型的にミニバッチ内でのみhard negativeを考慮する ▪ そのため、バッチサイズを大きくすればするほど一度に考慮可能なサンプルが増加し、より効果的なhard negativeをサンプリングすることができる ▪ 本研究で提案するXBM（Cross-Batch
Memory）は、過去のサンプルの埋め込みを一定期間保持することで、バッチサイズを大きくすることなく一度に考慮可能なサンプル数を増加可能 ▪ 学習の経過による埋め込みの変化が小さいことを理論的・実験的に示し、過去のサンプルの埋め込みと現在のモデルが抽出したサンプルの埋め込み間で距離計算を行っても問題ないことを示した ▪ コード数行で既存の損失関数に組み込むことが可能 189

Results 既存の距離学習の損失関数と組み合わせることで画像検索のタスクにおいて state-of-the-artの性能を示した 190

Embedding Expansion: Augmentation in Embedding Space for Deep Metric Learning
191 Link to paper

Summary ▪ 距離学習において、近年では人工的にhard exampleを生成する手法が提案されているものの、サンプル生成のためのネットワークが追加で必要だった ▪ 本研究では、内挿によって人工的にhard exmpleを生成する手法「embedding expansion」を提案することでシンプルかつ高速なhard exampleの生成を実現
▪ 既存の距離学習の損失関数に自然に組み込むことが可能であり、画像検索・クラスタリングのタスクにおいて state-of-the-artの性能を示した 192

Method ▪ ミニバッチ内で、同一クラスに属する2つのサンプルの埋め込みベクトルに対して、n 個の内分点をオンラインで計算する ▪ 内分点の計算後、L2正規化を施す ▪ 元のサンプル+生成されたn個の内分点と他のクラス（negative class）の元のサンプル+生成されたn個の内分点同士で距離を計算し、最も類似しているサンプルを
hardest exampleとする ▪ 本手法はtriplet loss, N-pair loss, MS loss など、他の距離学習の損失関数の hard negative pair mining手法として用いることが可能 193

Results 194

195 Datasets, Others 03-09

Google Landmarks Dataset v2 A Large-Scale Benchmark for Instance-Level Recognition
and Retrieval 196 Link to paper

Summary ▪ 画像検索・インスタンス認識のためのデータセットである「Google Landmarks Dataset v2」を提案 ▪ 画像検索・インスタンス認識の分野の発展にともなって、よりチャレンジングなデータセットが必要というモチベーション ▪
世界中のランドマーク画像をWikimedia Commonsを利用して収集 ▪ 400万件以上のサンプル数と20万件以上のラベルを有する ▪ 非常にラベル不均衡なデータセットとなっている 197

Method ▪ データセットの構築： ▪ Wikimedia Commonsから画像を収集 ▪ Google Knowledge Graphを用いてランドマークに関連するクエリを投げ、
関連するWikipediaの記事からラベル付け ▪ テストデータにはクラウドソーシングで集めたデータも追加 ▪ テストデータの再アノテーション： ▪ データセットには多くのラベルノイズが含まれており、より高品質な評価ベンチマークを提供するために半自動なテストデータの再アノテーションツールを開発 ▪ 20万件ものラベルのアノテーションは人手では難しいため、「アノテーション対象の画像と候補画像が同一のランドマークか？」という易しめのタスクを解かせる ▪ 候補画像の提示には、GLD-v2における複数のコンペ上位者のモデルの予測を利用 198

Results 199

200 Dynamic Traﬃc Modeling from Overhead Imagery Link to paper

201 ▪ 時刻、緯度経度、およびその地点における空中写真を入力として、道路の交通流速を推論するCNNモデルを提案 ▪ 構築コストが高い道路ネットワークの情報を必要とする既存手法に対し、提案手法では航空写真から直接、様々な時刻における交通流速を動的に推定できる Summary

202 ▪ LinkNetをベースとしたCNNにより、道路マスク、進行方向、交通流速をピクセルごとに推論 ▪ 時刻に応じて動的な交通流速を推論するため、交通流速を予測するdecoderには、時刻情報（曜日・時刻）および緯度経度も入力 ▪ 学習および評価のためのデータセットは、Bing Mapsから取得した空中写真と、Uber
Movements Speedsの交通データを用いて独自に作成 Method

203 ▪ 道路マスク、進行方向、交通流速をマルチタスクで学習することにより、RMSEで 10.66（km/h）の精度で交通流速を予測可能 ▪ 時刻に対して動的に正確な交通流を予測できており、等時性マップ（ある地点まで到達するための所要時間をマッピングしたもの）の作成、分析などにも活用可能 Results

204 Visual Chirality Link to paper

205 ▪ 左右反転（鏡像）に対する画像分布の対称性としてvisual chiralityという新たな概念を提唱 ▪ 左右反転画像と原画像とを見分ける CNNを訓練したところ、人間には困難でもCNNは高精度に判別可能なことが
判明 ▪ data augmentation等では画像分布が左右反転に対して対象であることを仮定しがちだが、実際にはそうでないことを念頭に置くべき Summary 入力画像（左から左右反転あり、なし、あり）上記画像に対するCNNの着目領域ヒートマップ

206 ▪ 画像xの分布をD(x)とすると、変換Tによるdata augmentationはD(x) = D(T(x))を仮定していることとなる ▪ 上記近似の実際の画像分布からのズレをvisual chiralityと定義
▪ 実際には画像分布が未知であるため、ある画像が左右反転されているか否かを見分ける CNNを訓練し、その精度によってvisual chiralityを定量的に評価 Method 対称性からのズレを visual chiralityと定義

207 ▪ 画像の内容、および画像の内容と関連が低い低レベル特徴（ベイヤ配列のデモザイキングやJPEG圧縮など）の双方がvisual chiralityに寄与 ▪ 低レベル特徴については以下の関係性を解明 ▪ デモザイキングとJPEG圧縮はそれぞれchiralであり、両者を組み合わせてもchiralとなる ▪
ランダムクロップをデモザイキングまたはJPEG圧縮と個別に組みわせるとachiralとなる ▪ ランダムクロップ、デモザイキング、JPEG圧縮を全て組み合わせるとchiralとなる ▪ CNNが画像の内容に注目して左右反転を判別するように学習させるため、ImageNet分類で事前学習した重みからスタートし、かつ画像に対してランダムクロップを適用 ▪ 同データセット内で学習、テストを実施した場合は80%と高精度な識別が可能 ▪ 学習データセットとは異なるデータセットでテストした場合も59%とチャンスレート以上 Results

208 ▪ CAM（Class Activation Map）による推論結果の可視化により、手やシャツの襟など左右反転の手がかりとなる箇所に正しく注目できていることを確認 ▪ 一方、人間の顔など一見すると左右反転の手がかりとならないような箇所にも注目しているが、実際に非対称性が存在すると推察可能（下の例では髪の分け目に注目しているが、これは髪の分け目を左に持ってくる人が多いためと考えられる）
Results

209 Uncertainty-aware Score Distribution Learning for Action Quality Assessment Link
to paper

Summary ▪ 動画からアクションの質を評価する研究 ▪ 既存研究のほとんどは、スコアラベルの曖昧さと複数の審査員が主観的に採点することを無視している ▪ 提案手法では、不確実性を考慮した分布学習とマルチパス不確実性を考慮した評価者ごとのスコア分布の学習を行う 210

Method ▪ N個のクリップに分割し、I3Dとmlpを用いて各クリップに対して特徴量を抽出 ▪ 各特徴量に対し、temporal poolingとsoftmaxを適用し、スコアの分布を予測 ▪ 学習時は、予測した分布とスコアデータから作成した分布をKLロスで近づける ▪ 推論時は、予測した分布から一番確率が高いスコアを選択し、予測値とする
211

Method ▪ 複数の評価者がいる場合、シングルパスのときと同様のネットワークを評価者の人数分用いて、それぞれスコアの分布を予測するように学習 ▪ 最終的なスコアを出すときには、各ネットワークの出力をそれぞれの評価者のスコアとし、ゲームのルールに従って算出 212

Results ▪ AQA-7 datasetでSync. 10m以外の項目でstate-of-the-artを達成 ▪ スコア分布には、カイ二乗分布・三角分布・ガウシアン分布等から、タスクに適したものを選択する必要がある 213

214 How much time do you have? Modeling multi-duration saliency
Link to paper

215 ▪ 画像の視聴時間ごとの顕著性ヒートマップ推定タスクの提案 ▪ 時間経過ごとの人間の関心の変遷を捉えることが可能 ▪ 1000枚のデータセットとLSTMを使ったモデルを開発 Summary

216 ▪ 経過時間ごとの視線データはウェブ上で収集 ▪ 見ていた位置に表示されたコードを入力する方式により特殊な装置不要で収集 Method

217 ▪ 画像を入力しエンコーダデコーダモデルでヒートマップを生成する基本構造 ▪ エンコーダとデコーダの間に、経過時間ごとの重み付けを行うモジュールを追加 ▪ 隣接時間同士でヒートマップの相関係数が真値に近くなるように損失関数を導入 Method

218 ▪ 関心の変遷を反映したクロッピングやキャプショニングに応用できることを確認 ▪ 提案モデルは既存モデルで時間ごとに学習するよりも高精度な推定を実現 Results

219 EmotiCon: Context-Aware Multimodal Emotion Recognition using Frege’s Principle Link
to paper

220 ▪ 動画像からコンテキストを考慮した感情の推定 ▪ 従来手法では、顔や視線を入力とした感情推定が一般的 ▪ 本手法では背景から得られるコンテキストとdepth mapから得られる他者との相互作用を用いて推定 Summary

221 ▪ 背景のコンテキスト（晴れ、帽子、草原、ワイングラス等）は、対象の人物が知覚する感情に対して影響を与える ▪ semantic sceneの理解のため、対象の人物領域をマスキング Method

222 ▪ 心理学の分野で他人の存在の有無が対象人物の感情状態に影響を与えることが既知 ▪ 例：周りの人が知り合いの場合と知らない人の場合で行動が変化 ▪ これらの相互作用や近接をdepth mapとして考慮することで、感情推定の精度向上 Method

223 ▪ 各コンテキストから得られる特徴量から感情を推定 Method

224 ▪ 左中/左下のcontext2のアテンションマップから、子供持っている凧や棺桶が、それぞれsadnessやpleasureの根拠となっていることが分かる ▪ 左上のcontext3のデプスマップから、周囲の人がテニスプレイヤーへの期待が分かると論文中に書かれている Results

225 ▪ 指標にはaverage precisionを使っており、EMOTIC datasetの多くの感情で、既存手法を上回る結果 ▪ 本研究で作成されたGroup Walk Datasetでも同様に、既存手法を凌駕
Results

226 Can Deep Learning Recognize Subtle Human Activities? Link to
paper

227 ▪ 人間の行動の僅かな差をラベル付けしたデータセットを作成 ▪ 既存の行動認識データでは背景などがバイアスとして存在 ▪ 本から目を逸らしているかといった違いは既存の画像分類手法では区別が困難 Summary

228 ▪ 「飲んでいるか」「読んでいるか」「座っているか」の3種類のデータを作成 ▪ 「飲んでいる」と「読んでいる」のような分類はせず、各2値分類のみに着目 ▪ 同じ場所でYesとNoの写真を撮影しラベル付 ▪ 人間が50msや800msの時間で分類ができるかを検証 ▪
ImageNetで高精度なCNNモデルで分類できるかを検証 ▪ キーポイント検出等で行動に関係する特徴を抽出しSVMで分類できるか検証 Method

229 ▪ ImageNetで高精度なCNNモデルも人間と比べはるかに低い精度 ▪ キーポイントなど行動に関係する特徴をSVMで分類しランダムを上回る精度を達成 Results

230 04 Workshop/Tutorial紹介

231 主催者：Uber ATG 自動運転に必要な各要素技術について、ハードウェア・ソフトウェア双方の観点を含め、主に Uber ATG の自社技術を中心に、最新の研究状況の紹介内容： ▪
Hardware ▪ Introduction to Autonomy Software ▪ Perception ▪ Prediction ▪ Motion Planning and Controls ▪ Vehicle-to-Vehicle Communication (V2V) ▪ Datasets and Metrics ▪ Simulation ▪ Building HD Maps ▪ Localization All about self-driving [LINK]

Hardware ▪ Introduction to Autonomy Software ▪ Perception ▪ Prediction ▪ Motion Planning and Controls ▪ Vehicle-to-Vehicle Communication (V2V) ▪ Datasets and Metrics ▪ Simulation ▪ Building HD Maps ▪ Localization All about self-driving [LINK] Hardware • 各センサの短所長所を述べつつ紹介 LiDAR 長所 • 正確なシーン構造 • 環境光にロバスト • 反射強度を特徴量にできる短所 • 高価格 • 低解像度 • 天候に敏感カメラ長所 • テクスチャ情報 • 低価格・高解像度 • 高フレームレート • 豊富なレンズ設定短所 • デプスが得られない • 照明条件に敏感 • レンズ歪みレーダー長所 • 距離・速度の取得が可能 • 遠近両対応 • 天候にロバスト短所 • 小物体からの反射が弱い • LiDARより低解像度 • 多重波伝搬の問題赤外線カメラ長所 • 環境光にロバスト • パッシブIRでは温度を特徴量にできる短所 • アクティブIRは距離とコントラストに制限がある • パッシブIRは高価格

Hardware ▪ Introduction to Autonomy Software ▪ Perception ▪ Prediction ▪ Motion Planning and Controls ▪ Vehicle-to-Vehicle Communication (V2V) ▪ Datasets and Metrics ▪ Simulation ▪ Building HD Maps ▪ Localization All about self-driving [LINK] Introduction to Autonomy Software • Uberではタスク分割型とend-to-end型の長所を組み合わせた手法を開発中 • タスクに分けることで検証や事前知識の導入を容易化 • end-to-endでの学習を可能にすることで生産性を向上 • interpretabilityの重要性を強調

Hardware ▪ Introduction to Autonomy Software ▪ Perception ▪ Prediction ▪ Motion Planning and Controls ▪ Vehicle-to-Vehicle Communication (V2V) ▪ Datasets and Metrics ▪ Simulation ▪ Building HD Maps ▪ Localization All about self-driving [LINK] Perception • 3次元物体認識のためのセンサ、データ表現、アルゴリズム等を紹介 • LiDARベース手法 ◦ 2D認識と同様、2-stage、1-stage手法が存在 • カメラベース手法 ◦ 入力、特徴、出力のどこで3次元化するか ◦ 特徴空間でのlyftが精度と計算量のちょうど良いトレードオフ • センサフュージョン手法 ◦ カスケード、および入力、特徴、出力のどこでフュージョンするか ◦ 特徴空間でのフュージョンはキャリブレーション誤差にロバスト • HDマップの利用 ◦ ジオメトリはperceptionのためのリッチな事前知識を提供 ◦ ラスタはCNNとの親和性が高いがレンダリングで情報が失われる ◦ レーングラフは情報欠損がないがGNNなどモデル設計が複雑になる • 未知物体の認識 ◦ open-set物体認識は自動運転におけるperceptionのクリティカルな課題

Hardware ▪ Introduction to Autonomy Software ▪ Perception ▪ Prediction ▪ Motion Planning and Controls ▪ Vehicle-to-Vehicle Communication (V2V) ▪ Datasets and Metrics ▪ Simulation ▪ Building HD Maps ▪ Localization All about self-driving [LINK] Datasets and Metrics • 自動運転の技術開発ための様々なデータセットおよび評価指標を紹介 • UberでもATG4Dと呼ぶ大規模データセットを構築（近日公開？） • 特定タスクに特化したデータセットも紹介 ◦ HD Maps：Lyft L5、NuScenes、Argoverse ◦ Localization：Pit30M ◦ Lane Detection：TuSimple、CuLane、BDD-100k ◦ Traffic Sign：Mapillary Traffic Sign Dataset ◦ Traffic Light: LISA Traffic Light Dataset

236 主催者：FAIR Images、3D、Videoの３つの各研究分野について、基礎理論、最新研究状況の紹介と各 FAIR製ライブラリ（Detectron2、PyTorch3D、PySlowFast）の紹介 ▪ Object Detection as a Machine
Learning Problem (Ross Girshick) ▪ Pixel-Level Recognition (Alexander Kirillov) ▪ Detectron2 (Yuxin Wu) ▪ Making 3D Predictions with 2D Supervision (Justin Johnson) ▪ PyTorch3D (Nikhila Ravi) ▪ Eﬃcient Video Recognition (Christoph Feichtenhofer) ▪ PySlowFast (Haoqi Fan) Visual Recognition for Images, Video, and 3D [LINK]

237 主催者：東大の松井さん、メルカリの山口さん、NIIのZhenさん検索手法の基本である NN/ANN から、その応用先としてメルカリでの大規模画像検索に関する実例やperson re-identificationの研究動向を紹介 ▪ Billion-scale Approximate
Nearest Neighbor Search 大規模検索を実現するための工夫を観点別に整理して解説 ▪ A Large-scale Visual Search System in the C2C Marketplace App Mercari 画像検索することの利点から実際のシステム構造までメルカリを例として解説 ▪ Beyond Intra-modality Discrepancy: A Survey of Heterogeneous Person Re-identification person re-identificationに関するサーベイ、手法の解説 ▪ Live-coding Demo to Implement an Image Search Engine from Scratch Image Retrieval in the Wild [LINK]

238 主催者：Facebook、Microsoft、ETH、カーネギーメロン大など企業、大学から多数撮影画像からのカメラの位置姿勢推定というコア技術を共通的に用いるLocalization、 SLAM*1、VO*2についてのコンペや招待講演、論文発表で構成されるワークショップ • Localization Challenge [LINK] カメラ位置姿勢推定に関するコンペの結果発表および上位チーム講演
タスクは以下の3つ 1. visual localization for autonomous vehicles（動画像からのカメラ位置姿勢推定） 2. visual localization for handheld devices（静止画からのカメラ位置姿勢推定） 3. local features for long-term localization（画像からの局所特徴量抽出） • Invited Talks Daniel CremersやAndrew Davisonを始めとする総勢20名の講演 • Contributed Papers 5件の論文発表 Joint Workshop on Long-Term Visual Localization, Visual Odometry and Geometric and Learning-based SLAM [LINK] *1: Simultaneous Localization And Mapping *2: Visual Odometry

239 主催者：University of Bologna、University College London、Nianticの研究者ら単眼カメラ画像からのデプス推定に関する最近の進展について、教師信号の与え方の違いや学習結果に対する解釈性など幅広く解説 • Stereo
supervision / Monocular supervision 別視点画像の生成を利用した教師信号の与え方について解説 • Understanding single image depth estimation CNNが何を基にデプスを推定しているかを明らかにする取り組みを紹介 • Auxiliary supervision セマンティックセグメンテーションやSLAMの利用による改善について解説 • Learning single image depth estimation in the wild デプス推定向けの大規模データセットや一般的な映像からの学習について解説 • Mobile depth estimation モバイル機器向けのモデル軽量化手法などについて解説 Learning and Understanding Single Image Depth Estimation in the Wild [LINK]

240 主催者：University of Technology Sydneyなどの多数の大学やAI startupからの研究者ら現実のAIタスクでは充分な完璧にアノテートされたデータの獲得は難しい。産業級のAIシステムで応用するための完璧でないデータを学習するweakly supervised learning方法につい
て議論する。三つのコンペや招待講演、論文発表で構成 ▪ 三つのコンペの上位チームの講演 ▪ Weakly-supervised Semantic Segmentation Challenge ▪ train: 画像レベルのラベル　test: pixel-wise分類（semantic segmentation） ▪ Weakly-supervised Scene Parsing Challenge ▪ train: インスタンスごとに1pixelのラベル　test: pixel-wise分類（scene parsing） ▪ Weakly-supervised Object Localization Challenge ▪ train: 画像レベルのラベル　test: 対象をClass Activation Mapでハイライトする ▪ Invited Talk 7本 ▪ 論文発表 5本（best paper: Mining Cross-Image Semantics for Weakly Supervised Semantic Segmentation) The 2nd Learning from Imperfect Data (LID) Workshop [LINK]

241 主催者：Waymoやオックスフォード大学などの研究者ら自動運転のスケーラビリティについての課題や最新の取り組みに関するコンペや招待講演、論文発表で構成されるワークショップ ▪ Invited Talks ▪ Paul NewmanやAndrej
Karpathyらによる5件の招待講演 ▪ 特にAndrej Karpathyの講演はScaledMLとほぼ同内容であるが、Teslaにおいていかにスケーラビリティの実現が徹底されているかがよくわかるので必見 ▪ コンペ ▪ Waymo Open Dataset Challenge、NightOwls Challenge、INTERPRIT Challenge ▪ 論文発表 ▪ ドメインアダプテーションや新たなデータセットに関する論文など ▪ Cityscapesに3D bounding boxを追加したCityscapes 3Dが発表された Scalability in Autonomous Driving [LINK]

主催者：Scape Technologies, Czech Technical University, Google, Microsoftなどの研究者ら ▪ 画像間のマッチングに関する技術を取り扱うワークショップで、局所特徴についての招
待講演や、コンペティションの開催などが行われた ▪ DeNAの横尾が当ワークショップにて「Two-stage Discriminative Re-ranking for Large-scale Landmark Retrieval」という題目で発表してきたので、軽く内容を紹介します 242 Image Matching: Local Features & Beyond [LINK]

Two-stage Discriminative Re-ranking for Large-scale Landmark Retrieval Shuhei Yokoo (DeNA
Co., Ltd.), Kohei Ozaki (Preferred Networks, Inc.), Edgar Simo-Serra (Waseda University), Satoshi Iizuka (University of Tsukuba) ▪ 高精度なランドマーク画像検索のためのパイプラインを提案 ▪ 画像間の特徴マッチングによるデータクレンジング ▪ ラベルデータを活用したリランキング ▪ Google Landmark Dataset v2 (GLD-v2) [Weyand+, CVPR2020] におけるstrong baselineを提供（Google Landmark Retrieval 2019 challenge 1st place） 243

244 主催者：University of Edinburgh, Brigham Young University (BYU), University of
Massachusetts, Amherst (UMass), Google, Cornell Universityなどの研究者ら ▪ 一般的な画像認識と比較して、カテゴリ分けの粒度が細かくカテゴリ数が多い「ﬁne-grained visual categorization」タスクについて取り扱うワークショップ ▪ ワークショップ採択論文や、招待講演、パネルディスカッション、コンペティション結果についてのディスカッションなどが行われた ▪ DeNAの矢野・大越・横尾が当ワークショップの「iMet Challenge」での優勝解法についてディスカッションしてきたので、解法について軽く紹介します FGVC7: 7TH WORKSHOP ON FINE GRAINED VISUAL CATEGORIZATION [LINK]

245 iMet Collection 2020 – FGVC7: 1st place solution Masaki
Yano, Takumi Okoshi, Shuhei Yokoo (DeNA Co., Ltd)

246 主催者：MicrosoftやGoogle、カーネギーメロン大やコロンビア大の研究者ら動きや音声といった動画像特有の情報を利用してラベルなしの映像からunsupervised/ selfsupervisedで学習する技術に関する招待講演や論文発表で構成されるワークショップ ▪ Invited Talks ▪ Alyosha EfrosやMing-Yu
Liuらによる6件の招待講演 ▪ シーンの幾何構造の学習や映像生成、オブジェクトトラッキングなど幅広くカバー ▪ 論文発表 ▪ 表現学習、ロボットの行動学習、セグメンテーション、映像生成、トラッキングなど Learning from Unlabeled Videos [LINK]

CVPR2020 Report

CVPR2020 Report

More Decks by Motoki Kimura

Other Decks in Research

Featured

Transcript