CVPR2020 Report - Speaker Deck

Slide 1

Slide 1 text

2020.07.16 濱田晃一　林俊宏　洪嘉源　唐澤拓己　木村元紀　宮澤一之夏目亮太　鈴木達哉　Sergey Tarasenko　横尾修平株式会社ディー・エヌ・エー＋株式会社 Mobility Technologies CVPR2020 参加レポート

Slide 2

Slide 2 text

2 項目 01｜オンライン参加の概要 02｜統計・傾向 03｜論文紹介 04｜Workshop/Tutorial紹介

Slide 3

Slide 3 text

3 01 オンライン参加の概要

Slide 4

Slide 4 text

4 ▪ 09:00-18:00, 22:00-06:00 PDTの2スロット開催 ▪ 動画とスライドが特設サイト上で常時公開 ▪ 指定の時間になるとZOOMで著者の方に質疑応答可能 ▪ 各発表ページ上のコメント欄でも質問可能 ▪ Networking RoungeというチャットとZOOMの交流の場が存在オンライン参加の概要

Slide 5

Slide 5 text

5 ▪ 日本で現地時間参加するのはつらい ▪ 海外（特に欧米）の研究者と交流するためには、現地時間参加の方が良いが、時差があるため体力的・家庭的に負担が大きい ▪ 国外の研究者と交流するのが難しい ▪ 質疑応答のZOOMやNetworking Roungeは提供されているが、交流という観点ではオフラインの方が向いていると感じた ▪ サイトが重い ▪ 特設サイトが重く開けない状態が度々発生した ▪ ZOOMのURLや発表動画を予め手元に用意しておくことで回避 ▪ 発表を探し歩く体験は良かった ▪ 動画が公開されているため、自分のタイミングで動画を閲覧でき、さらに気になった場合、 ZOOMに参加する流れは快適 ▪ PosterもOralと同じ5分の動画であれば、さらに良かったオンライン参加の様子・感想

Slide 6

Slide 6 text

6 02 統計・傾向

Slide 7

Slide 7 text

7 ▪ バーチャル会議になったためか、参加者人数は10年ぶりに下がった ▪ それでも2018年よりは多い参加者数の推移

Slide 8

Slide 8 text

8 ▪ 登録数・投稿数・採択数・oral数は全て2019年より多い ▪ 採択率・oral率は2019年より下がっている ▪ 採択率25%（vs. 28% in 2019） ▪ oral率5.7%（vs. 6.3% in 2019） Oral/Poster採択状況

Slide 9

Slide 9 text

9 ▪ 中国勢が一番多い ▪ 著者数top 10組織のうち7つは中国系国や機関ごとの著者分布

Slide 10

Slide 10 text

10 ▪ AIの説明性や倫理に関する分野をメインテーマとして新たに追加新たに追加された分野

Slide 11

Slide 11 text

11 分野ごとの論文数 CVPR2019 CVPR2020 前年からの差分が目立つトピック

Slide 12

Slide 12 text

12 ▪ 全体 ▪ 論文数の多いトピックについては昨年の傾向と大差なし（参考：CVPR2019参加レポート） ▪ semi/self/unsupervised、graph NN、uncertaintyなどがキーワードとして目立つ ▪ 物体認識 ▪ imbalanced、long-tail、few-shotといったキーワードを含む論文がオーラルに目立つ ▪ EﬃcientDetのような有名SoTAモデルでもインクリメンタルなAP改善であるためかポスター ▪ セグメンテーション ▪ 1-stage手法などリアルタイム化を狙ったものが多い ▪ 3D ▪ 単眼カメラからのデプス推定は論文数、精度共に進展著しい ▪ デプス解像度の改善やuncertaintyなどに着目したものが多い ▪ トラッキング ▪ unsupervised手法がsupervised手法に匹敵しつつあり今後の主流となりそう傾向

Slide 13

Slide 13 text

13 03 論文紹介

Slide 14

Slide 14 text

14 Awards 03-01

Slide 15

Slide 15 text

15 Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images in the Wild CVPR 2020 Best Paper Link to paper

Slide 16

Slide 16 text

Summary 物体の対称性を活用することで、特定物体カテゴリに対して単一画像から三次元再構成を行うモデルを、単一視点の画像データ群の学習データから教師なしで構築する手法の提案 16

Slide 17

Slide 17 text

Method ▪ 入力画像から、物体の向き、深度マップ、テクスチャを予測し、それらからレンダリング出力、入力画像との再構成損失を計算し学習 ▪ このとき、単なる二次元画像再構成により向きと深度マップを適切に出力せず損失を下げられるため、ﬂippingによりテクスチャと深度マップに対称性を制約 17

Slide 18

Slide 18 text

Method ▪ さらに非対称な照明条件に対応するため、照明条件の予測を切り分け、対象性の制約を持ったalbedoと深度マップを考慮したshadingにより正面のビューを出力 ▪ その上で非対称な構造のalbedoに対応するため、信頼度マップを出力し、 reconstruction lossにて考慮 18

Slide 19

Slide 19 text

Results 19 人の顔、猫の顔、車についてのreconstructionの結果

Slide 20

Slide 20 text

Results 20 [45] Sahasrabudhe et al. ICCV Workshops, 2019. [52] Szabo et al. arXiv, 2019 他手法とのreconstruction結果の比較

Slide 21

Slide 21 text

21 BSP-Net: Generating Compact Meshes via Binary Space Partitioning CVPR 2020 Best Student Paper Link to paper

Slide 22

Slide 22 text

22 ▪ 従来の3次元モデル生成では生成結果にマーチングキューブ法を適用するなどしてポリゴンを求めていたのに対し、コンパクトなポリゴンモデルを直接的に生成 ▪ 超平面での再帰的な分割を繰り返すことでシーンを表現するBSP（Binary Space Partitioning）木をニューラルネットワークに取り入れたBSP-Netを提案 ▪ 3次元モデルのセグメンテーションや単眼画像からの3次元再構成で効果を確認 Summary

Slide 23

Slide 23 text

23 ▪ BSP木による表現は3段階であり、まず空間を2分割する複数の平面方程式を定義 ▪ 次にそれらの組み合わせにより、3次元モデルを構成する単位となるパーツを獲得 ▪ 最後に全てのパーツを統合することで3次元モデルを生成 Method

Slide 24

Slide 24 text

24 ▪ BSP-Netでは、まず入力特徴ベクトルからMLPで複数の平面パラメータを生成 ▪ これらにバイナリ行列Tを適用することでグルーピングを行いパーツを獲得 ▪ 最後にsumまたはmin-poolingによりパーツを統合して3次元モデルを生成 ▪ 入力データを再構成するように学習するため、学習のための真値は不要 Method

Slide 25

Slide 25 text

25 ▪ 3次元モデルの再構成誤差およびセグメンテーション精度を従来手法と比較 ▪ いずれの精度も従来手法を上回る Results 再構成誤差の比較セグメンテーション精度の比較

Slide 26

Slide 26 text

26 ▪ 入力画像からCNNで生成したlatent codeをBSP-Netの入力とすることで一枚の画像から3次元再構成が可能 ▪ 従来手法よりも大幅に少ないポリゴン数で同等以上の精度を実現 Results 再構成誤差ポリゴン数頂点数

Slide 27

Slide 27 text

27 DeepCap: Monocular Human Performance Capture Using Weak Supervision CVPR 2020 Best Student Paper Honorable Mention Link to paper

Slide 28

Slide 28 text

28 ▪ 人物が写った一枚の画像からその人物の3次元姿勢と衣服の表面形状を推定 ▪ 学習時には多視点画像を利用し、明示的な3次元アノテーションが不要 ▪ 微分可能なモデルで人物形状の変化を表現することで2次元の多視点画像と人物モデルとの比較およびロスのbackpropagationを可能に Summary

Slide 29

Slide 29 text

29 ▪ PoseNetで画像から人物の関節角度とカメラに対する相対角度を推定し、結果を kinematicsレイヤに入力することで各関節の3次元座標を出力 ▪ これを多視点画像のそれぞれに投影し、多視点画像上でOpenPoseで検出した関節座標との差分をロスとして学習 Method

Slide 30

Slide 30 text

30 ▪ DefNetで画像から人物の衣類形状の変形を表すパラメータを推定し、結果を deformationレイヤに入力することで衣類形状テンプレートを変形させる ▪ 変形させたテンプレートから2次元シルエットを生成し、多視点画像から求めたシルエットとの差分をロスとして学習（合わせてPoseNetと同様の関節ロスも導入） Method

Slide 31

Slide 31 text

31 Results

Slide 32

Slide 32 text

32 ▪ 定量評価では姿勢推定の精度と衣服表面形状の復元精度を従来手法と比較 ▪ 単眼画像を入力とする従来手法との比較では提案手法は最も精度が高く、多視点画像を入力とする手法（図中のMVBL）の精度に匹敵 Results 姿勢推定の精度比較形状推定の精度比較

Slide 33

Slide 33 text

33 3D Perception, Shape-From-X 03-02

Slide 34

Slide 34 text

34 3D Packing for Self-Supervised Monocular Depth Estimation Link to paper

Slide 35

Slide 35 text

Summary ▪ self-supervised monocular depth estimationの既存手法に対して、特徴マップの詳細情報を保つPackNetを提案し精度向上 ▪ 速度情報を取り入れることでscale-awareな出力のモデルを構築 ▪ 新規データセットDDAD (Dense Depth for Automated Driving)の構築 35

Slide 36

Slide 36 text

Method 複数フレームから深度推定、カメラポーズ推定を同時に行い、それらと後続フレームから構築する先頭フレームと真の先頭フレームとの誤差を計算し学習する枠組み ▪ 特徴マップの詳細情報を保つpacking/unpacking blockにより構築されたPackNet ▪ ポーズ出力に対して速度の教師情報を与えることでscale-awareなモデルを構築 36 packing/unpacking block

Slide 37

Slide 37 text

Method Packing / Unpacking blockにより構築したPackNet Stride、poolingを使わず、空間的な情報をチャンネル方向に織り込んだ状態で3D convすることで詳細情報を失いにくい圧縮、非圧縮処理を実現 37

Slide 38

Slide 38 text

Results 38 他手法との定性的な結果の比較 [18] Godard et al. ICCV2019 [14] Fu et al. CVPR2018 [52] Zhou et al. CVPR2017

Slide 39

Slide 39 text

Results 他手法との定量的な結果の比較 scale-awareなモデルを構築しても精度が劣化していない 39 KITTIデータセットでの距離が 80m以内での評価 CS+K：CityScapesによる事前学習と KITTIによるファインニューニング、 M：monocularに依る学習、+v：速度情報の使用

Slide 40

Slide 40 text

40 D3VO: Deep Depth, Deep Pose and Deep Uncertainty for Monocular Visual Odometry Link to paper

Slide 41

Slide 41 text

41 ▪ 単眼visual odometryにおいてデプス、カメラ姿勢、不確かさをCNNにより推定 ▪ 学習にはステレオ映像を利用し、self-supervisedで真値なしでの学習を実現 ▪ 推定結果をvisual odometryにおけるバンドル調整に取り込み定式化 Summary

Slide 42

Slide 42 text

42 ▪ ステレオ画像間で画像をワープさせた際のロスによりDepth/PoseNetを学習 ▪ 画像間の輝度変化を補正するための係数も同時に学習 ▪ DepthNetはデプスに加え、推定の不確かさ（uncertainty）を示すマップを出力 Method 入力画像推定デプスD 不確かさΣ エッジ領域や移動物体領域で不確定性が高くなる

Slide 43

Slide 43 text

43 ▪ visual odometryにおける最適化で用いられるエネルギー項にCNNで推定したデプス、カメラ姿勢、不確かさを導入 ▪ photometric energy ▪ フレーム間の差異であるphotometric energyの最小化では一般的に乱数でデプスが初期化されるが、これをCNNで推定したデプスによる初期化に変更 ▪ 加えて、推定した不確かさを利用した重み付けを実施 ▪ pose energy ▪ 新しいフレームが入力された際のトラッキングは一般的に定速条件に基づき初期化されるが、ここにCNNで推定したカメラ姿勢を導入 Method

Slide 44

Slide 44 text

44 ▪ 単眼デプス推定およびvisual odometryの性能をKITTI、EuRoC MAVで評価 ▪ カメラのみを用いる従来手法の性能を上回っただけでなく、カメラに加えIMUを用いる手法と同等の性能を達成 Results 従来手法（カメラ＆IMU）提案手法（カメラのみ）

Slide 45

Slide 45 text

45 Self-Supervised Monocular Scene Flow Estimation Link to paper

Slide 46

Slide 46 text

Summary 自己教師付き学習による、単眼カメラ画像の連続フレームからdepthとscene ﬂowを同時に推定するモデル構築の提案 46

Slide 47

Slide 47 text

Method Optical flow推定モデル PWC-Net [Sun et al. 2018] をバックボーンにモデル構築通常、Optical flow cost volumeからoptical flowを推定するところを、depthとscene flow を別々に推定しそれらを投影することでoptical flowを出力するモデルに変更 47

Slide 48

Slide 48 text

Method 損失関数は、depthに関する従来のdisparity loss [Godard et al. 2019]と、新規に提案するscene flow lossを使用し学習 Scene flow lossは大きく分けて2つ： 1. Photometric loss：推定depth、scene flowを用いて変換した点を、2Dに投影したときの画像上での誤差 2. 3D point reconstruction loss：推定depth、scene flowにより算出される移動後の depthと、変換後の画像上での座標への推定depthの誤差このときscene flowよりocclusion領域を推定し非occlusion領域のみ適用 48

Slide 49

Slide 49 text

Results 従来の単眼による推定手法の中でScene ﬂow accuracyのstate-of-the-artを達成 49 KITTIデータセットに対する実験結果 ● D1-all：reference frameのdisparityの不正解割合 ● D2-all：target imageをreference frameへmappingした際のdisparityの不正解割合 ● F1-all：optical flowの不正解割合 ● SF1-all：上記のいずれかが不正解の割合

Slide 50

Slide 50 text

50 Footprints and Free Space From a Single Color Image Link to paper

Slide 51

Slide 51 text

Summary ▪ 1枚のRGB画像からカメラから観測可能な移動可能領域（traversable surface）と遮蔽されたtraversable surfaceを同時に推定するモデルを構築 ▪ 従来の手法はカメラから観測可能な表面のみ予測するが経路計画（path planning）などの際、用途が限定的 51

Slide 52

Slide 52 text

Method ステレオカメラ動画を用いることで遮蔽された領域を含めた教師付きデータを作成 52

Slide 53

Slide 53 text

Method ステレオカメラ動画を用いることで遮蔽された領域を含めた教師付きデータを作成 ▪ ターゲットとなるフレームから連続してフレームを取得 ▪ 各フレームから、ステレオマッチングを用いて観測可能な領域のtraversable segmentaitonとdepth mapを推定 53

Slide 54

Slide 54 text

Method ステレオカメラ動画を用いることで遮蔽された領域を含めた教師付きデータを作成 ▪ 全フレームで得られた結果をターゲットのフレームにWarpingし、集約することで S_traversable、D*_tを作成 ▪ 最終的に、S_traversable、D*_tを教師データとして使用 ▪ S_traversableは、{traversable, untraversable, unknown}のラベルを付与 54

Slide 55

Slide 55 text

Method 作成した学習データを用いて、４つの出力を行うimage-to-image translatonモデルを学習 ▪ Visible ground segmentation ▪ Hidden ground segmentation ▪ Visible depth map ▪ Hidden ground depth map 損失関数 55

Slide 56

Slide 56 text

Results 56 Prediction for indoor dataset（Matter port） Prediction for outdoor dataset（KITTI） Evaluating on the KITTI dataset

Slide 57

Slide 57 text

57 Generating and Exploiting Probabilistic Monocular Depth Estimates Link to paper

Slide 58

Slide 58 text

Summary ▪ monocular depth estimationは、推定精度向上のために入力に追加情報を活用することが多いが、各ケースでモデルが異なり独立に再学習が必要 ▪ patchベースのconditonal VAEを用いて、各ケースに依存しないdepth mapの probability distributionを出力するモデルを構築 ▪ 各追加情報はprobability distributionの出力結果に対して最適化するのみで適用可能 58

Slide 59

Slide 59 text

Method ▪ 学習済みfeature extractorを用いて特徴マップを生成 ▪ patchごとに独立してconditional VAE（C-VAE）を用いてdepthサンプルを生成 ▪ このときパッチはオーバーラップさせ、各パッチで複数回実行 59

Slide 60

Slide 60 text

Method ▪ 追加情報を用いない場合、それらを平均することで推定結果を出力 ▪ 追加情報を用いる場合、MAP推定により最終出力を最適化 60

Slide 61

Slide 61 text

Results 各追加情報を活用した定性的な出力結果 61

Slide 62

Slide 62 text

Results NYUv2 testセットに対して、各ケースで最も良い結果を達成 62

Slide 63

Slide 63 text

63 PIFuHD: Multi-Level Pixel-Aligned Implicit Function for High-Resolution 3D Human Digitization Link to paper

Slide 64

Slide 64 text

Summary ▪ マルチレベルなアーキテクチャを用いた一枚画像からの人の三次元復元 ▪ coarseレベルでは低解像度で全体のコンテキストを学習 ▪ ﬁneレベルでは詳細なジオメトリに注目した学習 ▪ 1k解像度の入力画像をフルに活用して、既存の手法を上回る結果を実現 64

Slide 65

Slide 65 text

Method ▪ 既存手法の特徴抽出ネットワークPIFu（論文中ではCoarse PIFu）は、入力画像の解像度が512x512であり特徴量が128x128であったのに対し、より詳細な復元をするために入力画像の解像度が1024x1024で特徴量が512x512となるFine PIFuを追加 ▪ Fine PIFuは、Coarse PIFuでencodeされたグローバルな特徴Ωを受け取り、全体のコンテキストを考慮 ▪ 既存手法の背面の復元が滑らかになる問題を防ぐため、見えていない背面の情報を予め画像上で予測し、PIFuの入力とすることで、背面をより詳細な復元を実現 65

Slide 66

Slide 66 text

Results ▪ 既存手法のPIFuに比べて、服のシワや顔の詳細な情報を復元出来ている ▪ Fine module onlyの場合、グローバルな情報を欠損しているため、復元結果を横から見た時に正しく復元できていない 66

Slide 67

Slide 67 text

Results ▪ 定性評価でも多くの指標で、既存手法であるPIFuを上回っている 67

Slide 68

Slide 68 text

68 ARCH: Animatable Reconstruction of Clothed Humans Link to paper

Slide 69

Slide 69 text

Summary ▪ 単眼画像からアニメーションに対応した、衣服を含む三次元復元を行うend-to-endな手法 ARCH （Animatable Reconstruction of Clothed Humans）を提案 ▪ Semantic SpaceとSemantic Deformation Fieldにより、衣服を着用した人物を正準空間に変換することを実現 69

Slide 70

Slide 70 text

Method ▪ 入力画像に対し、DenseRaCを用いてtemplate modelを復元 ▪ 推定したtemplate modelを用いて、入力ポーズがAポーズにノーマライズされるような空間の変換を行うSemantic Deformation Fieldを生成 ▪ Occupancy・Normal・Colorをそれぞれ正準空間で推定し、Implicit Surface Reconsturctionを行う 70

Slide 71

Slide 71 text

Method ▪ 学習時には、Occupancy・Normal・Colorを三次元正解データとの誤差を用いる ▪ さらに、NormalやColorのrefinementとして、Differentiable Rendererを用いる ▪ 正準空間で点ごとに推定を行った後、Semantic Deformation Fieldを用いて、元のポーズに変換しレンダリングを行う ▪ レンダリング結果と正解画像との誤差を用いてrefinementを行う 71

Slide 72

Slide 72 text

Results ▪ セルフコンタクトやオクルージョンがある場合でも、ロバストな復元を実現 ▪ RenderPeople、BUFFデータセットにて、全ての指標でstate-of-the-art 72

Slide 73

Slide 73 text

73 Geometric Structure Based and Regularized Depth Estimation From 360 Indoor Imagery Link to paper

Slide 74

Slide 74 text

74 ▪ 室内の深度をRGB全天球画像から推定 ▪ 全天球画像だからこそ可能な部屋の全体構造の学習を組み込み推定精度を向上 ▪ 物体を除いた深度を求めるcounterfactual depth推定タスクにも利用可能 Summary

Slide 75

Slide 75 text

75 ▪ U-Net構造の深度推定モジュールに、構造推定をPriorとして追加した構造 ▪ 学習時は深度マップから構造を再度推定しRegularizerとすることで精度向上 ▪ 家具の位置を考慮するAttention Moduleも追加 Method

Slide 76

Slide 76 text

76 ▪ 構造の学習とAttentionモジュールにより全体構造を捉えつつ細部も明瞭に推定 ▪ 構造推定のPrior・Regularizerモジュールはどちらも同程度効果を発揮 Results

Slide 77

Slide 77 text

77 Face Gesture, Body Pose 03-03

Slide 78

Slide 78 text

78 Face X-Ray for More General Face Forgery Detection Link to paper

Slide 79

Slide 79 text

Summary ▪ 顔の合成画像（偽顔画像）を検出するSOTA手法を提案する ▪ 既存の手法は主に偽造の部分に注目するが、この論文では偽造の部分を背景画像に融合する時の痕跡に注目し、その輪郭を検出する同時に顔画像の真偽を判断する ▪ 特定手法の偽顔画像を学習しなくても検出できる。リアル顔画像だけでも学習できる 79

Slide 80

Slide 80 text

Method 80 ▪ 合成画像の背景および対象顔領域のマスク輪郭をFace X-Rayと定義する（式②） ▪ リアル画像のみ使う場合、まず顔画像のランドマークを検出し、nearest searchで似る顔画像一枚を選ぶ。ランドマークから初期マスクを作成し、式①②で合成顔画像と Face X-Ray Bを生成する ▪ 合成画像をCNNに入力してFace X-Ray Bと真偽の分類confを出力し、上記手順の生成物を正解として、教師あり学習する ① ②

Slide 81

Slide 81 text

Results ▪ FaceForensics++データセットの4種類の手法の偽顔画像の一つを学習して、他の手法の偽顔画像もSOTAで検出できる ▪ リアル顔画像のみの学習＋FaceForensics++データセット追加で他の偽顔画像データセットでSOTAの検出性能が出る 81

Slide 82

Slide 82 text

82 Advancing High Fidelity Identity Swapping for Forgery Detection Link to paper

Slide 83

Slide 83 text

83 ▪ Two-StageのFace swapping（対象画像の顔を別人の顔に置き換える）手法を提案する ▪ 既存の手法と比べて、対象画像の属性を充分に利用し高品質の合成ができ、遮蔽がある場合でもうまく扱える Summary

Slide 84

Slide 84 text

84 ▪ 二段階のアーキテクチャ: AEI(Adaptive Embedding Integration)-Net + HEAR(Heuristic Error Acknowledging Reﬁnement)-Net ▪ AEI-Netの目的は高精度のswap画像を生成する ▪ identity encoderで置換え顔画像のid embeddingを抽出し, U-Net型のmulti-level attributes encoderで背景画像の属性を抽出, AADモジュールで上記二つの異なるレベルの特徴を融合する Method

Slide 85

Slide 85 text

85 ▪ HEAR-Netの目的は顔のocclusionを自然に合成する ▪ AEI-Netで同じ背景画像二枚を合成した場合、occlusion部分がうまく合成できない ▪ ①上記合成画像と元画像の差分＋②AEI-Netで背景画像と別の顔画像の合成画像をself-supervisedで学習して、背景画像のocclusionを保つ合成画像を生成する Method

Slide 86

Slide 86 text

Results ▪ 既存の手法と比べて背景画像の属性をもっと保留し、遮蔽も残る ▪ FaceForensics++ Datasetの各手法と比べて、顔認証（cosface）でのID復元と pose・expressionの差分が優れる 86

Slide 87

Slide 87 text

87 3FabRec: Fast Few-shot Face alignment by Reconstruction Link to paper

Slide 88

Slide 88 text

Summary ▪ 半教師あり学習によりfew-shotでの顔ランドマーク推定で比較的良い性能を達成 ▪ 教師無しでAAEによる顔復元を学習した後、教師ありでランドマーク推定を学習 ▪ 顔復元の学習により顔形状の情報が暗黙に獲得されるためfew-shotでいける 88

Slide 89

Slide 89 text

Method ▪ VGGFace2+AﬀectNetの計2M枚でAAEを学習 ▪ デコーダ側に特徴変換を行う層を追加しランドマークのヒートマップを学習 89

Slide 90

Slide 90 text

Results ▪ SoTA手法に比べても見劣りしない性能 (右表) ▪ 学習データを減らしても比較的高い性能 (下表) 90

Slide 91

Slide 91 text

91 Learning Meta Face Recognition in Unseen Domains Link to paper

Slide 92

Slide 92 text

Summary ▪ マルチドメインの学習データから学習して、未学習の新ドメインでもSOTAの性能を持つ顔認証の学習手法Meta Face Recognitionを提案 ▪ ドメインレベルのサンプリングストラテジーでbatchを取得し、マルチドメインの分布をオプティマイズする勾配を計算し、最後にそれらの勾配を結合する ▪ 二つ顔認証の汎化性能を評価するベンチマークを提案する 92

Slide 93

Slide 93 text

Method 93 ▪ N個ソースドメインから、一つのドメインをテストとし、その他のドメインを学習用としてN個Meta-batchを構築する。各IDからgalleryとprobeを一枚ずつを抽出する ▪ 三種類のロスを計算する：①hard positiveとnegative対をオプティマイズする hard-pair attention loss、②batch内の分類のsoft classiﬁcation loss、③ドメイン間の距離を近くためのdomain alignment loss ▪ meta-trainでは①②③を計算し、meta-testでは①②を計算する。両者同時にオプティマイズする ▪ 最後に全ての勾配を合算する

Slide 94

Slide 94 text

Results ▪ マルチドメインの顔認証ベンチマークGFR-RとGFR-Vのデータセットにおいて、SOTA の性能を示す 94

Slide 95

Slide 95 text

95 Self-supervised Learning of Interpretable Keypoints from Unlabelled Videos Link to paper

Slide 96

Slide 96 text

Summary ▪ 自己教師学習で人間に解釈可能なキーポイント推定ができる手法を提案 ▪ ポイントはキーポイントを直接推定せずに骨格画像を経由し、骨格画像とキーポイントの変換を人手で設計すること 96

Slide 97

Slide 97 text

Method ▪ 全体構成としては画像からキーポイントにして画像を復元する形 ▪ 写っているのが同一人物であることが分かっている動画を利用 ▪ 画像から直接キーポイントを推定せず一度骨格画像を経由するのがアイディア ▪ 骨格画像がリアルかはdiscriminatorで判定 ▪ 骨格画像はin-the-wildな画像に対するものでなくmocapから得られるもので良い点が重要 ▪ 骨格画像に元画像の情報が人に分からない形でエンコードされることを防ぐため、骨格画像からキーポイントに変換して戻す処理を挟む ▪ 骨格画像とキーポイントの変換を人が設計することで解釈可能な点が得られる 97

Slide 98

Slide 98 text

Results ▪ 人姿勢推定及び顔ランドマーク推定で既存の自己教師あり手法と比較し良い性能 ▪ supervised post-process: 学習されたキーポイントから解釈可能な点への変換の学習 98 人姿勢 Simplified Human3.6M 顔ランドマーク 300W

Slide 99

Slide 99 text

99 Synthesis, Generative Model 03-04

Slide 100

Slide 100 text

100 SEAN: Image Synthesis With Semantic Region-Adaptive Normalization Link to paper

Slide 101

Slide 101 text

▪ labelmap to image の GANでの生成品質を向上 ▪ 各labelmap 領域での style 埋め込みを向上し、PSNR、visual inception 指標を向上 ▪ 各labelmap 領域ごとに style 指定し生成でき、制御性が向上 101 Summary

Slide 102

Slide 102 text

102 ▪ 各labelmapごとに、特徴マップを作りSPADE Blockで同時に埋め込み ▪ 学習時には、画像の再構成で学習 ▪ 推論時には、各labelmapごとに別画像から特徴マップ作り sytle指定しての生成が可能 Method SPADE (従来SoTA) SEAN

Slide 103

Slide 103 text

103 ▪ 各labelmapごとに、特徴マップを作りSPADE Blockで同時に埋め込み ▪ 学習時には、画像の再構成で学習 ▪ 推論時には、各labelmapごとに別画像から特徴マップ作り sytle指定しての生成が可能 Method

Slide 104

Slide 104 text

104 ▪ 画像の再構成、labelmap to Imageの生成品質、を CelebAMask-HQ、CityScapes、 ADE20K、Fascadesで比較 ▪ 画像の再構成をSSIM、RMSE、PSNRで、生成品質をmIoU、accuracy、FIDで、それぞれ評価 ▪ labelmapごとの埋め込みを行わない従来手法に対し性能向上 Results

Slide 105

Slide 105 text

105 Results CelebA Mask-HQ ADE20K CityScapes Facades Style Transfer

Slide 106

Slide 106 text

106 Results Style Interpolation

Slide 107

Slide 107 text

Learning to Shadow Hand-Drawn Sketches 107 Link to paper

Slide 108

Slide 108 text

▪ 線画に対する光源方向指定しての影生成 ▪ 線画・影のペアに、光源方向ラベルを付けたデータセットを作成（1160ペア） ▪ 主観評価の指標向上 108 Summary

Slide 109

Slide 109 text

109 ▪ Shape Net で、2D線画を表現ベクトルへ埋め込み ▪ Render Netで、線画表現埋め込み・光源指定埋め込みから、影生成 ▪ 敵対的 loss、影の再構成 loss（最終出力、及び、途中2段階）で学習 ▪ 光源方向は26方向でアノテーション Method 影の再構成 loss

Slide 110

Slide 110 text

110 ▪ 線画に対する詳細な影生成を実現 ▪ 主観評価も先行手法から向上 Results 影生成例前方光源側方光源後方光源

Slide 111

Slide 111 text

111 ▪ 線画に対する詳細な影生成を実現 ▪ 主観評価も先行手法から向上 Results Deep Normal (ECCVW’18) Sketch2Normal (PACMGIT’18) Pix2Pix (CVPR’17) U-net (MICCAI’15)

Slide 112

Slide 112 text

Learning to Cartoonize Using White-Box Cartoon Representations 112 Link to paper

Slide 113

Slide 113 text

▪ 写真から Cartoon画像へDomain変換 ▪ 1) Surface Representation、2) Structure Representation、3) Texture 、の３表現の観点でのLossを用い、画像生成学習 ▪ 主観評価の指標向上 113 Summary

Slide 114

Slide 114 text

▪ 画像の surface representation、structure representation、texture representation の表現を抽出処理し生成学習に利用。lossの重み付けで生成制御 ▪ 他のlossは、total variation (TV) Loss: 空間的滑らかさ保持と高周波ノイズ除去、 Content Loss: 内容保持 114 Method

Slide 115

Slide 115 text

115 Results 生成結果入力生成結果入力

Slide 116

Slide 116 text

116 ▪ Cartoon変換、Photo変換ともに、FID向上 ▪ 主観評価も向上 Results Fast Neural Style CartoonGAN (CVPR’18) CycleGAN (CVPR’1’) FID User Study

Slide 117

Slide 117 text

SynSin: End-to-End View Synthesis From a Single Image 117 Link to paper

Slide 118

Slide 118 text

▪ 1枚画像からの view synthesis ▪ 3次元幾何のモデル化のために微分可能な point cloud renderer ▪ 欠損箇所の補完のためにGANを利用 ▪ self-supervised で end-to-end学習 118 Summary

Slide 119

Slide 119 text

▪ 入力画像から同解像度の画像特徴、depth mapを予測・3D射影し point cloudを構築 ▪ 微分可能な point cloud renderer により、point cloud を新しい view に変換し画像特徴を生成し、reﬁnement networkで欠損部分を補完し新しいviewの画像を生成 ▪ adversarial loss、L1 loss、perceptual loss で学習 ▪ テスト時には、未知のシーン画像と期待カメラ視点から、シーン画像の view を生成 119 Method

Slide 120

Slide 120 text

▪ neural point cloud renderer ▪ end-to-endで微分可能 ▪ 特徴量抽出networkとdepth map算出networkの学習のために、画像特徴量と3D座標のそれぞれで微分可能 ▪ 従来のrendererで課題だった局所的な近傍のみしか扱えない・hard z-buﬀerの扱いを解消 ▪ 3D点集合を近傍を重み重み付けし2D射影することにより 2D座標での誤差逆伝搬を可能に ▪ 射影点集合をα合成し全ての点が最終値に寄与する形に ▪ Rendering高速化（Point cloud to image）forward：従来の27倍、backward：400倍 120 Method

Slide 121

Slide 121 text

121 ▪ 生成品質を Matterportで学習しMatterport・Replicaで評価、及び、RealEstate10K での学習・評価で比較 ▪ PSNR、SSIM、Perceptual Similarityの指標、及び、主観評価で、定量評価 ▪ 従来手法に対し、性能向上 Results

Slide 122

Slide 122 text

122 ▪ 生成品質を Matterportで学習しMatterport・Replicaで評価、及び、RealEstate10K での学習・評価で比較 ▪ PSNR、SSIM、Perceptual Similarityの指標、及び、主観評価で、定量評価 ▪ 従来手法に対し、性能向上 Results

Slide 123

Slide 123 text

123 Self-Supervised Scene De-occlusion Link to paper

Slide 124

Slide 124 text

124 ▪ 各物体と背景の分離および見えない部分の補完をself-supervisedで実現 ▪ 順序情報や見えない部分のマスクが学習に不要 ▪ 完全な教師あり手法と同程度の精度を達成 ▪ 擬似的なamodal instance segmentation教師データ作成が可能 Summary

Slide 125

Slide 125 text

125 ▪ 補完は人為的にオクルージョンデータを作りself-supervisedで学習 ▪ 推論時は隣接物体間で補完時の増大量を比較し順序を推測 ▪ 推測した順序情報も使い各物体を補完 Method

Slide 126

Slide 126 text

126 ▪ 物体の順序や位置の変更が高品質で実現 ▪ 見えない部分の補完で教師ありに匹敵する精度を達成 ▪ amodal instance segmentationで教師データを使った場合と同精度を達成 Results

Slide 127

Slide 127 text

127 PULSE: Self-Supervised Photo Upsampling via Latent Space Exploration of Generative Models Link to paper

Slide 128

Slide 128 text

128 ▪ 従来一般的であった高解像度画像（真値）と超解像画像の誤差を最小化するというアプローチとは大きく異なる超解像手法を提案 ▪ GANにより獲得した高解像度画像の潜在空間を探索し、ダウンスケールにより入力低解像度画像を正しく再現できる高解像度画像を生成 ▪ 64倍拡大のような従来手法よりも大幅に大きな拡大倍率を実現 Summary

Slide 129

Slide 129 text

129 ▪ 入力低解像度画像から高解像度画像を再構成しようとすると、実際には解が多数存在するため不良設定問題となり結果がぼやけるなどの問題が発生 ▪ StyleGANを使って高解像度画像の潜在空間を獲得し、潜在変数から生成した高解像動画像をダウンスケールした画像と入力低解像度画像の差分が小さくなるように潜在空間内を探索 ▪ 探索範囲を超球表面に限定することで生成画像の妥当性と探索の容易化を実現 Method 入力低解像度画像解となる高解像度画像は多数存在

Slide 130

Slide 130 text

130 ▪ Flickr Face HQ Datasetで学習済みのStyleGANを利用しCelebA HQの超解像を実施 ▪ 8倍（16x16 → 128x128）と64倍（16x16 → 1024x1024）の拡大率で実験 Results

Slide 131

Slide 131 text

131 Results

Slide 132

Slide 132 text

132 ▪ 定量評価では主観品質を表す尺度としてMOS（Mean Opinion Score）とNIQE （Naturalness Image Quality Evaluator）を利用 ▪ NIQEにおいては実際の高解像度画像を上回るスコアを達成 Results 8倍拡大（128x128）におけるMOS比較（値が大きいほど高品質） 64倍拡大（1024x1024）におけるNIQE比較（値が小さいほど高品質）

Slide 133

Slide 133 text

133 Object Detection 03-05

Slide 134

Slide 134 text

134 Bridging the Gap Between Anchor-based and Anchor-free Detection via Adaptive Training Sample Selection Link to paper

Slide 135

Slide 135 text

135 ▪ anchor-basedの物体検出モデルとanchor-freeの物体検出モデルにおいて、両者の検出精度の違いの本質的な原因は、学習時のpositive sampleとnegative sampleの定義にあることを明らかにした ▪ 学習サンプルの統計的特性に応じて適応的にpositive/negative sampleを定義づける ATSS（Adaptive Training Sample Selection）を提案 ▪ ATSSにより、anchor-based/anchor freeの両モデルの検出精度を向上 Summary

Slide 136

Slide 136 text

136 ▪ anchor-basedモデルのRetinaNetと、anchor-freeモデルのFCOSを比較 ▪ anchor boxを1つに限定したRetinaNetとFCOSにおいて、FCOSに特有のモジュールを RetinaNetに追加し、両モデルの条件を揃えて比較 ▪ 同じ条件に揃えてもAPに0.8ポイントの差異があったが、両者を学習する際の positive/negative sampleの定義を揃えると、検出精度が一致することを確認 Method

Slide 137

Slide 137 text

137 ▪ 学習サンプルの統計的特性に応じて適応的にpositive/negative sampleを定義する ATSS（Adaptive Training Sample Selection）を提案 Method

Slide 138

Slide 138 text

138 ▪ ATSSを適用することでRetinaNet/FCOSの両モデルの検出精度が向上するとともに、検出精度がほぼ一致 ▪ ATSS適用下では、RetinaNetのanchor boxを増やしても精度向上に全く寄与しない（anchor boxが1つであっても検出精度が高い）ことを確認 ▪ ATSSを適用することで、MS COCOデータセットにおいて既存手法を上回る検出精度を達成 Results

Slide 139

Slide 139 text

139 Overcoming Classiﬁer Imbalance for Long-Tail Object Detection With Balanced Group Softmax Link to paper

Slide 140

Slide 140 text

Summary ▪ 通常の検出器がlong-tailedデータセットで学習する際に、分類器の重みのnormは不均衡であることを分析し、分類器が平等に学習していないのは性能が悪いの原因の一つだとわかった ▪ balanced group softmaxを提案し、long-tailedデータセットでの物体検出と segmentationなどのタスクでSOTAの性能を示す 140

Slide 141

Slide 141 text

Method 141 ▪ classを学習データのインスタンス数によってNグループに分割し（背景classは単独グループに）、各グループの中にothers classを追加する ▪ 各グループごとにsoftmax cross entropy lossを計算する ▪ 推論時、背景class以外のclassを元のclass IDに戻し、背景グループのothers classの probabilityと乗算でrescaleして、背景classのprobabilityと合わせて最後の結果とする

Slide 142

Slide 142 text

Results ▪ 一般の検出器および他のlong-tailedデータセット対策のresampling/re-weight手法と比べてSOTAの性能を示す 142

Slide 143

Slide 143 text

143 Detection in Crowded Scenes: One Proposal, Multiple Predictions Link to paper

Slide 144

Slide 144 text

Summary ▪ 混雑したシーンでのoverlapした物体を検出するため、一つのproposalで複数のobject を検出する手法を提案する ▪ EMD loss とset NMSなどのテクニックを使うことで、混雑データセットと普通データセット両方での検出性能を向上する 144

Slide 145

Slide 145 text

Method 145 ▪ proposalとのIOUは一定値以上のground-truth物体をそのproposalのGTとする ▪ 一つのproposalはK個bboxを推論する（背景クラスを含む） ▪ K個bboxを一番近いGTにmatchするようにEMD lossを定義する ▪ NMSを実行するとき、同じproposal内のbboxをsuppressしない ▪ optionとして、推論したbboxを元のfeatureとconcatするreﬁne moduleを提案する

Slide 146

Slide 146 text

Results ▪ CrowdHumanおよびCityPersonsデータセットでSOTA ▪ COCO（混雑データセットではない）でも性能向上 146

Slide 147

Slide 147 text

147 MPM: Joint Representation of Motion and Position Map for Cell Tracking Link to paper

Slide 148

Slide 148 text

148 ▪ 位相差顕微鏡画像において、細胞の検出と追跡を同時に予測するMotion and Position Map（MPM）を提案 ▪ 検出と追跡を別々に解く既存手法に比べ、検出精度と追跡精度を大きく向上 Summary

Slide 149

Slide 149 text

149 ▪ MPM-NetはU-Netをベースとした構造を持ち、隣接する2フレーム（フレームt-1およびフレームt）を重ねた入力画像から、ピクセル毎に3次元のベクトルを出力 ▪ ベクトルは、フレームtにおける細胞の存在確率と、フレームtからフレームt-1の間における細胞の移動量を表現 ▪ シーケンス内の隣接フレームに対してMPM-Netで繰り返し推論を行うことで、シーケンス全体で細胞を追跡 Method

Slide 150

Slide 150 text

150 ▪ publicな顕微鏡画像のデータセットに対して一部アノテーションを追加し、提案手法を評価 ▪ 複数フレームを入力とすることにより、細胞の検出精度を従来手法に比べて向上既存の追跡手法に比べて追跡精度も大幅に向上 Results

Slide 151

Slide 151 text

151 Segmentation 03-06

Slide 152

Slide 152 text

152 PointRend: Image Segmentation as Rendering Link to paper

Slide 153

Slide 153 text

153 ▪ レンダリングを応用した新しいセグメンテーション手法を提案 ▪ サンプリング密度を領域ごとに適応的に変化させることで、効率良くかつ鮮明なオブジェクト境界を得ることが可能 Summary

Slide 154

Slide 154 text

154 ▪ まず低い解像度の特徴マップから粗いセグメンテーションを行う ▪ より詳細な推定を行うため、PointRendは境界付近の点のセットを選択し、高解像度な特徴マップと軽量のmlpを用いて各点に対して独立に予測を行う ▪ このプロセスを反復的に適用することで、予測されたマスクの不確実性の高い領域を洗練させていく Method

Slide 155

Slide 155 text

155 ▪ 推論時は、各領域に関してadaptive subdivisionを用いてcoarse-to-ﬁneに推論を行う ▪ 低解像度のマップに対してbilinear補間を用いて2x upsampleを行い、上位N個の曖昧な領域に関してPointRendを用いてラベルを予測する ▪ このプロセスを目標の解像度になるまで繰り返す Method

Slide 156

Slide 156 text

156 ▪ PointRendを学習するときにも、ポイント選択が必要となる ▪ 推論時に似た細分化が必要となるが、sequentialなステップは誤差逆伝播法に向かないため、ランダムサンプリングに基づく以下の戦略を使用 ▪ 1. ランダムに kN points(k > 1)一様分布からサンプリングする ▪ 2. coarse predictionの予測値を用いて、kN pointsの中から不確実性の高いβN個 (β ∈ [0、 1])の点をサンプリングする ▪ 3. (1 - β)N個を一様分布からサンプリングする Method

Slide 157

Slide 157 text

157 ▪ Mask R-CNNに比べてオブジェクトの境界が鮮明になっている Results

Slide 158

Slide 158 text

158 Real-Time Panoptic Segmentation from Dense Detections Link to paper

Slide 159

Slide 159 text

159 ▪ panoptic segmentationにおいて物体検出の結果を活用しリアルタイム化を実現 ▪ 通常はNMSで破棄する重複バウンティングボックスからインタンスマスクを生成 ▪ SoTAからの性能劣化を3%に抑えて4倍の高速化を達成（30fps@1024x2048） Summary

Slide 160

Slide 160 text

160 ▪ FPNの各レベルから画素ごとに密なバウンティングボックスを生成し、その特徴マップを流用することでsemantic segmentationを実施 ▪ semantic segmentationのための独立ブランチを設ける場合に比べ計算効率が向上 Method

Slide 161

Slide 161 text

161 ▪ 密に生成したバウンディングボックスの中からNMSでクエリとなるボックスを選択 ▪ クエリボックスと他ボックスとのIoUおよびsemantic segmentation結果から self-attentionによりインスタンスマスクを生成 Method

Slide 162

Slide 162 text

162 ▪ CityscapesおよびCOCOを用いて従来のsingle-stage、two-stage手法と比較 ▪ 性能評価にはpanoptic quality（PQ）を利用 ▪ いずれのsingle-stage手法よりも高性能で、かつtwo-stage手法に匹敵 Results Cityscapesでの結果 COCOでの結果

Slide 163

Slide 163 text

163 Results 入力画像提案手法 (30fps) UPSNet (7fps)

Slide 164

Slide 164 text

164 Predicting Semantic Map Representations from Images using Pyramid Occupancy Networks Link to paper

Slide 165

Slide 165 text

165 ▪ 車両周辺環境のbirds-eye-viewマップを単眼カメラ画像から直接予測する手法を提案 ▪ 車道や歩道などの静的な物体に加え、車両や歩行者などの動的な物体もマッピング ▪ マップは物体カテゴリごとの占有格子地図として表現されているため、ベイズフィルタを用いて異なる視点のカメラから得られたマップをシンプルかつ自然に統合することが可能 Summary

Slide 166

Slide 166 text

166 ▪ ResNet-50+Feature Pyramid Networkで特徴抽出 ▪ 特徴マップ上の列方向をエンコードすることで、birds-eye-view上での奥行き方向の特徴（BEV features）を抽出 ▪ カメラパラメータを用いてBEV featuresを空間上でリサンプルし、物体カテゴリごとの占有確率を各グリッドで予測 Method

Slide 167

Slide 167 text

167 ▪ NuScenesおよびArgoverseデータセットで提案手法を評価し、既存手法に比べてそれぞれ9.1%、22.3%の改善 ▪ 得られたマップに対してベイズフィルタを適用することで、複数フレームの情報も容易に統合可能 Results

Slide 168

Slide 168 text

168 Cars Can't Fly Up in the Sky: Improving Urban-Scene Segmentation via Height-Driven Attention Networks Link to paper

Slide 169

Slide 169 text

169 ▪ 車載画像のセグメンテーションでクラスの出現頻度が高さごとに異なることに着目 ▪ この情報を考慮するモジュールは既存モデルに容易に追加可能で精度が向上 Summary

Slide 170

Slide 170 text

170 ▪ チャンネルごとに位置（高さ方向）の重み付けをするHANetを考案 ▪ 車載画像セグメンテーションにおいては5つの異なる層にHANetを追加 Method

Slide 171

Slide 171 text

171 ▪ 中間層では高さごとに異なるサイズの受容野に対応する重みが増加 ▪ 出力層では高さごとに実際のクラス分布に対応した重みを学習 ▪ コストをほぼ変えずに精度が向上 Results

Slide 172

Slide 172 text

172 Foreground-Aware Relation Network for Geospatial Object Segmentation in High Spatial Resolution Remote Sensing Imagery Link to paper

Slide 173

Slide 173 text

173 ▪ 高分解能のリモートセンシング画像に対するsemantic segmentationにおける問題 ▪ foreground objectサイズのばらつきが大きい ▪ backgroundクラス内でのバリエーションが非常に大きい ▪ foreground objectよりもbackgroundが圧倒的に多い不均衡データである ▪ これらに対処するためforeground-aware relation network（FarSeg）を提案 Summary

Slide 174

Slide 174 text

174 ▪ Feature Pyramid Networkの最も解像度の小さいfeatureから画像全体のコンテクストを抽出し、これを用いてpyramidの各featureに対するattention map （foreground-scene relation heatmaps）を生成 ▪ attention mapをfeatureに作用させることで、そのシーンに最も適したfeatureを学習 Method

Slide 175

Slide 175 text

175 ▪ focal lossを用いることでforeground exampleとhard background exampleを優先的に学習することで、クラス不均衡に対処 ▪ 学習初期は通常のcross entropy lossで学習し、学習が進むにつれてfocal lossに近づけていくことで、学習初期を安定化しつつ最終的な精度も向上 Method

Slide 176

Slide 176 text

176 ▪ iSAIDデータセット（最大規模の高解像度リモートセンシング画像とsegmentationラベルのデータセット）において評価 ▪ 比較手法の中では最も高精度 ▪ 推論速度と精度のトレードオフでも他手法を凌駕 Results

Slide 177

Slide 177 text

177 Network Pruning 03-07

Slide 178

Slide 178 text

178 Towards Eﬃcient Model Compression via Learned Global Ranking Link to paper

Slide 179

Slide 179 text

Summary ▪ モデルの大域的なフィルタの重要度をEAで求めるプルーニング手法LeGRを提案 179

Slide 180

Slide 180 text

Method ▪ フィルタの重要度を大域的に付けられること、及びその重要度はフィルタのL2ノルムの線形変換で測れることを仮定 ▪ 線形変換のパラメータは進化アルゴリズムで学習 ▪ ﬁtnessは「そのパラメータによる大域的重要度で指定の最大プルーニング率分プルーニング後、指定イテレーションﬁne-tuneした時のval精度」 180

Slide 181

Slide 181 text

Results ▪ CIFAR-10/100, ImageNet 等で既存手法より良い性能を確認 181 CIFAR-100での比較結果 ImageNetでの比較結果

Slide 182

Slide 182 text

182 HRank: Filter Pruning using High-Rank Feature Map Link to paper

Slide 183

Slide 183 text

Summary ▪ 特徴マップのランクによる順位付けを用いたプルーニング手法を提案 ▪ 特徴マップのランクが入力画像にあまり依存しないことを観察 ▪ ランクの小さいフィルタを優先的に除去 183

Slide 184

Slide 184 text

Method ▪ 各フィルタの特徴マップの平均ランクを可視化 (下図) ▪ X軸: フィルタ、Y軸: 画像枚数、色: ランク ▪ 平均ランクが入力画像枚数にあまり依存しないことが分かる 184

Slide 185

Slide 185 text

Results ▪ CIFAR-10及びImageNetによる実験で既存手法と比べて良い性能を確認 185

Slide 186

Slide 186 text

186 Metric Learning 03-08

Slide 187

Slide 187 text

Cross-Batch Memory for Embedding Learning 187 Link to paper

Slide 188

Slide 188 text

Summary ▪ 本研究で提案するXBM（Cross-Batch Memory）は、過去のサンプルの埋め込みを一定期間保持することで、一度に多くのサンプルを考慮可能 ▪ 学習の経過による埋め込みの変化が微小なことを理論的・実験的に示した ▪ 既存の距離学習の損失関数に自然に組み込むことが可能であり、contrastive lossと組み合わせるだけで画像検索のタスクにおいてstate-of-the-artの性能を示した 188

Slide 189

Slide 189 text

Method ▪ 距離学習は、典型的にミニバッチ内でのみhard negativeを考慮する ▪ そのため、バッチサイズを大きくすればするほど一度に考慮可能なサンプルが増加し、より効果的なhard negativeをサンプリングすることができる ▪ 本研究で提案するXBM（Cross-Batch Memory）は、過去のサンプルの埋め込みを一定期間保持することで、バッチサイズを大きくすることなく一度に考慮可能なサンプル数を増加可能 ▪ 学習の経過による埋め込みの変化が小さいことを理論的・実験的に示し、過去のサンプルの埋め込みと現在のモデルが抽出したサンプルの埋め込み間で距離計算を行っても問題ないことを示した ▪ コード数行で既存の損失関数に組み込むことが可能 189

Slide 190

Slide 190 text

Results 既存の距離学習の損失関数と組み合わせることで画像検索のタスクにおいて state-of-the-artの性能を示した 190

Slide 191

Slide 191 text

Embedding Expansion: Augmentation in Embedding Space for Deep Metric Learning 191 Link to paper

Slide 192

Slide 192 text

Summary ▪ 距離学習において、近年では人工的にhard exampleを生成する手法が提案されているものの、サンプル生成のためのネットワークが追加で必要だった ▪ 本研究では、内挿によって人工的にhard exmpleを生成する手法「embedding expansion」を提案することでシンプルかつ高速なhard exampleの生成を実現 ▪ 既存の距離学習の損失関数に自然に組み込むことが可能であり、画像検索・クラスタリングのタスクにおいて state-of-the-artの性能を示した 192

Slide 193

Slide 193 text

Method ▪ ミニバッチ内で、同一クラスに属する2つのサンプルの埋め込みベクトルに対して、n 個の内分点をオンラインで計算する ▪ 内分点の計算後、L2正規化を施す ▪ 元のサンプル+生成されたn個の内分点と他のクラス（negative class）の元のサンプル+生成されたn個の内分点同士で距離を計算し、最も類似しているサンプルを hardest exampleとする ▪ 本手法はtriplet loss, N-pair loss, MS loss など、他の距離学習の損失関数の hard negative pair mining手法として用いることが可能 193

Slide 194

Slide 194 text

Results 194

Slide 195

Slide 195 text

195 Datasets, Others 03-09

Slide 196

Slide 196 text

Google Landmarks Dataset v2 A Large-Scale Benchmark for Instance-Level Recognition and Retrieval 196 Link to paper

Slide 197

Slide 197 text

Summary ▪ 画像検索・インスタンス認識のためのデータセットである「Google Landmarks Dataset v2」を提案 ▪ 画像検索・インスタンス認識の分野の発展にともなって、よりチャレンジングなデータセットが必要というモチベーション ▪ 世界中のランドマーク画像をWikimedia Commonsを利用して収集 ▪ 400万件以上のサンプル数と20万件以上のラベルを有する ▪ 非常にラベル不均衡なデータセットとなっている 197

Slide 198

Slide 198 text

Method ▪ データセットの構築： ▪ Wikimedia Commonsから画像を収集 ▪ Google Knowledge Graphを用いてランドマークに関連するクエリを投げ、関連するWikipediaの記事からラベル付け ▪ テストデータにはクラウドソーシングで集めたデータも追加 ▪ テストデータの再アノテーション： ▪ データセットには多くのラベルノイズが含まれており、より高品質な評価ベンチマークを提供するために半自動なテストデータの再アノテーションツールを開発 ▪ 20万件ものラベルのアノテーションは人手では難しいため、「アノテーション対象の画像と候補画像が同一のランドマークか？」という易しめのタスクを解かせる ▪ 候補画像の提示には、GLD-v2における複数のコンペ上位者のモデルの予測を利用 198

Slide 199

Slide 199 text

Results 199

Slide 200

Slide 200 text

200 Dynamic Traﬃc Modeling from Overhead Imagery Link to paper

Slide 201

Slide 201 text

201 ▪ 時刻、緯度経度、およびその地点における空中写真を入力として、道路の交通流速を推論するCNNモデルを提案 ▪ 構築コストが高い道路ネットワークの情報を必要とする既存手法に対し、提案手法では航空写真から直接、様々な時刻における交通流速を動的に推定できる Summary

Slide 202

Slide 202 text

202 ▪ LinkNetをベースとしたCNNにより、道路マスク、進行方向、交通流速をピクセルごとに推論 ▪ 時刻に応じて動的な交通流速を推論するため、交通流速を予測するdecoderには、時刻情報（曜日・時刻）および緯度経度も入力 ▪ 学習および評価のためのデータセットは、Bing Mapsから取得した空中写真と、Uber Movements Speedsの交通データを用いて独自に作成 Method

Slide 203

Slide 203 text

203 ▪ 道路マスク、進行方向、交通流速をマルチタスクで学習することにより、RMSEで 10.66（km/h）の精度で交通流速を予測可能 ▪ 時刻に対して動的に正確な交通流を予測できており、等時性マップ（ある地点まで到達するための所要時間をマッピングしたもの）の作成、分析などにも活用可能 Results

Slide 204

Slide 204 text

204 Visual Chirality Link to paper

Slide 205

Slide 205 text

205 ▪ 左右反転（鏡像）に対する画像分布の対称性としてvisual chiralityという新たな概念を提唱 ▪ 左右反転画像と原画像とを見分ける CNNを訓練したところ、人間には困難でもCNNは高精度に判別可能なことが判明 ▪ data augmentation等では画像分布が左右反転に対して対象であることを仮定しがちだが、実際にはそうでないことを念頭に置くべき Summary 入力画像（左から左右反転あり、なし、あり）上記画像に対するCNNの着目領域ヒートマップ

Slide 206

Slide 206 text

206 ▪ 画像xの分布をD(x)とすると、変換Tによるdata augmentationはD(x) = D(T(x))を仮定していることとなる ▪ 上記近似の実際の画像分布からのズレをvisual chiralityと定義 ▪ 実際には画像分布が未知であるため、ある画像が左右反転されているか否かを見分ける CNNを訓練し、その精度によってvisual chiralityを定量的に評価 Method 対称性からのズレを visual chiralityと定義

Slide 207

Slide 207 text

207 ▪ 画像の内容、および画像の内容と関連が低い低レベル特徴（ベイヤ配列のデモザイキングやJPEG圧縮など）の双方がvisual chiralityに寄与 ▪ 低レベル特徴については以下の関係性を解明 ▪ デモザイキングとJPEG圧縮はそれぞれchiralであり、両者を組み合わせてもchiralとなる ▪ ランダムクロップをデモザイキングまたはJPEG圧縮と個別に組みわせるとachiralとなる ▪ ランダムクロップ、デモザイキング、JPEG圧縮を全て組み合わせるとchiralとなる ▪ CNNが画像の内容に注目して左右反転を判別するように学習させるため、ImageNet分類で事前学習した重みからスタートし、かつ画像に対してランダムクロップを適用 ▪ 同データセット内で学習、テストを実施した場合は80%と高精度な識別が可能 ▪ 学習データセットとは異なるデータセットでテストした場合も59%とチャンスレート以上 Results

Slide 208

Slide 208 text

208 ▪ CAM（Class Activation Map）による推論結果の可視化により、手やシャツの襟など左右反転の手がかりとなる箇所に正しく注目できていることを確認 ▪ 一方、人間の顔など一見すると左右反転の手がかりとならないような箇所にも注目しているが、実際に非対称性が存在すると推察可能（下の例では髪の分け目に注目しているが、これは髪の分け目を左に持ってくる人が多いためと考えられる） Results

Slide 209

Slide 209 text

209 Uncertainty-aware Score Distribution Learning for Action Quality Assessment Link to paper

Slide 210

Slide 210 text

Summary ▪ 動画からアクションの質を評価する研究 ▪ 既存研究のほとんどは、スコアラベルの曖昧さと複数の審査員が主観的に採点することを無視している ▪ 提案手法では、不確実性を考慮した分布学習とマルチパス不確実性を考慮した評価者ごとのスコア分布の学習を行う 210

Slide 211

Slide 211 text

Method ▪ N個のクリップに分割し、I3Dとmlpを用いて各クリップに対して特徴量を抽出 ▪ 各特徴量に対し、temporal poolingとsoftmaxを適用し、スコアの分布を予測 ▪ 学習時は、予測した分布とスコアデータから作成した分布をKLロスで近づける ▪ 推論時は、予測した分布から一番確率が高いスコアを選択し、予測値とする 211

Slide 212

Slide 212 text

Method ▪ 複数の評価者がいる場合、シングルパスのときと同様のネットワークを評価者の人数分用いて、それぞれスコアの分布を予測するように学習 ▪ 最終的なスコアを出すときには、各ネットワークの出力をそれぞれの評価者のスコアとし、ゲームのルールに従って算出 212

Slide 213

Slide 213 text

Results ▪ AQA-7 datasetでSync. 10m以外の項目でstate-of-the-artを達成 ▪ スコア分布には、カイ二乗分布・三角分布・ガウシアン分布等から、タスクに適したものを選択する必要がある 213

Slide 214

Slide 214 text

214 How much time do you have? Modeling multi-duration saliency Link to paper

Slide 215

Slide 215 text

215 ▪ 画像の視聴時間ごとの顕著性ヒートマップ推定タスクの提案 ▪ 時間経過ごとの人間の関心の変遷を捉えることが可能 ▪ 1000枚のデータセットとLSTMを使ったモデルを開発 Summary

Slide 216

Slide 216 text

216 ▪ 経過時間ごとの視線データはウェブ上で収集 ▪ 見ていた位置に表示されたコードを入力する方式により特殊な装置不要で収集 Method

Slide 217

Slide 217 text

217 ▪ 画像を入力しエンコーダデコーダモデルでヒートマップを生成する基本構造 ▪ エンコーダとデコーダの間に、経過時間ごとの重み付けを行うモジュールを追加 ▪ 隣接時間同士でヒートマップの相関係数が真値に近くなるように損失関数を導入 Method

Slide 218

Slide 218 text

218 ▪ 関心の変遷を反映したクロッピングやキャプショニングに応用できることを確認 ▪ 提案モデルは既存モデルで時間ごとに学習するよりも高精度な推定を実現 Results

Slide 219

Slide 219 text

219 EmotiCon: Context-Aware Multimodal Emotion Recognition using Frege’s Principle Link to paper

Slide 220

Slide 220 text

220 ▪ 動画像からコンテキストを考慮した感情の推定 ▪ 従来手法では、顔や視線を入力とした感情推定が一般的 ▪ 本手法では背景から得られるコンテキストとdepth mapから得られる他者との相互作用を用いて推定 Summary

Slide 221

Slide 221 text

221 ▪ 背景のコンテキスト（晴れ、帽子、草原、ワイングラス等）は、対象の人物が知覚する感情に対して影響を与える ▪ semantic sceneの理解のため、対象の人物領域をマスキング Method

Slide 222

Slide 222 text

222 ▪ 心理学の分野で他人の存在の有無が対象人物の感情状態に影響を与えることが既知 ▪ 例：周りの人が知り合いの場合と知らない人の場合で行動が変化 ▪ これらの相互作用や近接をdepth mapとして考慮することで、感情推定の精度向上 Method

Slide 223

Slide 223 text

223 ▪ 各コンテキストから得られる特徴量から感情を推定 Method

Slide 224

Slide 224 text

224 ▪ 左中/左下のcontext2のアテンションマップから、子供持っている凧や棺桶が、それぞれsadnessやpleasureの根拠となっていることが分かる ▪ 左上のcontext3のデプスマップから、周囲の人がテニスプレイヤーへの期待が分かると論文中に書かれている Results

Slide 225

Slide 225 text

225 ▪ 指標にはaverage precisionを使っており、EMOTIC datasetの多くの感情で、既存手法を上回る結果 ▪ 本研究で作成されたGroup Walk Datasetでも同様に、既存手法を凌駕 Results

Slide 226

Slide 226 text

226 Can Deep Learning Recognize Subtle Human Activities? Link to paper

Slide 227

Slide 227 text

227 ▪ 人間の行動の僅かな差をラベル付けしたデータセットを作成 ▪ 既存の行動認識データでは背景などがバイアスとして存在 ▪ 本から目を逸らしているかといった違いは既存の画像分類手法では区別が困難 Summary

Slide 228

Slide 228 text

228 ▪ 「飲んでいるか」「読んでいるか」「座っているか」の3種類のデータを作成 ▪ 「飲んでいる」と「読んでいる」のような分類はせず、各2値分類のみに着目 ▪ 同じ場所でYesとNoの写真を撮影しラベル付 ▪ 人間が50msや800msの時間で分類ができるかを検証 ▪ ImageNetで高精度なCNNモデルで分類できるかを検証 ▪ キーポイント検出等で行動に関係する特徴を抽出しSVMで分類できるか検証 Method

Slide 229

Slide 229 text

229 ▪ ImageNetで高精度なCNNモデルも人間と比べはるかに低い精度 ▪ キーポイントなど行動に関係する特徴をSVMで分類しランダムを上回る精度を達成 Results

Slide 230

Slide 230 text

230 04 Workshop/Tutorial紹介

Slide 231

Slide 231 text

231 主催者：Uber ATG 自動運転に必要な各要素技術について、ハードウェア・ソフトウェア双方の観点を含め、主に Uber ATG の自社技術を中心に、最新の研究状況の紹介内容： ▪ Hardware ▪ Introduction to Autonomy Software ▪ Perception ▪ Prediction ▪ Motion Planning and Controls ▪ Vehicle-to-Vehicle Communication (V2V) ▪ Datasets and Metrics ▪ Simulation ▪ Building HD Maps ▪ Localization All about self-driving [LINK]

Slide 232

Slide 232 text

232 主催者：Uber ATG 自動運転に必要な各要素技術について、ハードウェア・ソフトウェア双方の観点を含め、主に Uber ATG の自社技術を中心に、最新の研究状況の紹介内容： ▪ Hardware ▪ Introduction to Autonomy Software ▪ Perception ▪ Prediction ▪ Motion Planning and Controls ▪ Vehicle-to-Vehicle Communication (V2V) ▪ Datasets and Metrics ▪ Simulation ▪ Building HD Maps ▪ Localization All about self-driving [LINK] Hardware ● 各センサの短所長所を述べつつ紹介 LiDAR 長所 ● 正確なシーン構造 ● 環境光にロバスト ● 反射強度を特徴量にできる短所 ● 高価格 ● 低解像度 ● 天候に敏感カメラ長所 ● テクスチャ情報 ● 低価格・高解像度 ● 高フレームレート ● 豊富なレンズ設定短所 ● デプスが得られない ● 照明条件に敏感 ● レンズ歪みレーダー長所 ● 距離・速度の取得が可能 ● 遠近両対応 ● 天候にロバスト短所 ● 小物体からの反射が弱い ● LiDARより低解像度 ● 多重波伝搬の問題赤外線カメラ長所 ● 環境光にロバスト ● パッシブIRでは温度を特徴量にできる短所 ● アクティブIRは距離とコントラストに制限がある ● パッシブIRは高価格

Slide 233

Slide 233 text

233 主催者：Uber ATG 自動運転に必要な各要素技術について、ハードウェア・ソフトウェア双方の観点を含め、主に Uber ATG の自社技術を中心に、最新の研究状況の紹介内容： ▪ Hardware ▪ Introduction to Autonomy Software ▪ Perception ▪ Prediction ▪ Motion Planning and Controls ▪ Vehicle-to-Vehicle Communication (V2V) ▪ Datasets and Metrics ▪ Simulation ▪ Building HD Maps ▪ Localization All about self-driving [LINK] Introduction to Autonomy Software ● Uberではタスク分割型とend-to-end型の長所を組み合わせた手法を開発中 ● タスクに分けることで検証や事前知識の導入を容易化 ● end-to-endでの学習を可能にすることで生産性を向上 ● interpretabilityの重要性を強調

Slide 234

Slide 234 text

234 主催者：Uber ATG 自動運転に必要な各要素技術について、ハードウェア・ソフトウェア双方の観点を含め、主に Uber ATG の自社技術を中心に、最新の研究状況の紹介内容： ▪ Hardware ▪ Introduction to Autonomy Software ▪ Perception ▪ Prediction ▪ Motion Planning and Controls ▪ Vehicle-to-Vehicle Communication (V2V) ▪ Datasets and Metrics ▪ Simulation ▪ Building HD Maps ▪ Localization All about self-driving [LINK] Perception ● 3次元物体認識のためのセンサ、データ表現、アルゴリズム等を紹介 ● LiDARベース手法 ○ 2D認識と同様、2-stage、1-stage手法が存在 ● カメラベース手法 ○ 入力、特徴、出力のどこで3次元化するか ○ 特徴空間でのlyftが精度と計算量のちょうど良いトレードオフ ● センサフュージョン手法 ○ カスケード、および入力、特徴、出力のどこでフュージョンするか ○ 特徴空間でのフュージョンはキャリブレーション誤差にロバスト ● HDマップの利用 ○ ジオメトリはperceptionのためのリッチな事前知識を提供 ○ ラスタはCNNとの親和性が高いがレンダリングで情報が失われる ○ レーングラフは情報欠損がないがGNNなどモデル設計が複雑になる ● 未知物体の認識 ○ open-set物体認識は自動運転におけるperceptionのクリティカルな課題

Slide 235

Slide 235 text

235 主催者：Uber ATG 自動運転に必要な各要素技術について、ハードウェア・ソフトウェア双方の観点を含め、主に Uber ATG の自社技術を中心に、最新の研究状況の紹介内容： ▪ Hardware ▪ Introduction to Autonomy Software ▪ Perception ▪ Prediction ▪ Motion Planning and Controls ▪ Vehicle-to-Vehicle Communication (V2V) ▪ Datasets and Metrics ▪ Simulation ▪ Building HD Maps ▪ Localization All about self-driving [LINK] Datasets and Metrics ● 自動運転の技術開発ための様々なデータセットおよび評価指標を紹介 ● UberでもATG4Dと呼ぶ大規模データセットを構築（近日公開？） ● 特定タスクに特化したデータセットも紹介 ○ HD Maps：Lyft L5、NuScenes、Argoverse ○ Localization：Pit30M ○ Lane Detection：TuSimple、CuLane、BDD-100k ○ Traffic Sign：Mapillary Traffic Sign Dataset ○ Traffic Light: LISA Traffic Light Dataset

Slide 236

Slide 236 text

236 主催者：FAIR Images、3D、Videoの３つの各研究分野について、基礎理論、最新研究状況の紹介と各 FAIR製ライブラリ（Detectron2、PyTorch3D、PySlowFast）の紹介 ▪ Object Detection as a Machine Learning Problem (Ross Girshick) ▪ Pixel-Level Recognition (Alexander Kirillov) ▪ Detectron2 (Yuxin Wu) ▪ Making 3D Predictions with 2D Supervision (Justin Johnson) ▪ PyTorch3D (Nikhila Ravi) ▪ Eﬃcient Video Recognition (Christoph Feichtenhofer) ▪ PySlowFast (Haoqi Fan) Visual Recognition for Images, Video, and 3D [LINK]

Slide 237

Slide 237 text

237 主催者：東大の松井さん、メルカリの山口さん、NIIのZhenさん検索手法の基本である NN/ANN から、その応用先としてメルカリでの大規模画像検索に関する実例やperson re-identificationの研究動向を紹介 ▪ Billion-scale Approximate Nearest Neighbor Search 大規模検索を実現するための工夫を観点別に整理して解説 ▪ A Large-scale Visual Search System in the C2C Marketplace App Mercari 画像検索することの利点から実際のシステム構造までメルカリを例として解説 ▪ Beyond Intra-modality Discrepancy: A Survey of Heterogeneous Person Re-identification person re-identificationに関するサーベイ、手法の解説 ▪ Live-coding Demo to Implement an Image Search Engine from Scratch Image Retrieval in the Wild [LINK]

Slide 238

Slide 238 text

238 主催者：Facebook、Microsoft、ETH、カーネギーメロン大など企業、大学から多数撮影画像からのカメラの位置姿勢推定というコア技術を共通的に用いるLocalization、 SLAM*1、VO*2についてのコンペや招待講演、論文発表で構成されるワークショップ ● Localization Challenge [LINK] カメラ位置姿勢推定に関するコンペの結果発表および上位チーム講演タスクは以下の3つ 1. visual localization for autonomous vehicles（動画像からのカメラ位置姿勢推定） 2. visual localization for handheld devices（静止画からのカメラ位置姿勢推定） 3. local features for long-term localization（画像からの局所特徴量抽出） ● Invited Talks Daniel CremersやAndrew Davisonを始めとする総勢20名の講演 ● Contributed Papers 5件の論文発表 Joint Workshop on Long-Term Visual Localization, Visual Odometry and Geometric and Learning-based SLAM [LINK] *1: Simultaneous Localization And Mapping *2: Visual Odometry

Slide 239

Slide 239 text

239 主催者：University of Bologna、University College London、Nianticの研究者ら単眼カメラ画像からのデプス推定に関する最近の進展について、教師信号の与え方の違いや学習結果に対する解釈性など幅広く解説 ● Stereo supervision / Monocular supervision 別視点画像の生成を利用した教師信号の与え方について解説 ● Understanding single image depth estimation CNNが何を基にデプスを推定しているかを明らかにする取り組みを紹介 ● Auxiliary supervision セマンティックセグメンテーションやSLAMの利用による改善について解説 ● Learning single image depth estimation in the wild デプス推定向けの大規模データセットや一般的な映像からの学習について解説 ● Mobile depth estimation モバイル機器向けのモデル軽量化手法などについて解説 Learning and Understanding Single Image Depth Estimation in the Wild [LINK]

Slide 240

Slide 240 text

240 主催者：University of Technology Sydneyなどの多数の大学やAI startupからの研究者ら現実のAIタスクでは充分な完璧にアノテートされたデータの獲得は難しい。産業級のAIシステムで応用するための完璧でないデータを学習するweakly supervised learning方法について議論する。三つのコンペや招待講演、論文発表で構成 ▪ 三つのコンペの上位チームの講演 ▪ Weakly-supervised Semantic Segmentation Challenge ▪ train: 画像レベルのラベル　test: pixel-wise分類（semantic segmentation） ▪ Weakly-supervised Scene Parsing Challenge ▪ train: インスタンスごとに1pixelのラベル　test: pixel-wise分類（scene parsing） ▪ Weakly-supervised Object Localization Challenge ▪ train: 画像レベルのラベル　test: 対象をClass Activation Mapでハイライトする ▪ Invited Talk 7本 ▪ 論文発表 5本（best paper: Mining Cross-Image Semantics for Weakly Supervised Semantic Segmentation) The 2nd Learning from Imperfect Data (LID) Workshop [LINK]

Slide 241

Slide 241 text

241 主催者：Waymoやオックスフォード大学などの研究者ら自動運転のスケーラビリティについての課題や最新の取り組みに関するコンペや招待講演、論文発表で構成されるワークショップ ▪ Invited Talks ▪ Paul NewmanやAndrej Karpathyらによる5件の招待講演 ▪ 特にAndrej Karpathyの講演はScaledMLとほぼ同内容であるが、Teslaにおいていかにスケーラビリティの実現が徹底されているかがよくわかるので必見 ▪ コンペ ▪ Waymo Open Dataset Challenge、NightOwls Challenge、INTERPRIT Challenge ▪ 論文発表 ▪ ドメインアダプテーションや新たなデータセットに関する論文など ▪ Cityscapesに3D bounding boxを追加したCityscapes 3Dが発表された Scalability in Autonomous Driving [LINK]

Slide 242

Slide 242 text

主催者：Scape Technologies, Czech Technical University, Google, Microsoftなどの研究者ら ▪ 画像間のマッチングに関する技術を取り扱うワークショップで、局所特徴についての招待講演や、コンペティションの開催などが行われた ▪ DeNAの横尾が当ワークショップにて「Two-stage Discriminative Re-ranking for Large-scale Landmark Retrieval」という題目で発表してきたので、軽く内容を紹介します 242 Image Matching: Local Features & Beyond [LINK]

Slide 243

Slide 243 text

Two-stage Discriminative Re-ranking for Large-scale Landmark Retrieval Shuhei Yokoo (DeNA Co., Ltd.), Kohei Ozaki (Preferred Networks, Inc.), Edgar Simo-Serra (Waseda University), Satoshi Iizuka (University of Tsukuba) ▪ 高精度なランドマーク画像検索のためのパイプラインを提案 ▪ 画像間の特徴マッチングによるデータクレンジング ▪ ラベルデータを活用したリランキング ▪ Google Landmark Dataset v2 (GLD-v2) [Weyand+, CVPR2020] におけるstrong baselineを提供（Google Landmark Retrieval 2019 challenge 1st place） 243

Slide 244

Slide 244 text

244 主催者：University of Edinburgh, Brigham Young University (BYU), University of Massachusetts, Amherst (UMass), Google, Cornell Universityなどの研究者ら ▪ 一般的な画像認識と比較して、カテゴリ分けの粒度が細かくカテゴリ数が多い「ﬁne-grained visual categorization」タスクについて取り扱うワークショップ ▪ ワークショップ採択論文や、招待講演、パネルディスカッション、コンペティション結果についてのディスカッションなどが行われた ▪ DeNAの矢野・大越・横尾が当ワークショップの「iMet Challenge」での優勝解法についてディスカッションしてきたので、解法について軽く紹介します FGVC7: 7TH WORKSHOP ON FINE GRAINED VISUAL CATEGORIZATION [LINK]

Slide 245

Slide 245 text

245 iMet Collection 2020 – FGVC7: 1st place solution Masaki Yano, Takumi Okoshi, Shuhei Yokoo (DeNA Co., Ltd)

Slide 246

Slide 246 text

246 主催者：MicrosoftやGoogle、カーネギーメロン大やコロンビア大の研究者ら動きや音声といった動画像特有の情報を利用してラベルなしの映像からunsupervised/ selfsupervisedで学習する技術に関する招待講演や論文発表で構成されるワークショップ ▪ Invited Talks ▪ Alyosha EfrosやMing-Yu Liuらによる6件の招待講演 ▪ シーンの幾何構造の学習や映像生成、オブジェクトトラッキングなど幅広くカバー ▪ 論文発表 ▪ 表現学習、ロボットの行動学習、セグメンテーション、映像生成、トラッキングなど Learning from Unlabeled Videos [LINK]