CVPR2020 Report

CVPR2020 Report

2020/06/14〜2020/06/19にオンラインで開催されたコンピュータビジョン分野の世界最大の国際会議CVPR2020に、DeNAとMoTの研究開発エンジニア10名(濱田晃一、林俊宏、洪嘉源、唐澤拓己、木村元紀、宮澤一之、夏目亮太、鈴木達哉、Sergey Tarasenko、横尾修平)が参加しました。

本資料では、オンライン参加の様子や採択論文の傾向とともに、注目度や有益性の高かったものを中心に42本の論文を解説します。また、本会議の前後で開催されたワークショップについてもいくつか取り上げます。

D7ef5177ffe7ddec8dc5e11547963f99?s=128

Motoki Kimura

July 16, 2020
Tweet

Transcript

  1. 2020.07.16 濱田 晃一 林 俊宏 洪 嘉源 唐澤 拓己 木村 元紀 宮澤 一之 夏目 亮太 鈴木

    達哉 Sergey Tarasenko 横尾 修平 株式会社ディー・エヌ・エー + 株式会社 Mobility Technologies CVPR2020 参加レポート
  2. 2 項目 01|オンライン参加の概要 02|統計・傾向 03|論文紹介 04|Workshop/Tutorial紹介

  3. 3 01 オンライン参加の概要

  4. 4 ▪ 09:00-18:00, 22:00-06:00 PDTの2スロット開催 ▪ 動画とスライドが特設サイト上で常時公開 ▪ 指定の時間になるとZOOMで著者の方に質疑応答可能 ▪

    各発表ページ上のコメント欄でも質問可能 ▪ Networking RoungeというチャットとZOOMの交流の場が存在 オンライン参加の概要
  5. 5 ▪ 日本で現地時間参加するのはつらい ▪ 海外(特に欧米)の研究者と交流するためには、現地時間参加の方が良いが、時差があるため 体力的・家庭的に負担が大きい ▪ 国外の研究者と交流するのが難しい ▪ 質疑応答のZOOMやNetworking

    Roungeは提供されているが、交流という観点ではオフライ ンの方が向いていると感じた ▪ サイトが重い ▪ 特設サイトが重く開けない状態が度々発生した ▪ ZOOMのURLや発表動画を予め手元に用意しておくことで回避 ▪ 発表を探し歩く体験は良かった ▪ 動画が公開されているため、自分のタイミングで動画を閲覧でき、さらに気になった場合、 ZOOMに参加する流れは快適 ▪ PosterもOralと同じ5分の動画であれば、さらに良かった オンライン参加の様子・感想
  6. 6 02 統計・傾向

  7. 7 ▪ バーチャル会議になったためか、参加者人数は10年ぶりに下がった ▪ それでも2018年よりは多い 参加者数の推移

  8. 8 ▪ 登録数・投稿数・採択数・oral数は全て2019年より多い ▪ 採択率・oral率は2019年より下がっている ▪ 採択率25%(vs. 28% in 2019)

    ▪ oral率5.7%(vs. 6.3% in 2019) Oral/Poster採択状況
  9. 9 ▪ 中国勢が一番多い ▪ 著者数top 10組織のうち7つは中国系 国や機関ごとの著者分布

  10. 10 ▪ AIの説明性や倫理に関する分野をメインテーマとして新たに追加 新たに追加された分野

  11. 11 分野ごとの論文数 CVPR2019 CVPR2020 前年からの差分が目立つトピック

  12. 12 ▪ 全体 ▪ 論文数の多いトピックについては昨年の傾向と大差なし(参考:CVPR2019参加レポート) ▪ semi/self/unsupervised、graph NN、uncertaintyなどがキーワードとして目立つ ▪ 物体認識

    ▪ imbalanced、long-tail、few-shotといったキーワードを含む論文がオーラルに目立つ ▪ EfficientDetのような有名SoTAモデルでもインクリメンタルなAP改善であるためかポスター ▪ セグメンテーション ▪ 1-stage手法などリアルタイム化を狙ったものが多い ▪ 3D ▪ 単眼カメラからのデプス推定は論文数、精度共に進展著しい ▪ デプス解像度の改善やuncertaintyなどに着目したものが多い ▪ トラッキング ▪ unsupervised手法がsupervised手法に匹敵しつつあり今後の主流となりそう 傾向
  13. 13 03 論文紹介

  14. 14 Awards 03-01

  15. 15 Unsupervised Learning of Probably Symmetric Deformable 3D Objects from

    Images in the Wild CVPR 2020 Best Paper Link to paper
  16. Summary 物体の対称性を活用することで、特定物体カテゴリに対して単一画像から三次元再構成を行 うモデルを、単一視点の画像データ群の学習データから 教師なしで構築する手法の提案 16

  17. Method ▪ 入力画像から、物体の向き、深度マップ、テクスチャを予測し、 それらからレンダリング出力、入力画像との再構成損失を計算し学習 ▪ このとき、単なる二次元画像再構成により向きと深度マップを適切に出力せず損失を下 げられるため、flippingによりテクスチャと深度マップに対称性を制約 17

  18. Method ▪ さらに非対称な照明条件に対応するため、照明条件の予測を切り分け、対象性の制約を 持ったalbedoと深度マップを考慮したshadingにより正面のビューを出力 ▪ その上で非対称な構造のalbedoに対応するため、信頼度マップを出力し、 reconstruction lossにて考慮 18

  19. Results 19 人の顔、猫の顔、車についてのreconstructionの結果

  20. Results 20 [45] Sahasrabudhe et al. ICCV Workshops, 2019. [52]

    Szabo et al. arXiv, 2019 他手法とのreconstruction結果の比較
  21. 21 BSP-Net: Generating Compact Meshes via Binary Space Partitioning CVPR

    2020 Best Student Paper Link to paper
  22. 22 ▪ 従来の3次元モデル生成では生成結果にマーチングキューブ法を適用するなどしてポリ ゴンを求めていたのに対し、コンパクトなポリゴンモデルを直接的に生成 ▪ 超平面での再帰的な分割を繰り返すことでシーンを表現するBSP(Binary Space Partitioning)木をニューラルネットワークに取り入れたBSP-Netを提案 ▪ 3次元モデルのセグメンテーションや単眼画像からの3次元再構成で効果を確認

    Summary
  23. 23 ▪ BSP木による表現は3段階であり、まず空間を2分割する複数の平面方程式を定義 ▪ 次にそれらの組み合わせにより、3次元モデルを構成する単位となるパーツを獲得 ▪ 最後に全てのパーツを統合することで3次元モデルを生成 Method

  24. 24 ▪ BSP-Netでは、まず入力特徴ベクトルからMLPで複数の平面パラメータを生成 ▪ これらにバイナリ行列Tを適用することでグルーピングを行いパーツを獲得 ▪ 最後にsumまたはmin-poolingによりパーツを統合して3次元モデルを生成 ▪ 入力データを再構成するように学習するため、学習のための真値は不要 Method

  25. 25 ▪ 3次元モデルの再構成誤差およびセグメンテーション精度を従来手法と比較 ▪ いずれの精度も従来手法を上回る Results 再構成誤差の比較 セグメンテーション精度の比較

  26. 26 ▪ 入力画像からCNNで生成したlatent codeをBSP-Netの入力とすることで一枚 の画像から3次元再構成が可能 ▪ 従来手法よりも大幅に少ないポリゴン数 で同等以上の精度を実現 Results 再構成誤差

    ポリゴン数 頂点数
  27. 27 DeepCap: Monocular Human Performance Capture Using Weak Supervision CVPR

    2020 Best Student Paper Honorable Mention Link to paper
  28. 28 ▪ 人物が写った一枚の画像からその人物の3次元姿勢と衣服の表面形状を推定 ▪ 学習時には多視点画像を利用し、明示的な3次元アノテーションが不要 ▪ 微分可能なモデルで人物形状の変化を表現することで2次元の多視点画像と人物モデル との比較およびロスのbackpropagationを可能に Summary

  29. 29 ▪ PoseNetで画像から人物の関節角度とカメラに対する相対角度を推定し、結果を kinematicsレイヤに入力することで各関節の3次元座標を出力 ▪ これを多視点画像のそれぞれに投影し、多視点画像上でOpenPoseで検出した関節座標 との差分をロスとして学習 Method

  30. 30 ▪ DefNetで画像から人物の衣類形状の変形を表すパラメータを推定し、結果を deformationレイヤに入力することで衣類形状テンプレートを変形させる ▪ 変形させたテンプレートから2次元シルエットを生成し、多視点画像から求めたシル エットとの差分をロスとして学習(合わせてPoseNetと同様の関節ロスも導入) Method

  31. 31 Results

  32. 32 ▪ 定量評価では姿勢推定の精度と衣服表面形状の復元精度を従来手法と比較 ▪ 単眼画像を入力とする従来手法との比較では提案手法は最も精度が高く、多視点画像を 入力とする手法(図中のMVBL)の精度に匹敵 Results 姿勢推定の精度比較 形状推定の精度比較

  33. 33 3D Perception, Shape-From-X 03-02

  34. 34 3D Packing for Self-Supervised Monocular Depth Estimation Link to

    paper
  35. Summary ▪ self-supervised monocular depth estimationの既存手法に対して、特徴マップの詳 細情報を保つPackNetを提案し精度向上 ▪ 速度情報を取り入れることでscale-awareな出力のモデルを構築 ▪

    新規データセットDDAD (Dense Depth for Automated Driving)の構築 35
  36. Method 複数フレームから深度推定、カメラポーズ推定を同時に行い、それらと後続フレームから構 築する先頭フレームと真の先頭フレームとの誤差を計算し学習する枠組み ▪ 特徴マップの詳細情報を保つpacking/unpacking blockにより構築されたPackNet ▪ ポーズ出力に対して速度の教師情報を与えることでscale-awareなモデルを構築 36 packing/unpacking

    block
  37. Method Packing / Unpacking blockにより構築したPackNet Stride、poolingを使わず、空間的な情報をチャンネル方向に織り込んだ状態で3D convする ことで詳細情報を失いにくい圧縮、非圧縮処理を実現 37

  38. Results 38 他手法との定性的な結果の比較 [18] Godard et al. ICCV2019 [14] Fu

    et al. CVPR2018 [52] Zhou et al. CVPR2017
  39. Results 他手法との定量的な結果の比較 scale-awareなモデルを構築しても精度が劣化していない 39 KITTIデータセットでの距離が 80m以内での評価 CS+K:CityScapesによる事前学習と KITTIによるファインニューニング、 M:monocularに依る学習、+v:速度情報の使用

  40. 40 D3VO: Deep Depth, Deep Pose and Deep Uncertainty for

    Monocular Visual Odometry Link to paper
  41. 41 ▪ 単眼visual odometryにおいてデプス、カメラ姿勢、不確かさをCNNにより推定 ▪ 学習にはステレオ映像を利用し、self-supervisedで真値なしでの学習を実現 ▪ 推定結果をvisual odometryにおけるバンドル調整に取り込み定式化 Summary

  42. 42 ▪ ステレオ画像間で画像をワープさせた際のロスによりDepth/PoseNetを学習 ▪ 画像間の輝度変化を補正するための係数も同時に学習 ▪ DepthNetはデプスに加え、推定の不確かさ(uncertainty)を示すマップを出力 Method 入力画像 推定デプスD

    不確かさΣ エッジ領域や移動物体領域で 不確定性が高くなる
  43. 43 ▪ visual odometryにおける最適化で用いられるエネルギー項にCNNで推定したデプス、 カメラ姿勢、不確かさを導入 ▪ photometric energy ▪ フレーム間の差異であるphotometric

    energyの最小化では一般的に乱数でデプスが初期化さ れるが、これをCNNで推定したデプスによる初期化に変更 ▪ 加えて、推定した不確かさを利用した重み付けを実施 ▪ pose energy ▪ 新しいフレームが入力された際のトラッキングは一般的に定速条件に基づき初期化されるが、 ここにCNNで推定したカメラ姿勢を導入 Method
  44. 44 ▪ 単眼デプス推定およびvisual odometryの性能をKITTI、EuRoC MAVで評価 ▪ カメラのみを用いる従来手法の性能を上回っただけでなく、カメラに加えIMUを用いる 手法と同等の性能を達成 Results 従来手法(カメラ&IMU)

    提案手法(カメラのみ)
  45. 45 Self-Supervised Monocular Scene Flow Estimation Link to paper

  46. Summary 自己教師付き学習による、単眼カメラ画像の連続フレームからdepthとscene flowを同時に 推定するモデル構築の提案 46

  47. Method Optical flow推定モデル PWC-Net [Sun et al. 2018] をバックボーンにモデル構築 通常、Optical

    flow cost volumeからoptical flowを推定するところを、depthとscene flow を別々に推定しそれらを投影することでoptical flowを出力するモデルに変更 47
  48. Method 損失関数は、depthに関する従来のdisparity loss [Godard et al. 2019]と、新規に提案す るscene flow lossを使用し学習

    Scene flow lossは大きく分けて2つ: 1. Photometric loss:推定depth、scene flowを用いて変換した点を、2Dに投影したと きの画像上での誤差 2. 3D point reconstruction loss:推定depth、scene flowにより算出される移動後の depthと、変換後の画像上での座標への推定depthの誤差 このときscene flowよりocclusion領域を推定し非occlusion領域のみ適用 48
  49. Results 従来の単眼による推定手法の中でScene flow accuracyのstate-of-the-artを達成 49 KITTIデータセットに対する実験結果 • D1-all:reference frameのdisparityの不正解割合 •

    D2-all:target imageをreference frameへmappingした際のdisparityの不正解割合 • F1-all:optical flowの不正解割合 • SF1-all:上記のいずれかが不正解の割合
  50. 50 Footprints and Free Space From a Single Color Image

    Link to paper
  51. Summary ▪ 1枚のRGB画像からカメラから観測可能な 移動可能領域(traversable surface)と 遮蔽されたtraversable surfaceを同時に 推定するモデルを構築 ▪ 従来の手法はカメラから観測可能な表面の

    み予測するが経路計画(path planning) などの際、用途が限定的 51
  52. Method ステレオカメラ動画を用いることで遮蔽された領域を含めた教師付きデータを作成 52

  53. Method ステレオカメラ動画を用いることで遮蔽された領域を含めた教師付きデータを作成 ▪ ターゲットとなるフレームから連続してフレームを取得 ▪ 各フレームから、ステレオマッチングを用いて観測可能な領域のtraversable segmentaitonとdepth mapを推定 53

  54. Method ステレオカメラ動画を用いることで遮蔽された領域を含めた教師付きデータを作成 ▪ 全フレームで得られた結果をターゲットのフレームにWarpingし、集約することで S_traversable、D*_tを作成 ▪ 最終的に、S_traversable、D*_tを教師データとして使用 ▪ S_traversableは、{traversable, untraversable,

    unknown}のラベルを付与 54
  55. Method 作成した学習データを用いて、4つの出力を行うimage-to-image translatonモデルを学習 ▪ Visible ground segmentation ▪ Hidden ground

    segmentation ▪ Visible depth map ▪ Hidden ground depth map 損失関数 55
  56. Results 56 Prediction for indoor dataset(Matter port) Prediction for outdoor

    dataset(KITTI) Evaluating on the KITTI dataset
  57. 57 Generating and Exploiting Probabilistic Monocular Depth Estimates Link to

    paper
  58. Summary ▪ monocular depth estimationは、推定精度向上のために入力に追加情報を活用するこ とが多いが、各ケースでモデルが異なり独立に再学習が必要 ▪ patchベースのconditonal VAEを用いて、各ケースに依存しないdepth mapの

    probability distributionを出力するモデルを構築 ▪ 各追加情報はprobability distributionの出力結果に対して最適化するのみで適用可能 58
  59. Method ▪ 学習済みfeature extractorを用いて特徴マップを生成 ▪ patchごとに独立してconditional VAE(C-VAE)を用いてdepthサンプルを生成 ▪ このときパッチはオーバーラップさせ、各パッチで複数回実行 59

  60. Method ▪ 追加情報を用いない場合、それらを平均することで推定結果を出力 ▪ 追加情報を用いる場合、MAP推定により最終出力を最適化 60

  61. Results 各追加情報を活用した定性的な出力結果 61

  62. Results NYUv2 testセットに対して、各ケースで最も良い結果を達成 62

  63. 63 PIFuHD: Multi-Level Pixel-Aligned Implicit Function for High-Resolution 3D Human

    Digitization Link to paper
  64. Summary ▪ マルチレベルなアーキテクチャを用いた一枚画像からの人の三次元復元 ▪ coarseレベルでは低解像度で全体のコンテキストを学習 ▪ fineレベルでは詳細なジオメトリに注目した学習 ▪ 1k解像度の入力画像をフルに活用して、既存の手法を上回る結果を実現 64

  65. Method ▪ 既存手法の特徴抽出ネットワークPIFu(論文中ではCoarse PIFu)は、入力画像の解像 度が512x512であり特徴量が128x128であったのに対し、より詳細な復元をするため に入力画像の解像度が1024x1024で特徴量が512x512となるFine PIFuを追加 ▪ Fine PIFuは、Coarse

    PIFuでencodeされたグローバルな特徴Ωを受け取り、全体のコ ンテキストを考慮 ▪ 既存手法の背面の復元が滑らかになる問題を防ぐため、見えていない背面の情報を予め 画像上で予測し、PIFuの入力とすることで、背面をより詳細な復元を実現 65
  66. Results ▪ 既存手法のPIFuに比べて、服のシワや顔の詳細な情報を復元出来ている ▪ Fine module onlyの場合、グローバルな情報を欠損しているため、復元結果を横から見 た時に正しく復元できていない 66

  67. Results ▪ 定性評価でも多くの指標で、既存手法であるPIFuを上回っている 67

  68. 68 ARCH: Animatable Reconstruction of Clothed Humans Link to paper

  69. Summary ▪ 単眼画像からアニメーションに対応した、衣服を含む三次元復元を行うend-to-endな 手法 ARCH (Animatable Reconstruction of Clothed Humans)を提案

    ▪ Semantic SpaceとSemantic Deformation Fieldにより、衣服を着用した人物を正準空 間に変換することを実現 69
  70. Method ▪ 入力画像に対し、DenseRaCを用いてtemplate modelを復元 ▪ 推定したtemplate modelを用いて、入力ポーズがAポーズにノーマライズされるよう な空間の変換を行うSemantic Deformation Fieldを生成

    ▪ Occupancy・Normal・Colorをそれぞれ正準空間で推定し、Implicit Surface Reconsturctionを行う 70
  71. Method ▪ 学習時には、Occupancy・Normal・Colorを三次元正解データとの誤差を用いる ▪ さらに、NormalやColorのrefinementとして、Differentiable Rendererを用いる ▪ 正準空間で点ごとに推定を行った後、Semantic Deformation Fieldを用いて、元のポーズに

    変換しレンダリングを行う ▪ レンダリング結果と正解画像との誤差を用いてrefinementを行う 71
  72. Results ▪ セルフコンタクトやオクルージョンがある場合でも、ロバストな復元を実現 ▪ RenderPeople、BUFFデータセットにて、全ての指標でstate-of-the-art 72

  73. 73 Geometric Structure Based and Regularized Depth Estimation From 360

    Indoor Imagery Link to paper
  74. 74 ▪ 室内の深度をRGB全天球画像から推定 ▪ 全天球画像だからこそ可能な部屋の全体構造の学習を組み込み推定精度を向上 ▪ 物体を除いた深度を求めるcounterfactual depth推定タスクにも利用可能 Summary

  75. 75 ▪ U-Net構造の深度推定モジュールに、構造推定をPriorとして追加した構造 ▪ 学習時は深度マップから構造を再度推定しRegularizerとすることで精度向上 ▪ 家具の位置を考慮するAttention Moduleも追加 Method

  76. 76 ▪ 構造の学習とAttentionモジュールにより全体構造を捉えつつ細部も明瞭に推定 ▪ 構造推定のPrior・Regularizerモジュールはどちらも同程度効果を発揮 Results

  77. 77 Face Gesture, Body Pose 03-03

  78. 78 Face X-Ray for More General Face Forgery Detection Link

    to paper
  79. Summary ▪ 顔の合成画像(偽顔画像)を検出するSOTA手法を提案する ▪ 既存の手法は主に偽造の部分に注目するが、この論文では偽造の部分を背景画像に融合 する時の痕跡に注目し、その輪郭を検出する同時に顔画像の真偽を判断する ▪ 特定手法の偽顔画像を学習しなくても検出できる。リアル顔画像だけでも学習できる 79

  80. Method 80 ▪ 合成画像の背景および対象顔領域のマスク輪郭をFace X-Rayと定義する(式②) ▪ リアル画像のみ使う場合、まず顔画像のランドマークを検出し、nearest searchで似 る顔画像一枚を選ぶ。ランドマークから初期マスクを作成し、式①②で合成顔画像と Face

    X-Ray Bを生成する ▪ 合成画像をCNNに入力してFace X-Ray Bと真偽の分類confを出力し、上記手順の生成 物を正解として、教師あり学習する ① ②
  81. Results ▪ FaceForensics++データセットの4種類の手法の偽顔画像の一つを学習して、他の手法 の偽顔画像もSOTAで検出できる ▪ リアル顔画像のみの学習+FaceForensics++データセット追加で他の偽顔画像データ セットでSOTAの検出性能が出る 81

  82. 82 Advancing High Fidelity Identity Swapping for Forgery Detection Link

    to paper
  83. 83 ▪ Two-StageのFace swapping(対象画像の顔を別人の顔に置き換える)手法を提案す る ▪ 既存の手法と比べて、対象画像の属性を充分に利用し高品質の合成ができ、遮蔽がある 場合でもうまく扱える Summary

  84. 84 ▪ 二段階のアーキテクチャ: AEI(Adaptive Embedding Integration)-Net + HEAR(Heuristic Error Acknowledging

    Refinement)-Net ▪ AEI-Netの目的は高精度のswap画像を生成する ▪ identity encoderで置換え顔画像のid embeddingを抽出し, U-Net型のmulti-level attributes encoderで背景画像の属性を抽出, AADモジュールで上記二つの異なるレベルの特 徴を融合する Method
  85. 85 ▪ HEAR-Netの目的は顔のocclusionを自然に合成する ▪ AEI-Netで同じ背景画像二枚を合成した場合、occlusion部分がうまく合成できない ▪ ①上記合成画像と元画像の差分+②AEI-Netで背景画像と別の顔画像の合成画像 をself-supervisedで学習して、背景画像のocclusionを保つ合成画像を生成する Method

  86. Results ▪ 既存の手法と比べて背景画像の属性をもっと保留し、遮蔽も残る ▪ FaceForensics++ Datasetの各手法と比べて、顔認証(cosface)でのID復元と pose・expressionの差分が優れる 86

  87. 87 3FabRec: Fast Few-shot Face alignment by Reconstruction Link to

    paper
  88. Summary ▪ 半教師あり学習によりfew-shotでの顔ランドマーク推定で比較的良い性能を達成 ▪ 教師無しでAAEによる顔復元を学習した後、教師ありでランドマーク推定を学習 ▪ 顔復元の学習により顔形状の情報が暗黙に獲得されるためfew-shotでいける 88

  89. Method ▪ VGGFace2+AffectNetの計2M枚でAAEを学習 ▪ デコーダ側に特徴変換を行う層を追加しランドマークのヒートマップを学習 89

  90. Results ▪ SoTA手法に比べても見劣りしない性能 (右表) ▪ 学習データを減らしても比較的高い性能 (下表) 90

  91. 91 Learning Meta Face Recognition in Unseen Domains Link to

    paper
  92. Summary ▪ マルチドメインの学習データから学習して、未学習の新ドメインでもSOTAの性能を持 つ顔認証の学習手法Meta Face Recognitionを提案 ▪ ドメインレベルのサンプリングストラテジーでbatchを取得し、マルチドメインの分布 をオプティマイズする勾配を計算し、最後にそれらの勾配を結合する ▪

    二つ顔認証の汎化性能を評価するベンチマークを提案する 92
  93. Method 93 ▪ N個ソースドメインから、一つのドメインをテストとし、その他のドメインを学習用と してN個Meta-batchを構築する。各IDからgalleryとprobeを一枚ずつを抽出する ▪ 三種類のロスを計算する:①hard positiveとnegative対をオプティマイズする hard-pair attention

    loss、②batch内の分類のsoft classification loss、③ドメイン間 の距離を近くためのdomain alignment loss ▪ meta-trainでは①②③を計算し、meta-testでは①②を計算する。両者同時にオプ ティマイズする ▪ 最後に全ての勾配を合算する
  94. Results ▪ マルチドメインの顔認証ベンチマークGFR-RとGFR-Vのデータセットにおいて、SOTA の性能を示す 94

  95. 95 Self-supervised Learning of Interpretable Keypoints from Unlabelled Videos Link

    to paper
  96. Summary ▪ 自己教師学習で人間に解釈可能なキーポイント推定ができる手法を提案 ▪ ポイントはキーポイントを直接推定せずに骨格画像を経由し、骨格画像とキーポイント の変換を人手で設計すること 96

  97. Method ▪ 全体構成としては画像からキーポイントにして画像を復元する形 ▪ 写っているのが同一人物であることが分かっている動画を利用 ▪ 画像から直接キーポイントを推定せず一度骨格画像を経由するのがアイディア ▪ 骨格画像がリアルかはdiscriminatorで判定 ▪

    骨格画像はin-the-wildな画像に対するものでなくmocapから得られるもので良い点が重要 ▪ 骨格画像に元画像の情報が人に分からない形でエンコードされることを防ぐため、骨格 画像からキーポイントに変換して戻す処理を挟む ▪ 骨格画像とキーポイントの変換を人が設計することで解釈可能な点が得られる 97
  98. Results ▪ 人姿勢推定及び顔ランドマーク推定で既存の自己教師あり手法と比較し良い性能 ▪ supervised post-process: 学習されたキーポイントから解釈可能な点への変換の学習 98 人姿勢 Simplified

    Human3.6M 顔ランドマーク 300W
  99. 99 Synthesis, Generative Model 03-04

  100. 100 SEAN: Image Synthesis With Semantic Region-Adaptive Normalization Link to

    paper
  101. ▪ labelmap to image の GANでの生成品質を向上 ▪ 各labelmap 領域での style

    埋め込みを向上し、PSNR、visual inception 指標を向上 ▪ 各labelmap 領域ごとに style 指定し生成でき、制御性が向上 101 Summary
  102. 102 ▪ 各labelmapごとに、特徴マップを作りSPADE Blockで同時に埋め込み ▪ 学習時には、画像の再構成で学習 ▪ 推論時には、各labelmapごとに別画像から特徴マップ作り sytle指定しての生成が可能 Method

    SPADE (従来SoTA) SEAN
  103. 103 ▪ 各labelmapごとに、特徴マップを作りSPADE Blockで同時に埋め込み ▪ 学習時には、画像の再構成で学習 ▪ 推論時には、各labelmapごとに別画像から特徴マップ作り sytle指定しての生成が可能 Method

  104. 104 ▪ 画像の再構成、labelmap to Imageの生成品質、を CelebAMask-HQ、CityScapes、 ADE20K、Fascadesで比較 ▪ 画像の再構成をSSIM、RMSE、PSNRで、生成品質をmIoU、accuracy、FIDで、それぞ れ評価

    ▪ labelmapごとの埋め込みを行わない従来手法に対し性能向上 Results
  105. 105 Results CelebA Mask-HQ ADE20K CityScapes Facades Style Transfer

  106. 106 Results Style Interpolation

  107. Learning to Shadow Hand-Drawn Sketches 107 Link to paper

  108. ▪ 線画に対する光源方向指定しての影生成 ▪ 線画・影のペアに、光源方向ラベルを付けたデータセットを作成(1160ペア) ▪ 主観評価の指標向上 108 Summary

  109. 109 ▪ Shape Net で、2D線画を表現ベクトルへ埋め込み ▪ Render Netで、線画表現埋め込み・光源指定埋め込みから、影生成 ▪ 敵対的

    loss、影の再構成 loss(最終出力、及び、途中2段階)で学習 ▪ 光源方向は26方向でアノテーション Method 影の再構成 loss
  110. 110 ▪ 線画に対する詳細な影生成を実現 ▪ 主観評価 も先行手法から向上 Results 影生成例 前方光源 側方光源

    後方光源
  111. 111 ▪ 線画に対する詳細な影生成を実現 ▪ 主観評価 も先行手法から向上 Results Deep Normal (ECCVW’18)

    Sketch2Normal (PACMGIT’18) Pix2Pix (CVPR’17) U-net (MICCAI’15)
  112. Learning to Cartoonize Using White-Box Cartoon Representations 112 Link to

    paper
  113. ▪ 写真から Cartoon画像へDomain変換 ▪ 1) Surface Representation、2) Structure Representation、3) Texture

    、の3表現 の観点でのLossを用い、画像生成学習 ▪ 主観評価の指標向上 113 Summary
  114. ▪ 画像の surface representation、structure representation、texture representation の表現を抽出処理し生成学習に利用。lossの重み付けで生成制御 ▪ 他のlossは、total variation

    (TV) Loss: 空間的滑らかさ保持と高周波ノイズ除去、 Content Loss: 内容保持 114 Method
  115. 115 Results 生成結果 入力 生成結果 入力

  116. 116 ▪ Cartoon変換、Photo変換ともに、FID向上 ▪ 主観評価 も向上 Results Fast Neural Style

    CartoonGAN (CVPR’18) CycleGAN (CVPR’1’) FID User Study
  117. SynSin: End-to-End View Synthesis From a Single Image 117 Link

    to paper
  118. ▪ 1枚画像からの view synthesis ▪ 3次元幾何のモデル化のために微分可能な point cloud renderer ▪

    欠損箇所の補完のためにGANを利用 ▪ self-supervised で end-to-end学習 118 Summary
  119. ▪ 入力画像から同解像度の画像特徴、depth mapを予測・3D射影し point cloudを構築 ▪ 微分可能な point cloud renderer

    により、point cloud を新しい view に変換し画像特 徴を生成し、refinement networkで欠損部分を補完し新しいviewの画像を生成 ▪ adversarial loss、L1 loss、perceptual loss で学習 ▪ テスト時には、未知のシーン画像と期待カメラ視点から、シーン画像の view を生成 119 Method
  120. ▪ neural point cloud renderer ▪ end-to-endで微分可能 ▪ 特徴量抽出networkとdepth map算出networkの学習のために、画像特徴量と3D座標のそれ

    ぞれで微分可能 ▪ 従来のrendererで課題だった局所的な近傍のみしか扱えない・hard z-bufferの扱いを解消 ▪ 3D点集合を近傍を重み重み付けし2D射影することにより 2D座標での誤差逆伝搬を可能 に ▪ 射影点集合をα合成し全ての点が最終値に寄与する形に ▪ Rendering高速化(Point cloud to image)forward:従来の27倍、backward:400倍 120 Method
  121. 121 ▪ 生成品質を Matterportで学習しMatterport・Replicaで評価、及び、RealEstate10K での学習・評価で比較 ▪ PSNR、SSIM、Perceptual Similarityの指標、及び、主観評価で、定量評価 ▪ 従来手法に対し、性能向上

    Results
  122. 122 ▪ 生成品質を Matterportで学習しMatterport・Replicaで評価、及び、RealEstate10K での学習・評価で比較 ▪ PSNR、SSIM、Perceptual Similarityの指標、及び、主観評価で、定量評価 ▪ 従来手法に対し、性能向上

    Results
  123. 123 Self-Supervised Scene De-occlusion Link to paper

  124. 124 ▪ 各物体と背景の分離および見えない部分の補完をself-supervisedで実現 ▪ 順序情報や見えない部分のマスクが学習に不要 ▪ 完全な教師あり手法と同程度の精度を達成 ▪ 擬似的なamodal instance

    segmentation教師データ作成が可能 Summary
  125. 125 ▪ 補完は人為的にオクルージョンデータを作りself-supervisedで学習 ▪ 推論時は隣接物体間で補完時の増大量を比較し順序を推測 ▪ 推測した順序情報も使い各物体を補完 Method

  126. 126 ▪ 物体の順序や位置の変更が高品質で実現 ▪ 見えない部分の補完で教師ありに匹敵する精度を達成 ▪ amodal instance segmentationで教師データを使った場合と同精度を達成 Results

  127. 127 PULSE: Self-Supervised Photo Upsampling via Latent Space Exploration of

    Generative Models Link to paper
  128. 128 ▪ 従来一般的であった高解像度画像(真値)と超解像画像の誤差を最小化するというアプ ローチとは大きく異なる超解像手法を提案 ▪ GANにより獲得した高解像度画像の潜在空間を探索し、ダウンスケールにより入力低 解像度画像を正しく再現できる高解像度画像を生成 ▪ 64倍拡大のような従来手法よりも大幅に大きな拡大倍率を実現 Summary

  129. 129 ▪ 入力低解像度画像から高解像度画像を再構成しようとすると、実際には解が多数存在す るため不良設定問題となり結果がぼやけるなどの問題が発生 ▪ StyleGANを使って高解像度画像の潜在空間を獲得し、潜在変数から生成した高解像動 画像をダウンスケールした画像と入力低解像度画像の差分が小さくなるように潜在空間 内を探索 ▪ 探索範囲を超球表面に限定することで生成画像の妥当性と探索の容易化を実現

    Method 入力低解像度画像 解となる高解像度 画像は多数存在
  130. 130 ▪ Flickr Face HQ Datasetで学習済みのStyleGANを利用しCelebA HQの超解像を実施 ▪ 8倍(16x16 →

    128x128)と64倍(16x16 → 1024x1024)の拡大率で実験 Results
  131. 131 Results

  132. 132 ▪ 定量評価では主観品質を表す尺度としてMOS(Mean Opinion Score)とNIQE (Naturalness Image Quality Evaluator)を利用 ▪

    NIQEにおいては実際の高解像度画像を上回るスコアを達成 Results 8倍拡大(128x128)におけるMOS比較(値が大きいほど高品質) 64倍拡大(1024x1024)におけるNIQE比較(値が小さいほど高品質)
  133. 133 Object Detection 03-05

  134. 134 Bridging the Gap Between Anchor-based and Anchor-free Detection via

    Adaptive Training Sample Selection Link to paper
  135. 135 ▪ anchor-basedの物体検出モデルとanchor-freeの物体検出モデルにおいて、両者の検 出精度の違いの本質的な原因は、学習時のpositive sampleとnegative sampleの定義 にあることを明らかにした ▪ 学習サンプルの統計的特性に応じて適応的にpositive/negative sampleを定義づける

    ATSS(Adaptive Training Sample Selection)を提案 ▪ ATSSにより、anchor-based/anchor freeの両モデルの検出精度を向上 Summary
  136. 136 ▪ anchor-basedモデルのRetinaNetと、anchor-freeモデルのFCOSを比較 ▪ anchor boxを1つに限定したRetinaNetとFCOSにおいて、FCOSに特有のモジュールを RetinaNetに追加し、両モデルの条件を揃えて比較 ▪ 同じ条件に揃えてもAPに0.8ポイントの差異があったが、両者を学習する際の positive/negative

    sampleの定義を揃えると、検出精度が一致することを確認 Method
  137. 137 ▪ 学習サンプルの統計的特性に応じて適応的にpositive/negative sampleを定義する ATSS(Adaptive Training Sample Selection)を提案 Method

  138. 138 ▪ ATSSを適用することでRetinaNet/FCOSの両モデルの検出精度が向上するとともに、 検出精度がほぼ一致 ▪ ATSS適用下では、RetinaNetのanchor boxを増やしても精度向上に全く寄与しない (anchor boxが1つであっても検出精度が高い)ことを確認 ▪

    ATSSを適用することで、MS COCOデータセットにおいて既存手法を上回る検出精度を 達成 Results
  139. 139 Overcoming Classifier Imbalance for Long-Tail Object Detection With Balanced

    Group Softmax Link to paper
  140. Summary ▪ 通常の検出器がlong-tailedデータセットで学習する際に、分類器の重みのnormは不均 衡であることを分析し、分類器が平等に学習していないのは性能が悪いの原因の一つだ とわかった ▪ balanced group softmaxを提案し、long-tailedデータセットでの物体検出と segmentationなどのタスクでSOTAの性能を示す

    140
  141. Method 141 ▪ classを学習データのインスタンス数によってNグループに分割し(背景classは単独グ ループに)、各グループの中にothers classを追加する ▪ 各グループごとにsoftmax cross entropy

    lossを計算する ▪ 推論時、背景class以外のclassを元のclass IDに戻し、背景グループのothers classの probabilityと乗算でrescaleして、背景classのprobabilityと合わせて最後の結果とす る
  142. Results ▪ 一般の検出器および他のlong-tailedデータセット対策のresampling/re-weight手法と 比べてSOTAの性能を示す 142

  143. 143 Detection in Crowded Scenes: One Proposal, Multiple Predictions Link

    to paper
  144. Summary ▪ 混雑したシーンでのoverlapした物体を検出するため、一つのproposalで複数のobject を検出する手法を提案する ▪ EMD loss とset NMSなどのテクニックを使うことで、混雑データセットと普通データ セット両方での検出性能を向上する

    144
  145. Method 145 ▪ proposalとのIOUは一定値以上のground-truth物体をそのproposalのGTとする ▪ 一つのproposalはK個bboxを推論する(背景クラスを含む) ▪ K個bboxを一番近いGTにmatchするようにEMD lossを定義する ▪

    NMSを実行するとき、同じproposal内のbboxをsuppressしない ▪ optionとして、推論したbboxを元のfeatureとconcatするrefine moduleを提案する
  146. Results ▪ CrowdHumanおよびCityPersonsデータセットでSOTA ▪ COCO(混雑データセットではない)でも性能向上 146

  147. 147 MPM: Joint Representation of Motion and Position Map for

    Cell Tracking Link to paper
  148. 148 ▪ 位相差顕微鏡画像において、細胞の検出と追跡を同時に予測するMotion and Position Map(MPM)を提案 ▪ 検出と追跡を別々に解く既存手法に比べ、検出精度と追跡精度を大きく向上 Summary

  149. 149 ▪ MPM-NetはU-Netをベースとした構造を持ち、隣接する2フレーム(フレームt-1およ びフレームt)を重ねた入力画像から、ピクセル毎に3次元のベクトルを出力 ▪ ベクトルは、フレームtにおける細胞の存在確率と、フレームtからフレームt-1の間に おける細胞の移動量を表現 ▪ シーケンス内の隣接フレームに対してMPM-Netで繰り返し推論を行うことで、シーケ ンス全体で細胞を追跡

    Method
  150. 150 ▪ publicな顕微鏡画像のデータセットに対して一部アノテーションを追加し、提案手法を 評価 ▪ 複数フレームを入力とすることにより、細胞の検出精度を従来手法に比べて向上既存の 追跡手法に比べて追跡精度も大幅に向上 Results

  151. 151 Segmentation 03-06

  152. 152 PointRend: Image Segmentation as Rendering Link to paper

  153. 153 ▪ レンダリングを応用した新しいセグメンテーション手法を提案 ▪ サンプリング密度を領域ごとに適応的に変化させることで、効率良くかつ鮮明なオブ ジェクト境界を得ることが可能 Summary

  154. 154 ▪ まず低い解像度の特徴マップから粗いセグメンテーションを行う ▪ より詳細な推定を行うため、PointRendは境界付近の点のセットを選択し、高解像度な 特徴マップと軽量のmlpを用いて各点に対して独立に予測を行う ▪ このプロセスを反復的に適用することで、予測されたマスクの不確実性の高い領域を洗 練させていく Method

  155. 155 ▪ 推論時は、各領域に関してadaptive subdivisionを用いてcoarse-to-fineに推論を行う ▪ 低解像度のマップに対してbilinear補間を用いて2x upsampleを行い、上位N個の曖昧 な領域に関してPointRendを用いてラベルを予測する ▪ このプロセスを目標の解像度になるまで繰り返す

    Method
  156. 156 ▪ PointRendを学習するときにも、ポイント選択が必要となる ▪ 推論時に似た細分化が必要となるが、sequentialなステップは誤差逆伝播法に向かない ため、ランダムサンプリングに基づく以下の戦略を使用 ▪ 1. ランダムに kN

    points(k > 1)一様分布からサンプリングする ▪ 2. coarse predictionの予測値を用いて、kN pointsの中から不確実性の高いβN個 (β ∈ [0、 1])の点をサンプリングする ▪ 3. (1 - β)N個を一様分布からサンプリングする Method
  157. 157 ▪ Mask R-CNNに比べてオブジェクトの境界が鮮明になっている Results

  158. 158 Real-Time Panoptic Segmentation from Dense Detections Link to paper

  159. 159 ▪ panoptic segmentationにおいて物体検出の結果を活用しリアルタイム化を実現 ▪ 通常はNMSで破棄する重複バウンティングボックスからインタンスマスクを生成 ▪ SoTAからの性能劣化を3%に抑えて4倍の高速化を達成(30fps@1024x2048) Summary

  160. 160 ▪ FPNの各レベルから画素ごとに密なバウンティングボックスを生成し、その特徴マップ を流用することでsemantic segmentationを実施 ▪ semantic segmentationのための独立ブランチを設ける場合に比べ計算効率が向上 Method

  161. 161 ▪ 密に生成したバウンディングボックスの中からNMSでクエリとなるボックスを選択 ▪ クエリボックスと他ボックスとのIoUおよびsemantic segmentation結果から self-attentionによりインスタンスマスクを生成 Method

  162. 162 ▪ CityscapesおよびCOCOを用いて従来のsingle-stage、two-stage手法と比較 ▪ 性能評価にはpanoptic quality(PQ)を利用 ▪ いずれのsingle-stage手法よりも高性能で、かつtwo-stage手法に匹敵 Results Cityscapesでの結果

    COCOでの結果
  163. 163 Results 入力画像 提案手法 (30fps) UPSNet (7fps)

  164. 164 Predicting Semantic Map Representations from Images using Pyramid Occupancy

    Networks Link to paper
  165. 165 ▪ 車両周辺環境のbirds-eye-viewマップを単眼カメラ画像から直接予測する手法を提案 ▪ 車道や歩道などの静的な物体に加え、車両や歩行者などの動的な物体もマッピング ▪ マップは物体カテゴリごとの占有格子地図として表現されているため、ベイズフィルタ を用いて異なる視点のカメラから得られたマップをシンプルかつ自然に統合することが 可能 Summary

  166. 166 ▪ ResNet-50+Feature Pyramid Networkで特徴抽出 ▪ 特徴マップ上の列方向をエンコードすることで、birds-eye-view上での奥行き方向の 特徴(BEV features)を抽出 ▪

    カメラパラメータを用いてBEV featuresを空間上でリサンプルし、物体カテゴリごと の占有確率を各グリッドで予測 Method
  167. 167 ▪ NuScenesおよびArgoverseデータセットで提案手法を評価し、既存手法に比べてそれ ぞれ9.1%、22.3%の改善 ▪ 得られたマップに対してベイズフィルタを適用することで、複数フレームの情報も容易 に統合可能 Results

  168. 168 Cars Can't Fly Up in the Sky: Improving Urban-Scene

    Segmentation via Height-Driven Attention Networks Link to paper
  169. 169 ▪ 車載画像のセグメンテーションでクラスの出現頻度が高さごとに異なることに着目 ▪ この情報を考慮するモジュールは既存モデルに容易に追加可能で精度が向上 Summary

  170. 170 ▪ チャンネルごとに位置(高さ方向)の重み付けをするHANetを考案 ▪ 車載画像セグメンテーションにおいては5つの異なる層にHANetを追加 Method

  171. 171 ▪ 中間層では高さごとに異なるサイズの受容野に対応する重みが増加 ▪ 出力層では高さごとに実際のクラス分布に対応した重みを学習 ▪ コストをほぼ変えずに精度が向上 Results

  172. 172 Foreground-Aware Relation Network for Geospatial Object Segmentation in High

    Spatial Resolution Remote Sensing Imagery Link to paper
  173. 173 ▪ 高分解能のリモートセンシング画像に対するsemantic segmentationにおける問題 ▪ foreground objectサイズのばらつきが大きい ▪ backgroundクラス内でのバリエーションが非常に大きい ▪

    foreground objectよりもbackgroundが圧倒的に多い不均衡データである ▪ これらに対処するためforeground-aware relation network(FarSeg)を提案 Summary
  174. 174 ▪ Feature Pyramid Networkの最も解像度の小さいfeatureから画像全体のコンテクスト を抽出し、これを用いてpyramidの各featureに対するattention map (foreground-scene relation heatmaps)を生成

    ▪ attention mapをfeatureに作用させることで、そのシーンに最も適したfeatureを学習 Method
  175. 175 ▪ focal lossを用いることでforeground exampleとhard background exampleを優先的 に学習することで、クラス不均衡に対処 ▪ 学習初期は通常のcross

    entropy lossで学習し、学習が進むにつれてfocal lossに近づ けていくことで、学習初期を安定化しつつ最終的な精度も向上 Method
  176. 176 ▪ iSAIDデータセット(最大規模の高解像度リモートセンシング画像とsegmentationラ ベルのデータセット)において評価 ▪ 比較手法の中では最も高精度 ▪ 推論速度と精度のトレードオフでも他手法を凌駕 Results

  177. 177 Network Pruning 03-07

  178. 178 Towards Efficient Model Compression via Learned Global Ranking Link

    to paper
  179. Summary ▪ モデルの大域的なフィルタの重要度をEAで求めるプルーニング手法LeGRを提案 179

  180. Method ▪ フィルタの重要度を大域的に付けられること、及びそ の重要度はフィルタのL2ノルムの線形変換で測れるこ とを仮定 ▪ 線形変換のパラメータは進化アルゴリズムで学習 ▪ fitnessは「そのパラメータによる大域的重要度で指定の 最大プルーニング率分プルーニング後、指定イテレー

    ションfine-tuneした時のval精度」 180
  181. Results ▪ CIFAR-10/100, ImageNet 等で既存手法より良い性能を確認 181 CIFAR-100での比較結果 ImageNetでの比較結果

  182. 182 HRank: Filter Pruning using High-Rank Feature Map Link to

    paper
  183. Summary ▪ 特徴マップのランクによる順位付けを用いたプルーニング手法を提案 ▪ 特徴マップのランクが入力画像にあまり依存しないことを観察 ▪ ランクの小さいフィルタを優先的に除去 183

  184. Method ▪ 各フィルタの特徴マップの平均ランクを可視化 (下図) ▪ X軸: フィルタ、Y軸: 画像枚数、色: ランク ▪

    平均ランクが入力画像枚数にあまり依存しないことが分かる 184
  185. Results ▪ CIFAR-10及びImageNetによる実験で既存手法と比べて良い性能を確認 185

  186. 186 Metric Learning 03-08

  187. Cross-Batch Memory for Embedding Learning 187 Link to paper

  188. Summary ▪ 本研究で提案するXBM(Cross-Batch Memory)は、過去のサンプルの埋め込みを一 定期間保持することで、一度に多くのサンプルを考慮可能 ▪ 学習の経過による埋め込みの変化が微小なことを理論的・実験的に示した ▪ 既存の距離学習の損失関数に自然に組み込むことが可能であり、contrastive lossと組

    み合わせるだけで画像検索のタスクにおいてstate-of-the-artの性能を示した 188
  189. Method ▪ 距離学習は、典型的にミニバッチ内でのみhard negativeを考慮する ▪ そのため、バッチサイズを大きくすればするほど一度に考慮可能なサンプルが増加し、 より効果的なhard negativeをサンプリングすることができる ▪ 本研究で提案するXBM(Cross-Batch

    Memory)は、過去のサンプルの埋め込みを一 定期間保持することで、バッチサイズを大きくすることなく一度に考慮可能なサンプル 数を増加可能 ▪ 学習の経過による埋め込みの変化が小さいことを理論的・実験的に示し、過去のサンプルの埋 め込みと現在のモデルが抽出したサンプルの埋め込み間で距離計算を行っても問題ないことを 示した ▪ コード数行で既存の損失関数に組み込むことが可能 189
  190. Results 既存の距離学習の損失関数と組み合わせることで画像検索のタスクにおいて state-of-the-artの性能を示した 190

  191. Embedding Expansion: Augmentation in Embedding Space for Deep Metric Learning

    191 Link to paper
  192. Summary ▪ 距離学習において、近年では人工的にhard exampleを生成する手法が提案されている ものの、サンプル生成のためのネットワークが追加で必要だった ▪ 本研究では、内挿によって人工的にhard exmpleを生成する手法「embedding expansion」を提案することでシンプルかつ高速なhard exampleの生成を実現

    ▪ 既存の距離学習の損失関数に自然に 組み込むことが可能であり、画像検索・ クラスタリングのタスクにおいて state-of-the-artの性能を示した 192
  193. Method ▪ ミニバッチ内で、同一クラスに属する2つのサンプルの埋め込みベクトルに対して、n 個の内分点をオンラインで計算する ▪ 内分点の計算後、L2正規化を施す ▪ 元のサンプル+生成されたn個の内分点と他のクラス(negative class)の元のサンプ ル+生成されたn個の内分点同士で距離を計算し、最も類似しているサンプルを

    hardest exampleとする ▪ 本手法はtriplet loss, N-pair loss, MS loss など、他の距離学習の損失関数の hard negative pair mining手法として 用いることが可能 193
  194. Results 194

  195. 195 Datasets, Others 03-09

  196. Google Landmarks Dataset v2 A Large-Scale Benchmark for Instance-Level Recognition

    and Retrieval 196 Link to paper
  197. Summary ▪ 画像検索・インスタンス認識のためのデータセットである「Google Landmarks Dataset v2」を提案 ▪ 画像検索・インスタンス認識の分野の発展にともなって、よりチャレンジングな データセットが必要というモチベーション ▪

    世界中のランドマーク画像をWikimedia Commonsを利用して収集 ▪ 400万件以上のサンプル数と20万件以上のラベルを有する ▪ 非常にラベル不均衡なデータセットとなっている 197
  198. Method ▪ データセットの構築: ▪ Wikimedia Commonsから画像を収集 ▪ Google Knowledge Graphを用いてランドマークに関連するクエリを投げ、

    関連するWikipediaの記事からラベル付け ▪ テストデータにはクラウドソーシングで集めたデータも追加 ▪ テストデータの再アノテーション: ▪ データセットには多くのラベルノイズが含まれており、より高品質な評価ベンチマークを提供 するために半自動なテストデータの再アノテーションツールを開発 ▪ 20万件ものラベルのアノテーションは人手では難しいため、「アノテーション対象の画像と 候補画像が同一のランドマークか?」という易しめのタスクを解かせる ▪ 候補画像の提示には、GLD-v2における複数のコンペ上位者のモデルの予測を利用 198
  199. Results 199

  200. 200 Dynamic Traffic Modeling from Overhead Imagery Link to paper

  201. 201 ▪ 時刻、緯度経度、およびその地点における空中写真を入力として、道路の交通流速を推 論するCNNモデルを提案 ▪ 構築コストが高い道路ネットワークの情報を必要とする既存手法に対し、提案手法では 航空写真から直接、様々な時刻における交通流速を動的に推定できる Summary

  202. 202 ▪ LinkNetをベースとしたCNNにより、道路マスク、進行方向、交通流速をピクセルごと に推論 ▪ 時刻に応じて動的な交通流速を推論するため、交通流速を予測するdecoderには、時刻 情報(曜日・時刻)および緯度経度も入力 ▪ 学習および評価のためのデータセットは、Bing Mapsから取得した空中写真と、Uber

    Movements Speedsの交通データを用いて独自に作成 Method
  203. 203 ▪ 道路マスク、進行方向、交通流速をマルチタスクで学習することにより、RMSEで 10.66(km/h)の精度で交通流速を予測可能 ▪ 時刻に対して動的に正確な交通流を予測できており、等時性マップ(ある地点まで到達 するための所要時間をマッピングしたもの)の作成、分析などにも活用可能 Results

  204. 204 Visual Chirality Link to paper

  205. 205 ▪ 左右反転(鏡像)に対する画像分布の 対称性としてvisual chiralityという新 たな概念を提唱 ▪ 左右反転画像と原画像とを見分ける CNNを訓練したところ、人間には困難 でもCNNは高精度に判別可能なことが

    判明 ▪ data augmentation等では画像分布が 左右反転に対して対象であることを仮 定しがちだが、実際にはそうでないこ とを念頭に置くべき Summary 入力画像(左から左右反転あり、なし、あり) 上記画像に対するCNNの着目領域ヒートマップ
  206. 206 ▪ 画像xの分布をD(x)とすると、変換Tによるdata augmentationはD(x) = D(T(x))を仮 定していることとなる ▪ 上記近似の実際の画像分布からのズレをvisual chiralityと定義

    ▪ 実際には画像分布が未知であるため、ある画像が左右反転されているか否かを見分ける CNNを訓練し、その精度によってvisual chiralityを定量的に評価 Method 対称性からのズレを visual chiralityと定義
  207. 207 ▪ 画像の内容、および画像の内容と関連が低い低レベル特徴(ベイヤ配列のデモザイキン グやJPEG圧縮など)の双方がvisual chiralityに寄与 ▪ 低レベル特徴については以下の関係性を解明 ▪ デモザイキングとJPEG圧縮はそれぞれchiralであり、両者を組み合わせてもchiralとなる ▪

    ランダムクロップをデモザイキングまたはJPEG圧縮と個別に組みわせるとachiralとなる ▪ ランダムクロップ、デモザイキング、JPEG圧縮を全て組み合わせるとchiralとなる ▪ CNNが画像の内容に注目して左右反転を判別するように学習させるため、ImageNet分 類で事前学習した重みからスタートし、かつ画像に対してランダムクロップを適用 ▪ 同データセット内で学習、テストを実施した場合は80%と高精度な識別が可能 ▪ 学習データセットとは異なるデータセットでテストした場合も59%とチャンスレート以上 Results
  208. 208 ▪ CAM(Class Activation Map)による推論結果の可視化により、手やシャツの襟など 左右反転の手がかりとなる箇所に正しく注目できていることを確認 ▪ 一方、人間の顔など一見すると左右反転の手がかりとならないような箇所にも注目して いるが、実際に非対称性が存在すると推察可能(下の例では髪の分け目に注目している が、これは髪の分け目を左に持ってくる人が多いためと考えられる)

    Results
  209. 209 Uncertainty-aware Score Distribution Learning for Action Quality Assessment Link

    to paper
  210. Summary ▪ 動画からアクションの質を評価する研究 ▪ 既存研究のほとんどは、スコアラベルの曖昧さと複数の審査員が主観的に採点すること を無視している ▪ 提案手法では、不確実性を考慮した分布学習とマルチパス不確実性を考慮した評価者ご とのスコア分布の学習を行う 210

  211. Method ▪ N個のクリップに分割し、I3Dとmlpを用いて各クリップに対して特徴量を抽出 ▪ 各特徴量に対し、temporal poolingとsoftmaxを適用し、スコアの分布を予測 ▪ 学習時は、予測した分布とスコアデータから作成した分布をKLロスで近づける ▪ 推論時は、予測した分布から一番確率が高いスコアを選択し、予測値とする

    211
  212. Method ▪ 複数の評価者がいる場合、シングルパスのときと同様のネットワークを評価者の人数分 用いて、それぞれスコアの分布を予測するように学習 ▪ 最終的なスコアを出すときには、各ネットワークの出力をそれぞれの評価者のスコアと し、ゲームのルールに従って算出 212

  213. Results ▪ AQA-7 datasetでSync. 10m以外の項目でstate-of-the-artを達成 ▪ スコア分布には、カイ二乗分布・三角分布・ガウシアン分布等から、タスクに適したも のを選択する必要がある 213

  214. 214 How much time do you have? Modeling multi-duration saliency

    Link to paper
  215. 215 ▪ 画像の視聴時間ごとの顕著性ヒートマップ推定タスクの提案 ▪ 時間経過ごとの人間の関心の変遷を捉えることが可能 ▪ 1000枚のデータセットとLSTMを使ったモデルを開発 Summary

  216. 216 ▪ 経過時間ごとの視線データはウェブ上で収集 ▪ 見ていた位置に表示されたコードを入力する方式により特殊な装置不要で収集 Method

  217. 217 ▪ 画像を入力しエンコーダデコーダモデルでヒートマップを生成する基本構造 ▪ エンコーダとデコーダの間に、経過時間ごとの重み付けを行うモジュールを追加 ▪ 隣接時間同士でヒートマップの相関係数が真値に近くなるように損失関数を導入 Method

  218. 218 ▪ 関心の変遷を反映したクロッピングやキャプショニングに応用できることを確認 ▪ 提案モデルは既存モデルで時間ごとに学習するよりも高精度な推定を実現 Results

  219. 219 EmotiCon: Context-Aware Multimodal Emotion Recognition using Frege’s Principle Link

    to paper
  220. 220 ▪ 動画像からコンテキストを考慮した感情の推定 ▪ 従来手法では、顔や視線を入力とした感情推定が一般的 ▪ 本手法では背景から得られるコンテキストとdepth mapから得られる他者との相互作用 を用いて推定 Summary

  221. 221 ▪ 背景のコンテキスト(晴れ、帽子、草原、ワイングラス等)は、対象の人物が知覚する 感情に対して影響を与える ▪ semantic sceneの理解のため、対象の人物領域をマスキング Method

  222. 222 ▪ 心理学の分野で他人の存在の有無が対象人物の感情状態に影響を与えることが既知 ▪ 例:周りの人が知り合いの場合と知らない人の場合で行動が変化 ▪ これらの相互作用や近接をdepth mapとして考慮することで、感情推定の精度向上 Method

  223. 223 ▪ 各コンテキストから得られる特徴量から感情を推定 Method

  224. 224 ▪ 左中/左下のcontext2のアテンションマップから、子供持っている凧や棺桶が、それぞ れsadnessやpleasureの根拠となっていることが分かる ▪ 左上のcontext3のデプスマップから、周囲の人がテニスプレイヤーへの期待が分かる と論文中に書かれている Results

  225. 225 ▪ 指標にはaverage precisionを使っており、EMOTIC datasetの多くの感情で、既存手 法を上回る結果 ▪ 本研究で作成されたGroup Walk Datasetでも同様に、既存手法を凌駕

    Results
  226. 226 Can Deep Learning Recognize Subtle Human Activities? Link to

    paper
  227. 227 ▪ 人間の行動の僅かな差をラベル付けしたデータセットを作成 ▪ 既存の行動認識データでは背景などがバイアスとして存在 ▪ 本から目を逸らしているかといった違いは既存の画像分類手法では区別が困難 Summary

  228. 228 ▪ 「飲んでいるか」「読んでいるか」「座っているか」の3種類のデータを作成 ▪ 「飲んでいる」と「読んでいる」のような分類はせず、各2値分類のみに着目 ▪ 同じ場所でYesとNoの写真を撮影しラベル付 ▪ 人間が50msや800msの時間で分類ができるかを検証 ▪

    ImageNetで高精度なCNNモデルで分類できるかを検証 ▪ キーポイント検出等で行動に関係する特徴を抽出しSVMで分類できるか検証 Method
  229. 229 ▪ ImageNetで高精度なCNNモデルも人間と比べはるかに低い精度 ▪ キーポイントなど行動に関係する特徴をSVMで分類しランダムを上回る精度を達成 Results

  230. 230 04 Workshop/Tutorial紹介

  231. 231 主催者:Uber ATG 自動運転に必要な各要素技術について、ハードウェア・ソフトウェア双方の観点を含め、主 に Uber ATG の自社技術を中心に、最新の研究状況の紹介 内容: ▪

    Hardware ▪ Introduction to Autonomy Software ▪ Perception ▪ Prediction ▪ Motion Planning and Controls ▪ Vehicle-to-Vehicle Communication (V2V) ▪ Datasets and Metrics ▪ Simulation ▪ Building HD Maps ▪ Localization All about self-driving [LINK]
  232. 232 主催者:Uber ATG 自動運転に必要な各要素技術について、ハードウェア・ソフトウェア双方の観点を含め、主 に Uber ATG の自社技術を中心に、最新の研究状況の紹介 内容: ▪

    Hardware ▪ Introduction to Autonomy Software ▪ Perception ▪ Prediction ▪ Motion Planning and Controls ▪ Vehicle-to-Vehicle Communication (V2V) ▪ Datasets and Metrics ▪ Simulation ▪ Building HD Maps ▪ Localization All about self-driving [LINK] Hardware • 各センサの短所長所を述べつつ紹介 LiDAR 長所 • 正確なシーン構造 • 環境光にロバスト • 反射強度を特徴量 にできる 短所 • 高価格 • 低解像度 • 天候に敏感 カメラ 長所 • テクスチャ情報 • 低価格・高解像度 • 高フレームレート • 豊富なレンズ設定 短所 • デプスが得られない • 照明条件に敏感 • レンズ歪み レーダー 長所 • 距離・速度の取得 が可能 • 遠近両対応 • 天候にロバスト 短所 • 小物体からの反射が 弱い • LiDARより低解像度 • 多重波伝搬の問題 赤外線カメラ 長所 • 環境光にロバスト • パッシブIRでは温度 を特徴量にできる 短所 • アクティブIRは距離 とコントラストに制 限がある • パッシブIRは高価格
  233. 233 主催者:Uber ATG 自動運転に必要な各要素技術について、ハードウェア・ソフトウェア双方の観点を含め、主 に Uber ATG の自社技術を中心に、最新の研究状況の紹介 内容: ▪

    Hardware ▪ Introduction to Autonomy Software ▪ Perception ▪ Prediction ▪ Motion Planning and Controls ▪ Vehicle-to-Vehicle Communication (V2V) ▪ Datasets and Metrics ▪ Simulation ▪ Building HD Maps ▪ Localization All about self-driving [LINK] Introduction to Autonomy Software • Uberではタスク分割型とend-to-end型の長所を組み合わせた手法を開発中 • タスクに分けることで検証や事前知識の導入を容易化 • end-to-endでの学習を可能にすることで生産性を向上 • interpretabilityの重要性を強調
  234. 234 主催者:Uber ATG 自動運転に必要な各要素技術について、ハードウェア・ソフトウェア双方の観点を含め、主 に Uber ATG の自社技術を中心に、最新の研究状況の紹介 内容: ▪

    Hardware ▪ Introduction to Autonomy Software ▪ Perception ▪ Prediction ▪ Motion Planning and Controls ▪ Vehicle-to-Vehicle Communication (V2V) ▪ Datasets and Metrics ▪ Simulation ▪ Building HD Maps ▪ Localization All about self-driving [LINK] Perception • 3次元物体認識のためのセンサ、データ表現、アルゴリズム等を紹介 • LiDARベース手法 ◦ 2D認識と同様、2-stage、1-stage手法が存在 • カメラベース手法 ◦ 入力、特徴、出力のどこで3次元化するか ◦ 特徴空間でのlyftが精度と計算量のちょうど良いトレードオフ • センサフュージョン手法 ◦ カスケード、および入力、特徴、出力のどこでフュージョンするか ◦ 特徴空間でのフュージョンはキャリブレーション誤差にロバスト • HDマップの利用 ◦ ジオメトリはperceptionのためのリッチな事前知識を提供 ◦ ラスタはCNNとの親和性が高いがレンダリングで情報が失われる ◦ レーングラフは情報欠損がないがGNNなどモデル設計が複雑になる • 未知物体の認識 ◦ open-set物体認識は自動運転におけるperceptionのクリティカルな課題
  235. 235 主催者:Uber ATG 自動運転に必要な各要素技術について、ハードウェア・ソフトウェア双方の観点を含め、主 に Uber ATG の自社技術を中心に、最新の研究状況の紹介 内容: ▪

    Hardware ▪ Introduction to Autonomy Software ▪ Perception ▪ Prediction ▪ Motion Planning and Controls ▪ Vehicle-to-Vehicle Communication (V2V) ▪ Datasets and Metrics ▪ Simulation ▪ Building HD Maps ▪ Localization All about self-driving [LINK] Datasets and Metrics • 自動運転の技術開発ための様々なデータセットおよび評価指標を紹介 • UberでもATG4Dと呼ぶ大規模データセットを構築(近日公開?) • 特定タスクに特化したデータセットも紹介 ◦ HD Maps:Lyft L5、NuScenes、Argoverse ◦ Localization:Pit30M ◦ Lane Detection:TuSimple、CuLane、BDD-100k ◦ Traffic Sign:Mapillary Traffic Sign Dataset ◦ Traffic Light: LISA Traffic Light Dataset
  236. 236 主催者:FAIR Images、3D、Videoの3つの各研究分野について、基礎理論、最新研究状況の紹介と各 FAIR製ライブラリ(Detectron2、PyTorch3D、PySlowFast)の紹介 ▪ Object Detection as a Machine

    Learning Problem (Ross Girshick) ▪ Pixel-Level Recognition (Alexander Kirillov) ▪ Detectron2 (Yuxin Wu) ▪ Making 3D Predictions with 2D Supervision (Justin Johnson) ▪ PyTorch3D (Nikhila Ravi) ▪ Efficient Video Recognition (Christoph Feichtenhofer) ▪ PySlowFast (Haoqi Fan) Visual Recognition for Images, Video, and 3D [LINK]
  237. 237 主催者:東大の松井さん、メルカリの山口さん、NIIのZhenさん 検索手法の基本である NN/ANN から、その応用先としてメルカリでの大規模画像検索に関 する実例やperson re-identificationの研究動向を紹介 ▪ Billion-scale Approximate

    Nearest Neighbor Search 大規模検索を実現するための工夫を観点別に整理して解説 ▪ A Large-scale Visual Search System in the C2C Marketplace App Mercari 画像検索することの利点から実際のシステム構造までメルカリを例として解説 ▪ Beyond Intra-modality Discrepancy: A Survey of Heterogeneous Person Re-identification person re-identificationに関するサーベイ、手法の解説 ▪ Live-coding Demo to Implement an Image Search Engine from Scratch Image Retrieval in the Wild [LINK]
  238. 238 主催者:Facebook、Microsoft、ETH、カーネギーメロン大など企業、大学から多数 撮影画像からのカメラの位置姿勢推定というコア技術を共通的に用いるLocalization、 SLAM*1、VO*2についてのコンペや招待講演、論文発表で構成されるワークショップ • Localization Challenge [LINK] カメラ位置姿勢推定に関する コンペの結果発表および上位チーム講演

    タスクは以下の3つ 1. visual localization for autonomous vehicles(動画像からのカメラ位置姿勢推定) 2. visual localization for handheld devices(静止画からのカメラ位置姿勢推定) 3. local features for long-term localization(画像からの局所特徴量抽出) • Invited Talks Daniel CremersやAndrew Davisonを始めとする総勢20名の講演 • Contributed Papers 5件の論文発表 Joint Workshop on Long-Term Visual Localization, Visual Odometry and Geometric and Learning-based SLAM [LINK] *1: Simultaneous Localization And Mapping *2: Visual Odometry
  239. 239 主催者:University of Bologna、University College London、Nianticの研究者ら 単眼カメラ画像からのデプス推定に関する最近の進展について、教師信号の与え方の違いや 学習結果に対する解釈性など幅広く解説 • Stereo

    supervision / Monocular supervision 別視点画像の生成を利用した教師信号の与え方について解説 • Understanding single image depth estimation CNNが何を基にデプスを推定しているかを明らかにする取り組みを紹介 • Auxiliary supervision セマンティックセグメンテーションやSLAMの利用による改善について解説 • Learning single image depth estimation in the wild デプス推定向けの大規模データセットや一般的な映像からの学習について解説 • Mobile depth estimation モバイル機器向けのモデル軽量化手法などについて解説 Learning and Understanding Single Image Depth Estimation in the Wild [LINK]
  240. 240 主催者:University of Technology Sydneyなどの多数の大学やAI startupからの研究者ら 現実のAIタスクでは充分な完璧にアノテートされたデータの獲得は難しい。産業級のAIシス テムで応用するための完璧でないデータを学習するweakly supervised learning方法につい

    て議論する。三つのコンペや招待講演、論文発表で構成 ▪ 三つのコンペの上位チームの講演 ▪ Weakly-supervised Semantic Segmentation Challenge ▪ train: 画像レベルのラベル test: pixel-wise分類(semantic segmentation) ▪ Weakly-supervised Scene Parsing Challenge ▪ train: インスタンスごとに1pixelのラベル test: pixel-wise分類(scene parsing) ▪ Weakly-supervised Object Localization Challenge ▪ train: 画像レベルのラベル test: 対象をClass Activation Mapでハイライトする ▪ Invited Talk 7本 ▪ 論文発表 5本(best paper: Mining Cross-Image Semantics for Weakly Supervised Semantic Segmentation) The 2nd Learning from Imperfect Data (LID) Workshop [LINK]
  241. 241 主催者:Waymoやオックスフォード大学などの研究者ら 自動運転のスケーラビリティについての課題や最新の取り組みに関するコンペや招待講演、 論文発表で構成されるワークショップ ▪ Invited Talks ▪ Paul NewmanやAndrej

    Karpathyらによる5件の招待講演 ▪ 特にAndrej Karpathyの講演はScaledMLとほぼ同内容であるが、Teslaにおいていかにスケー ラビリティの実現が徹底されているかがよくわかるので必見 ▪ コンペ ▪ Waymo Open Dataset Challenge、NightOwls Challenge、INTERPRIT Challenge ▪ 論文発表 ▪ ドメインアダプテーションや新たなデータセットに関する論文など ▪ Cityscapesに3D bounding boxを追加したCityscapes 3Dが発表された Scalability in Autonomous Driving [LINK]
  242. 主催者:Scape Technologies, Czech Technical University, Google, Microsoftなどの 研究者ら ▪ 画像間のマッチングに関する技術を取り扱うワークショップで、局所特徴についての招

    待講演や、コンペティションの開催などが行われた ▪ DeNAの横尾が当ワークショップにて「Two-stage Discriminative Re-ranking for Large-scale Landmark Retrieval」という題目で発表してきたので、軽く内容を紹介 します 242 Image Matching: Local Features & Beyond [LINK]
  243. Two-stage Discriminative Re-ranking for Large-scale Landmark Retrieval Shuhei Yokoo (DeNA

    Co., Ltd.), Kohei Ozaki (Preferred Networks, Inc.), Edgar Simo-Serra (Waseda University), Satoshi Iizuka (University of Tsukuba) ▪ 高精度なランドマーク画像検索のためのパイプラインを提案 ▪ 画像間の特徴マッチングによるデータクレンジング ▪ ラベルデータを活用したリランキング ▪ Google Landmark Dataset v2 (GLD-v2) [Weyand+, CVPR2020] におけるstrong baselineを提供(Google Landmark Retrieval 2019 challenge 1st place) 243
  244. 244 主催者:University of Edinburgh, Brigham Young University (BYU), University of

    Massachusetts, Amherst (UMass), Google, Cornell Universityなどの研究者ら ▪ 一般的な画像認識と比較して、カテゴリ分けの粒度が細かくカテゴリ数が多い 「fine-grained visual categorization」タスクについて取り扱うワークショップ ▪ ワークショップ採択論文や、招待講演、パネルディスカッション、コンペティション結 果についてのディスカッションなどが行われた ▪ DeNAの矢野・大越・横尾が当ワークショップの「iMet Challenge」での優勝解法につ いてディスカッションしてきたので、解法について軽く紹介します FGVC7: 7TH WORKSHOP ON FINE GRAINED VISUAL CATEGORIZATION [LINK]
  245. 245 iMet Collection 2020 – FGVC7: 1st place solution Masaki

    Yano, Takumi Okoshi, Shuhei Yokoo (DeNA Co., Ltd)
  246. 246 主催者:MicrosoftやGoogle、カーネギーメロン大やコロンビア大の研究者ら 動きや音声といった動画像特有の情報を利用してラベルなしの映像からunsupervised/ selfsupervisedで学習する技術に関する招待講演や論文発表で構成されるワークショップ ▪ Invited Talks ▪ Alyosha EfrosやMing-Yu

    Liuらによる6件の招待講演 ▪ シーンの幾何構造の学習や映像生成、オブジェクトトラッキングなど幅広くカバー ▪ 論文発表 ▪ 表現学習、ロボットの行動学習、セグメンテーション、映像生成、トラッキングなど Learning from Unlabeled Videos [LINK]