Upgrade to Pro — share decks privately, control downloads, hide ads and more …

CVPR2020 Report

CVPR2020 Report

2020/06/14〜2020/06/19にオンラインで開催されたコンピュータビジョン分野の世界最大の国際会議CVPR2020に、DeNAとMoTの研究開発エンジニア10名(濱田晃一、林俊宏、洪嘉源、唐澤拓己、木村元紀、宮澤一之、夏目亮太、鈴木達哉、Sergey Tarasenko、横尾修平)が参加しました。

本資料では、オンライン参加の様子や採択論文の傾向とともに、注目度や有益性の高かったものを中心に42本の論文を解説します。また、本会議の前後で開催されたワークショップについてもいくつか取り上げます。

Motoki Kimura

July 16, 2020
Tweet

More Decks by Motoki Kimura

Other Decks in Research

Transcript

  1. 2020.07.16 濱田 晃一 林 俊宏 洪 嘉源 唐澤 拓己 木村 元紀 宮澤 一之 夏目 亮太 鈴木

    達哉 Sergey Tarasenko 横尾 修平 株式会社ディー・エヌ・エー + 株式会社 Mobility Technologies CVPR2020 参加レポート
  2. 4 ▪ 09:00-18:00, 22:00-06:00 PDTの2スロット開催 ▪ 動画とスライドが特設サイト上で常時公開 ▪ 指定の時間になるとZOOMで著者の方に質疑応答可能 ▪

    各発表ページ上のコメント欄でも質問可能 ▪ Networking RoungeというチャットとZOOMの交流の場が存在 オンライン参加の概要
  3. 5 ▪ 日本で現地時間参加するのはつらい ▪ 海外(特に欧米)の研究者と交流するためには、現地時間参加の方が良いが、時差があるため 体力的・家庭的に負担が大きい ▪ 国外の研究者と交流するのが難しい ▪ 質疑応答のZOOMやNetworking

    Roungeは提供されているが、交流という観点ではオフライ ンの方が向いていると感じた ▪ サイトが重い ▪ 特設サイトが重く開けない状態が度々発生した ▪ ZOOMのURLや発表動画を予め手元に用意しておくことで回避 ▪ 発表を探し歩く体験は良かった ▪ 動画が公開されているため、自分のタイミングで動画を閲覧でき、さらに気になった場合、 ZOOMに参加する流れは快適 ▪ PosterもOralと同じ5分の動画であれば、さらに良かった オンライン参加の様子・感想
  4. 12 ▪ 全体 ▪ 論文数の多いトピックについては昨年の傾向と大差なし(参考:CVPR2019参加レポート) ▪ semi/self/unsupervised、graph NN、uncertaintyなどがキーワードとして目立つ ▪ 物体認識

    ▪ imbalanced、long-tail、few-shotといったキーワードを含む論文がオーラルに目立つ ▪ EfficientDetのような有名SoTAモデルでもインクリメンタルなAP改善であるためかポスター ▪ セグメンテーション ▪ 1-stage手法などリアルタイム化を狙ったものが多い ▪ 3D ▪ 単眼カメラからのデプス推定は論文数、精度共に進展著しい ▪ デプス解像度の改善やuncertaintyなどに着目したものが多い ▪ トラッキング ▪ unsupervised手法がsupervised手法に匹敵しつつあり今後の主流となりそう 傾向
  5. 15 Unsupervised Learning of Probably Symmetric Deformable 3D Objects from

    Images in the Wild CVPR 2020 Best Paper Link to paper
  6. Results 20 [45] Sahasrabudhe et al. ICCV Workshops, 2019. [52]

    Szabo et al. arXiv, 2019 他手法とのreconstruction結果の比較
  7. 27 DeepCap: Monocular Human Performance Capture Using Weak Supervision CVPR

    2020 Best Student Paper Honorable Mention Link to paper
  8. 40 D3VO: Deep Depth, Deep Pose and Deep Uncertainty for

    Monocular Visual Odometry Link to paper
  9. 43 ▪ visual odometryにおける最適化で用いられるエネルギー項にCNNで推定したデプス、 カメラ姿勢、不確かさを導入 ▪ photometric energy ▪ フレーム間の差異であるphotometric

    energyの最小化では一般的に乱数でデプスが初期化さ れるが、これをCNNで推定したデプスによる初期化に変更 ▪ 加えて、推定した不確かさを利用した重み付けを実施 ▪ pose energy ▪ 新しいフレームが入力された際のトラッキングは一般的に定速条件に基づき初期化されるが、 ここにCNNで推定したカメラ姿勢を導入 Method
  10. Method Optical flow推定モデル PWC-Net [Sun et al. 2018] をバックボーンにモデル構築 通常、Optical

    flow cost volumeからoptical flowを推定するところを、depthとscene flow を別々に推定しそれらを投影することでoptical flowを出力するモデルに変更 47
  11. Method 損失関数は、depthに関する従来のdisparity loss [Godard et al. 2019]と、新規に提案す るscene flow lossを使用し学習

    Scene flow lossは大きく分けて2つ: 1. Photometric loss:推定depth、scene flowを用いて変換した点を、2Dに投影したと きの画像上での誤差 2. 3D point reconstruction loss:推定depth、scene flowにより算出される移動後の depthと、変換後の画像上での座標への推定depthの誤差 このときscene flowよりocclusion領域を推定し非occlusion領域のみ適用 48
  12. Results 従来の単眼による推定手法の中でScene flow accuracyのstate-of-the-artを達成 49 KITTIデータセットに対する実験結果 • D1-all:reference frameのdisparityの不正解割合 •

    D2-all:target imageをreference frameへmappingした際のdisparityの不正解割合 • F1-all:optical flowの不正解割合 • SF1-all:上記のいずれかが不正解の割合
  13. Method ▪ 既存手法の特徴抽出ネットワークPIFu(論文中ではCoarse PIFu)は、入力画像の解像 度が512x512であり特徴量が128x128であったのに対し、より詳細な復元をするため に入力画像の解像度が1024x1024で特徴量が512x512となるFine PIFuを追加 ▪ Fine PIFuは、Coarse

    PIFuでencodeされたグローバルな特徴Ωを受け取り、全体のコ ンテキストを考慮 ▪ 既存手法の背面の復元が滑らかになる問題を防ぐため、見えていない背面の情報を予め 画像上で予測し、PIFuの入力とすることで、背面をより詳細な復元を実現 65
  14. Summary ▪ 単眼画像からアニメーションに対応した、衣服を含む三次元復元を行うend-to-endな 手法 ARCH (Animatable Reconstruction of Clothed Humans)を提案

    ▪ Semantic SpaceとSemantic Deformation Fieldにより、衣服を着用した人物を正準空 間に変換することを実現 69
  15. 84 ▪ 二段階のアーキテクチャ: AEI(Adaptive Embedding Integration)-Net + HEAR(Heuristic Error Acknowledging

    Refinement)-Net ▪ AEI-Netの目的は高精度のswap画像を生成する ▪ identity encoderで置換え顔画像のid embeddingを抽出し, U-Net型のmulti-level attributes encoderで背景画像の属性を抽出, AADモジュールで上記二つの異なるレベルの特 徴を融合する Method
  16. Method 93 ▪ N個ソースドメインから、一つのドメインをテストとし、その他のドメインを学習用と してN個Meta-batchを構築する。各IDからgalleryとprobeを一枚ずつを抽出する ▪ 三種類のロスを計算する:①hard positiveとnegative対をオプティマイズする hard-pair attention

    loss、②batch内の分類のsoft classification loss、③ドメイン間 の距離を近くためのdomain alignment loss ▪ meta-trainでは①②③を計算し、meta-testでは①②を計算する。両者同時にオプ ティマイズする ▪ 最後に全ての勾配を合算する
  17. Method ▪ 全体構成としては画像からキーポイントにして画像を復元する形 ▪ 写っているのが同一人物であることが分かっている動画を利用 ▪ 画像から直接キーポイントを推定せず一度骨格画像を経由するのがアイディア ▪ 骨格画像がリアルかはdiscriminatorで判定 ▪

    骨格画像はin-the-wildな画像に対するものでなくmocapから得られるもので良い点が重要 ▪ 骨格画像に元画像の情報が人に分からない形でエンコードされることを防ぐため、骨格 画像からキーポイントに変換して戻す処理を挟む ▪ 骨格画像とキーポイントの変換を人が設計することで解釈可能な点が得られる 97
  18. ▪ labelmap to image の GANでの生成品質を向上 ▪ 各labelmap 領域での style

    埋め込みを向上し、PSNR、visual inception 指標を向上 ▪ 各labelmap 領域ごとに style 指定し生成でき、制御性が向上 101 Summary
  19. 109 ▪ Shape Net で、2D線画を表現ベクトルへ埋め込み ▪ Render Netで、線画表現埋め込み・光源指定埋め込みから、影生成 ▪ 敵対的

    loss、影の再構成 loss(最終出力、及び、途中2段階)で学習 ▪ 光源方向は26方向でアノテーション Method 影の再構成 loss
  20. ▪ 写真から Cartoon画像へDomain変換 ▪ 1) Surface Representation、2) Structure Representation、3) Texture

    、の3表現 の観点でのLossを用い、画像生成学習 ▪ 主観評価の指標向上 113 Summary
  21. ▪ 1枚画像からの view synthesis ▪ 3次元幾何のモデル化のために微分可能な point cloud renderer ▪

    欠損箇所の補完のためにGANを利用 ▪ self-supervised で end-to-end学習 118 Summary
  22. ▪ 入力画像から同解像度の画像特徴、depth mapを予測・3D射影し point cloudを構築 ▪ 微分可能な point cloud renderer

    により、point cloud を新しい view に変換し画像特 徴を生成し、refinement networkで欠損部分を補完し新しいviewの画像を生成 ▪ adversarial loss、L1 loss、perceptual loss で学習 ▪ テスト時には、未知のシーン画像と期待カメラ視点から、シーン画像の view を生成 119 Method
  23. ▪ neural point cloud renderer ▪ end-to-endで微分可能 ▪ 特徴量抽出networkとdepth map算出networkの学習のために、画像特徴量と3D座標のそれ

    ぞれで微分可能 ▪ 従来のrendererで課題だった局所的な近傍のみしか扱えない・hard z-bufferの扱いを解消 ▪ 3D点集合を近傍を重み重み付けし2D射影することにより 2D座標での誤差逆伝搬を可能 に ▪ 射影点集合をα合成し全ての点が最終値に寄与する形に ▪ Rendering高速化(Point cloud to image)forward:従来の27倍、backward:400倍 120 Method
  24. 132 ▪ 定量評価では主観品質を表す尺度としてMOS(Mean Opinion Score)とNIQE (Naturalness Image Quality Evaluator)を利用 ▪

    NIQEにおいては実際の高解像度画像を上回るスコアを達成 Results 8倍拡大(128x128)におけるMOS比較(値が大きいほど高品質) 64倍拡大(1024x1024)におけるNIQE比較(値が小さいほど高品質)
  25. 134 Bridging the Gap Between Anchor-based and Anchor-free Detection via

    Adaptive Training Sample Selection Link to paper
  26. Method 141 ▪ classを学習データのインスタンス数によってNグループに分割し(背景classは単独グ ループに)、各グループの中にothers classを追加する ▪ 各グループごとにsoftmax cross entropy

    lossを計算する ▪ 推論時、背景class以外のclassを元のclass IDに戻し、背景グループのothers classの probabilityと乗算でrescaleして、背景classのprobabilityと合わせて最後の結果とす る
  27. 156 ▪ PointRendを学習するときにも、ポイント選択が必要となる ▪ 推論時に似た細分化が必要となるが、sequentialなステップは誤差逆伝播法に向かない ため、ランダムサンプリングに基づく以下の戦略を使用 ▪ 1. ランダムに kN

    points(k > 1)一様分布からサンプリングする ▪ 2. coarse predictionの予測値を用いて、kN pointsの中から不確実性の高いβN個 (β ∈ [0、 1])の点をサンプリングする ▪ 3. (1 - β)N個を一様分布からサンプリングする Method
  28. 166 ▪ ResNet-50+Feature Pyramid Networkで特徴抽出 ▪ 特徴マップ上の列方向をエンコードすることで、birds-eye-view上での奥行き方向の 特徴(BEV features)を抽出 ▪

    カメラパラメータを用いてBEV featuresを空間上でリサンプルし、物体カテゴリごと の占有確率を各グリッドで予測 Method
  29. 168 Cars Can't Fly Up in the Sky: Improving Urban-Scene

    Segmentation via Height-Driven Attention Networks Link to paper
  30. 172 Foreground-Aware Relation Network for Geospatial Object Segmentation in High

    Spatial Resolution Remote Sensing Imagery Link to paper
  31. 173 ▪ 高分解能のリモートセンシング画像に対するsemantic segmentationにおける問題 ▪ foreground objectサイズのばらつきが大きい ▪ backgroundクラス内でのバリエーションが非常に大きい ▪

    foreground objectよりもbackgroundが圧倒的に多い不均衡データである ▪ これらに対処するためforeground-aware relation network(FarSeg)を提案 Summary
  32. 175 ▪ focal lossを用いることでforeground exampleとhard background exampleを優先的 に学習することで、クラス不均衡に対処 ▪ 学習初期は通常のcross

    entropy lossで学習し、学習が進むにつれてfocal lossに近づ けていくことで、学習初期を安定化しつつ最終的な精度も向上 Method
  33. Method ▪ 距離学習は、典型的にミニバッチ内でのみhard negativeを考慮する ▪ そのため、バッチサイズを大きくすればするほど一度に考慮可能なサンプルが増加し、 より効果的なhard negativeをサンプリングすることができる ▪ 本研究で提案するXBM(Cross-Batch

    Memory)は、過去のサンプルの埋め込みを一 定期間保持することで、バッチサイズを大きくすることなく一度に考慮可能なサンプル 数を増加可能 ▪ 学習の経過による埋め込みの変化が小さいことを理論的・実験的に示し、過去のサンプルの埋 め込みと現在のモデルが抽出したサンプルの埋め込み間で距離計算を行っても問題ないことを 示した ▪ コード数行で既存の損失関数に組み込むことが可能 189
  34. Summary ▪ 画像検索・インスタンス認識のためのデータセットである「Google Landmarks Dataset v2」を提案 ▪ 画像検索・インスタンス認識の分野の発展にともなって、よりチャレンジングな データセットが必要というモチベーション ▪

    世界中のランドマーク画像をWikimedia Commonsを利用して収集 ▪ 400万件以上のサンプル数と20万件以上のラベルを有する ▪ 非常にラベル不均衡なデータセットとなっている 197
  35. Method ▪ データセットの構築: ▪ Wikimedia Commonsから画像を収集 ▪ Google Knowledge Graphを用いてランドマークに関連するクエリを投げ、

    関連するWikipediaの記事からラベル付け ▪ テストデータにはクラウドソーシングで集めたデータも追加 ▪ テストデータの再アノテーション: ▪ データセットには多くのラベルノイズが含まれており、より高品質な評価ベンチマークを提供 するために半自動なテストデータの再アノテーションツールを開発 ▪ 20万件ものラベルのアノテーションは人手では難しいため、「アノテーション対象の画像と 候補画像が同一のランドマークか?」という易しめのタスクを解かせる ▪ 候補画像の提示には、GLD-v2における複数のコンペ上位者のモデルの予測を利用 198
  36. 205 ▪ 左右反転(鏡像)に対する画像分布の 対称性としてvisual chiralityという新 たな概念を提唱 ▪ 左右反転画像と原画像とを見分ける CNNを訓練したところ、人間には困難 でもCNNは高精度に判別可能なことが

    判明 ▪ data augmentation等では画像分布が 左右反転に対して対象であることを仮 定しがちだが、実際にはそうでないこ とを念頭に置くべき Summary 入力画像(左から左右反転あり、なし、あり) 上記画像に対するCNNの着目領域ヒートマップ
  37. 206 ▪ 画像xの分布をD(x)とすると、変換Tによるdata augmentationはD(x) = D(T(x))を仮 定していることとなる ▪ 上記近似の実際の画像分布からのズレをvisual chiralityと定義

    ▪ 実際には画像分布が未知であるため、ある画像が左右反転されているか否かを見分ける CNNを訓練し、その精度によってvisual chiralityを定量的に評価 Method 対称性からのズレを visual chiralityと定義
  38. 207 ▪ 画像の内容、および画像の内容と関連が低い低レベル特徴(ベイヤ配列のデモザイキン グやJPEG圧縮など)の双方がvisual chiralityに寄与 ▪ 低レベル特徴については以下の関係性を解明 ▪ デモザイキングとJPEG圧縮はそれぞれchiralであり、両者を組み合わせてもchiralとなる ▪

    ランダムクロップをデモザイキングまたはJPEG圧縮と個別に組みわせるとachiralとなる ▪ ランダムクロップ、デモザイキング、JPEG圧縮を全て組み合わせるとchiralとなる ▪ CNNが画像の内容に注目して左右反転を判別するように学習させるため、ImageNet分 類で事前学習した重みからスタートし、かつ画像に対してランダムクロップを適用 ▪ 同データセット内で学習、テストを実施した場合は80%と高精度な識別が可能 ▪ 学習データセットとは異なるデータセットでテストした場合も59%とチャンスレート以上 Results
  39. 231 主催者:Uber ATG 自動運転に必要な各要素技術について、ハードウェア・ソフトウェア双方の観点を含め、主 に Uber ATG の自社技術を中心に、最新の研究状況の紹介 内容: ▪

    Hardware ▪ Introduction to Autonomy Software ▪ Perception ▪ Prediction ▪ Motion Planning and Controls ▪ Vehicle-to-Vehicle Communication (V2V) ▪ Datasets and Metrics ▪ Simulation ▪ Building HD Maps ▪ Localization All about self-driving [LINK]
  40. 232 主催者:Uber ATG 自動運転に必要な各要素技術について、ハードウェア・ソフトウェア双方の観点を含め、主 に Uber ATG の自社技術を中心に、最新の研究状況の紹介 内容: ▪

    Hardware ▪ Introduction to Autonomy Software ▪ Perception ▪ Prediction ▪ Motion Planning and Controls ▪ Vehicle-to-Vehicle Communication (V2V) ▪ Datasets and Metrics ▪ Simulation ▪ Building HD Maps ▪ Localization All about self-driving [LINK] Hardware • 各センサの短所長所を述べつつ紹介 LiDAR 長所 • 正確なシーン構造 • 環境光にロバスト • 反射強度を特徴量 にできる 短所 • 高価格 • 低解像度 • 天候に敏感 カメラ 長所 • テクスチャ情報 • 低価格・高解像度 • 高フレームレート • 豊富なレンズ設定 短所 • デプスが得られない • 照明条件に敏感 • レンズ歪み レーダー 長所 • 距離・速度の取得 が可能 • 遠近両対応 • 天候にロバスト 短所 • 小物体からの反射が 弱い • LiDARより低解像度 • 多重波伝搬の問題 赤外線カメラ 長所 • 環境光にロバスト • パッシブIRでは温度 を特徴量にできる 短所 • アクティブIRは距離 とコントラストに制 限がある • パッシブIRは高価格
  41. 233 主催者:Uber ATG 自動運転に必要な各要素技術について、ハードウェア・ソフトウェア双方の観点を含め、主 に Uber ATG の自社技術を中心に、最新の研究状況の紹介 内容: ▪

    Hardware ▪ Introduction to Autonomy Software ▪ Perception ▪ Prediction ▪ Motion Planning and Controls ▪ Vehicle-to-Vehicle Communication (V2V) ▪ Datasets and Metrics ▪ Simulation ▪ Building HD Maps ▪ Localization All about self-driving [LINK] Introduction to Autonomy Software • Uberではタスク分割型とend-to-end型の長所を組み合わせた手法を開発中 • タスクに分けることで検証や事前知識の導入を容易化 • end-to-endでの学習を可能にすることで生産性を向上 • interpretabilityの重要性を強調
  42. 234 主催者:Uber ATG 自動運転に必要な各要素技術について、ハードウェア・ソフトウェア双方の観点を含め、主 に Uber ATG の自社技術を中心に、最新の研究状況の紹介 内容: ▪

    Hardware ▪ Introduction to Autonomy Software ▪ Perception ▪ Prediction ▪ Motion Planning and Controls ▪ Vehicle-to-Vehicle Communication (V2V) ▪ Datasets and Metrics ▪ Simulation ▪ Building HD Maps ▪ Localization All about self-driving [LINK] Perception • 3次元物体認識のためのセンサ、データ表現、アルゴリズム等を紹介 • LiDARベース手法 ◦ 2D認識と同様、2-stage、1-stage手法が存在 • カメラベース手法 ◦ 入力、特徴、出力のどこで3次元化するか ◦ 特徴空間でのlyftが精度と計算量のちょうど良いトレードオフ • センサフュージョン手法 ◦ カスケード、および入力、特徴、出力のどこでフュージョンするか ◦ 特徴空間でのフュージョンはキャリブレーション誤差にロバスト • HDマップの利用 ◦ ジオメトリはperceptionのためのリッチな事前知識を提供 ◦ ラスタはCNNとの親和性が高いがレンダリングで情報が失われる ◦ レーングラフは情報欠損がないがGNNなどモデル設計が複雑になる • 未知物体の認識 ◦ open-set物体認識は自動運転におけるperceptionのクリティカルな課題
  43. 235 主催者:Uber ATG 自動運転に必要な各要素技術について、ハードウェア・ソフトウェア双方の観点を含め、主 に Uber ATG の自社技術を中心に、最新の研究状況の紹介 内容: ▪

    Hardware ▪ Introduction to Autonomy Software ▪ Perception ▪ Prediction ▪ Motion Planning and Controls ▪ Vehicle-to-Vehicle Communication (V2V) ▪ Datasets and Metrics ▪ Simulation ▪ Building HD Maps ▪ Localization All about self-driving [LINK] Datasets and Metrics • 自動運転の技術開発ための様々なデータセットおよび評価指標を紹介 • UberでもATG4Dと呼ぶ大規模データセットを構築(近日公開?) • 特定タスクに特化したデータセットも紹介 ◦ HD Maps:Lyft L5、NuScenes、Argoverse ◦ Localization:Pit30M ◦ Lane Detection:TuSimple、CuLane、BDD-100k ◦ Traffic Sign:Mapillary Traffic Sign Dataset ◦ Traffic Light: LISA Traffic Light Dataset
  44. 236 主催者:FAIR Images、3D、Videoの3つの各研究分野について、基礎理論、最新研究状況の紹介と各 FAIR製ライブラリ(Detectron2、PyTorch3D、PySlowFast)の紹介 ▪ Object Detection as a Machine

    Learning Problem (Ross Girshick) ▪ Pixel-Level Recognition (Alexander Kirillov) ▪ Detectron2 (Yuxin Wu) ▪ Making 3D Predictions with 2D Supervision (Justin Johnson) ▪ PyTorch3D (Nikhila Ravi) ▪ Efficient Video Recognition (Christoph Feichtenhofer) ▪ PySlowFast (Haoqi Fan) Visual Recognition for Images, Video, and 3D [LINK]
  45. 237 主催者:東大の松井さん、メルカリの山口さん、NIIのZhenさん 検索手法の基本である NN/ANN から、その応用先としてメルカリでの大規模画像検索に関 する実例やperson re-identificationの研究動向を紹介 ▪ Billion-scale Approximate

    Nearest Neighbor Search 大規模検索を実現するための工夫を観点別に整理して解説 ▪ A Large-scale Visual Search System in the C2C Marketplace App Mercari 画像検索することの利点から実際のシステム構造までメルカリを例として解説 ▪ Beyond Intra-modality Discrepancy: A Survey of Heterogeneous Person Re-identification person re-identificationに関するサーベイ、手法の解説 ▪ Live-coding Demo to Implement an Image Search Engine from Scratch Image Retrieval in the Wild [LINK]
  46. 238 主催者:Facebook、Microsoft、ETH、カーネギーメロン大など企業、大学から多数 撮影画像からのカメラの位置姿勢推定というコア技術を共通的に用いるLocalization、 SLAM*1、VO*2についてのコンペや招待講演、論文発表で構成されるワークショップ • Localization Challenge [LINK] カメラ位置姿勢推定に関する コンペの結果発表および上位チーム講演

    タスクは以下の3つ 1. visual localization for autonomous vehicles(動画像からのカメラ位置姿勢推定) 2. visual localization for handheld devices(静止画からのカメラ位置姿勢推定) 3. local features for long-term localization(画像からの局所特徴量抽出) • Invited Talks Daniel CremersやAndrew Davisonを始めとする総勢20名の講演 • Contributed Papers 5件の論文発表 Joint Workshop on Long-Term Visual Localization, Visual Odometry and Geometric and Learning-based SLAM [LINK] *1: Simultaneous Localization And Mapping *2: Visual Odometry
  47. 239 主催者:University of Bologna、University College London、Nianticの研究者ら 単眼カメラ画像からのデプス推定に関する最近の進展について、教師信号の与え方の違いや 学習結果に対する解釈性など幅広く解説 • Stereo

    supervision / Monocular supervision 別視点画像の生成を利用した教師信号の与え方について解説 • Understanding single image depth estimation CNNが何を基にデプスを推定しているかを明らかにする取り組みを紹介 • Auxiliary supervision セマンティックセグメンテーションやSLAMの利用による改善について解説 • Learning single image depth estimation in the wild デプス推定向けの大規模データセットや一般的な映像からの学習について解説 • Mobile depth estimation モバイル機器向けのモデル軽量化手法などについて解説 Learning and Understanding Single Image Depth Estimation in the Wild [LINK]
  48. 240 主催者:University of Technology Sydneyなどの多数の大学やAI startupからの研究者ら 現実のAIタスクでは充分な完璧にアノテートされたデータの獲得は難しい。産業級のAIシス テムで応用するための完璧でないデータを学習するweakly supervised learning方法につい

    て議論する。三つのコンペや招待講演、論文発表で構成 ▪ 三つのコンペの上位チームの講演 ▪ Weakly-supervised Semantic Segmentation Challenge ▪ train: 画像レベルのラベル test: pixel-wise分類(semantic segmentation) ▪ Weakly-supervised Scene Parsing Challenge ▪ train: インスタンスごとに1pixelのラベル test: pixel-wise分類(scene parsing) ▪ Weakly-supervised Object Localization Challenge ▪ train: 画像レベルのラベル test: 対象をClass Activation Mapでハイライトする ▪ Invited Talk 7本 ▪ 論文発表 5本(best paper: Mining Cross-Image Semantics for Weakly Supervised Semantic Segmentation) The 2nd Learning from Imperfect Data (LID) Workshop [LINK]
  49. 241 主催者:Waymoやオックスフォード大学などの研究者ら 自動運転のスケーラビリティについての課題や最新の取り組みに関するコンペや招待講演、 論文発表で構成されるワークショップ ▪ Invited Talks ▪ Paul NewmanやAndrej

    Karpathyらによる5件の招待講演 ▪ 特にAndrej Karpathyの講演はScaledMLとほぼ同内容であるが、Teslaにおいていかにスケー ラビリティの実現が徹底されているかがよくわかるので必見 ▪ コンペ ▪ Waymo Open Dataset Challenge、NightOwls Challenge、INTERPRIT Challenge ▪ 論文発表 ▪ ドメインアダプテーションや新たなデータセットに関する論文など ▪ Cityscapesに3D bounding boxを追加したCityscapes 3Dが発表された Scalability in Autonomous Driving [LINK]
  50. 主催者:Scape Technologies, Czech Technical University, Google, Microsoftなどの 研究者ら ▪ 画像間のマッチングに関する技術を取り扱うワークショップで、局所特徴についての招

    待講演や、コンペティションの開催などが行われた ▪ DeNAの横尾が当ワークショップにて「Two-stage Discriminative Re-ranking for Large-scale Landmark Retrieval」という題目で発表してきたので、軽く内容を紹介 します 242 Image Matching: Local Features & Beyond [LINK]
  51. Two-stage Discriminative Re-ranking for Large-scale Landmark Retrieval Shuhei Yokoo (DeNA

    Co., Ltd.), Kohei Ozaki (Preferred Networks, Inc.), Edgar Simo-Serra (Waseda University), Satoshi Iizuka (University of Tsukuba) ▪ 高精度なランドマーク画像検索のためのパイプラインを提案 ▪ 画像間の特徴マッチングによるデータクレンジング ▪ ラベルデータを活用したリランキング ▪ Google Landmark Dataset v2 (GLD-v2) [Weyand+, CVPR2020] におけるstrong baselineを提供(Google Landmark Retrieval 2019 challenge 1st place) 243
  52. 244 主催者:University of Edinburgh, Brigham Young University (BYU), University of

    Massachusetts, Amherst (UMass), Google, Cornell Universityなどの研究者ら ▪ 一般的な画像認識と比較して、カテゴリ分けの粒度が細かくカテゴリ数が多い 「fine-grained visual categorization」タスクについて取り扱うワークショップ ▪ ワークショップ採択論文や、招待講演、パネルディスカッション、コンペティション結 果についてのディスカッションなどが行われた ▪ DeNAの矢野・大越・横尾が当ワークショップの「iMet Challenge」での優勝解法につ いてディスカッションしてきたので、解法について軽く紹介します FGVC7: 7TH WORKSHOP ON FINE GRAINED VISUAL CATEGORIZATION [LINK]
  53. 245 iMet Collection 2020 – FGVC7: 1st place solution Masaki

    Yano, Takumi Okoshi, Shuhei Yokoo (DeNA Co., Ltd)
  54. 246 主催者:MicrosoftやGoogle、カーネギーメロン大やコロンビア大の研究者ら 動きや音声といった動画像特有の情報を利用してラベルなしの映像からunsupervised/ selfsupervisedで学習する技術に関する招待講演や論文発表で構成されるワークショップ ▪ Invited Talks ▪ Alyosha EfrosやMing-Yu

    Liuらによる6件の招待講演 ▪ シーンの幾何構造の学習や映像生成、オブジェクトトラッキングなど幅広くカバー ▪ 論文発表 ▪ 表現学習、ロボットの行動学習、セグメンテーション、映像生成、トラッキングなど Learning from Unlabeled Videos [LINK]