Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ECCV2020 papers

GO Inc. AI Tech
October 02, 2020

ECCV2020 papers

2020年8月23日から28日にかけてオンラインで開催された、コンピュータビジョン分野で世界最大規模の国際会議であるECCV2020に、DeNAとMoTの研究開発エンジニア5名(加藤直樹、北村博俊、佐々木辰也、中村遵介、林俊宏)が参加しました。
本資料では、再録論文1,360本の中から特に注目度や有益性が高いとメンバーが判断した論文24本を解説しています。

GO Inc. AI Tech

October 02, 2020
Tweet

More Decks by GO Inc. AI Tech

Other Decks in Research

Transcript

  1. 2020.10.02 加藤 直樹 北村 博俊 佐々木 辰也 中村 遵介 林

    俊宏 株式会社ディー・エヌ・エー + 株式会社 Mobility Technologies ECCV2020 論文紹介
  2. 3 Topics 01|3D Geometry 02|Object Detection 03|Segmentation 04|Human Recognition 05|Video

    & Action Understanding 06|Low-level Vision 07|Unsupervised/Self-supervised Learning 08|Others
  3. Method ▪ 空間上のある点がある視線方向に放つ色および密度(物体の存在)をMLPで推定 ▪ 色は座標と視線方向に依存し、密度は座標のみに依存するようそれぞれの入出力層を調整 ▪ カメラ光線がもたらす色をvolume renderingにより計算 ▪ 光線上の色と密度の組を用いた積分処理により画素色が得られる

    (物体の存在により後の光線が遮られることを考慮した定式化) ▪ 実際には光線を一様に離散化した点群を用いた総和演算で上記計算を近似 ▪ レンダリングされた画素色と実際の色に対する二乗誤差でモデルを学習 7 ネットワーク構造 neural radiance fieldによるシーン表現
  4. Method ▪ positional encoding: ▪ NNは高周波な関数を近似し難いため、入力に対して直接モデルを適用すると 座標と向きの変化に対する色と密度の高周波な変化を表現できない ▪ そこで、入力座標と視線方向を下式により高次元ベクトルにエンコードしてモデルに入力 ▪

    hierarchical sampling: ▪ 物体の存在しない空間や遮蔽された領域はレンダリング結果に影響しないため、 光線上に沿った一様な点群を用いてレンダリングするのは非効率 ▪ そこで、一様な点群から大まかな推定をするcoarse networkと、 それにより計算されたレンダリング結果に対する影響度の高い点を重点的にサンプリングする fine networkを併用して最終的なレンダリングを実施 8
  5. Method ▪ boundary branchで物体境界を1, 物体内部を0としたbinary boundary mapを予測 ▪ direction branchでは物体中心の向きを上下左右+斜めのどこにあるかを8クラス分類

    として解くことで求める ▪ 上記2つの予測結果の要素積により、物体境界が属する物体が求まる ▪ 推論時は、セグメンテーションモデルの予測を上記を用いて置き換える 32
  6. Summary ▪ 行動認識に対する3D CNN適用の問題点を指摘 ▪ 時系列的に局所的な受容野でしか有効性が確認されていない ▪ 時間方向へのglobal average poolingにより映像の順序に関する情報が失われる

    ▪ 上記問題を解決するためchannel independent directional convolution (CIDC)を提案 ▪ CIDCユニットの既存モデルへの導入による性能向上を4つのデータセットで確認 49 既存手法とは異なり背景領域にアクティベーションが出ない
  7. Method channel dependent directional convolution (CIDC) ユニットを提案 ▪ カーネルサイズ1のgrouped convolutionによりチャネル毎に特徴マップを分割

    ▪ 分割された特徴マップの時間方向をチャネルとみなして畳み込みを適用 ▪ このとき、各フィルタは特定の時刻より前の特徴マップのみを入力とするため フレームの順序関係を考慮した特徴抽出が可能 50
  8. ▪ Total Correlation Gain Maximization ▪ 異なるmodalityでそれぞれclassifierを用意し、Cross Entropyで教師あり学習 ▪ 半教師で、異なるmodalityで同じdata

    pointの時、出力が一致する場合は報酬を与え、 一方、異なるmodalityで異なるdata pointの時、出力が一致する場合はペナルティを与える Method 64
  9. 71

  10. ▪ Shanghai TechまたはUCF crimeのどちらかでpre-trained, fine-tuned結果と比較す る形でUCSD Ped, CUHK Avenue, UR

    Fallで提案手法を評価(表はUCF Crimeのもの) ▪ Pre-trained, Fine-tunedと比べた時、 提案手法が5~30pt良い Results 75
  11. Method ▪ 高画質な入力画像をハール変換を用いて、ローパスされた画像・水平/垂直/斜め方向 の詳細係数(テクスチャ)を算出 ▪ 非線形な可逆変換を用いて低画質画像と高周波成分の情報を保存したzを出力 ▪ zと低画質画像から逆変換を用いて高画質画像を復元(学習時はランダムなzを使用) ▪ 3(+1)つの距離を用いて学習

    ▪ 生成した低画質画像とバイキュービック縮小で生成した低画質画像の距離 ▪ 低画質画像から逆変換で戻した高画質画像と入力画像の距離(2種類) ▪ 入力画像の分布と、入力の縮小画像の分布&zの同時分布を逆変換で戻した際の分布間距離 86
  12. ▪ 画像Iを劣化させた画像I’を元に、生成器がI’に近い画像を出力できるようなzを探索 ▪ 同時に、よりI’に近づけるよう生成器のパラメータ自体も更新 ▪ 生成器のパラメータを固定すると、I’の再現に限界 ▪ 生成器のパラメータ更新は、入力に近い層から徐々に更新する層を拡大 ▪ 生成器のパラメータを更新する過程でpriorが欠落する現象の防止

    ▪ 先にテクスチャを近づけようとして高次の情報が欠落すると推測 ▪ 探索するzの初期値z0 は100個の乱数値から最もI’に近しくなる値を選択 ▪ 識別器での特徴空間のL1 lossを損失として利用 ▪ MSEやperceptual lossだと画素レベルの低次元特徴を近づけようとして画像が壊れがち Method 91
  13. Method 92 使用する損失関数での再現の比較 入力 初期値に よる再現 更新結果 初期値に よる再現 更新結果

    入力 テクスチャは 似るが 林檎の色合い ではない ほぼ良いが 一部色が 合っていない 部分がある テクスチャも 林檎らしさも 守られている
  14. Method ▪ 入力の低画質画像 / 参照画像の低画質画像 / 参照画像をそれぞれエンコーダで各画素 ごとに特徴抽出 ▪ 入力の低画質画像特徴と参照画像の低画質画像特徴を、3x3のパッチレベルで

    内積を取り類似度を比較 ▪ 最も近いパッチについて、高画質の参照画像から対応する部分の特徴を選択していき、 出力する高画質画像用の特徴を作成 103
  15. Method ▪ PWC-Netをベースに実験 ▪ photometric loss、occlusionの扱い、smoothnessの正則化といったキー要素に対し て、どの手法が最適か実験 ▪ 各種の改良 ▪

    cost volumeの正規化 ▪ occlusion mask部分での勾配伝播の停止 ▪ upsample前のsmoothnessを適用 ▪ cropとresizeを使った自己教師あり学習 ▪ etc. 109
  16. Method 114 ▪ 特徴量レベルで未来のframeを予測し、contrastive lossを使って self-supervisedな学習を行う ▪ Compressive memory moduleを使うことで複数の未来を予測

    ▪ predictive addressingメカニズムで外部メモリバンクにアクセス ▪ 外部メモリバンクは、学習中にデータセット全体で共有され、各メモリエントリが潜在的な仮 説として機能メモリエントリ上の確率分布を推測
  17. Summary ▪ 画像の教師なし分類(クラスタリング)における既存手法の問題点を指摘 ▪ 表現学習 + K-means:クラスタの割り当てが不均衡になる ▪ end-to-endなアプローチ:ネットワークの初期値が学習の要となるため 低レベルな特徴への依存度が高い

    ▪ 表現学習とクラスタリングの学習からなるアプローチを提案し上記問題に対処 ▪ CIFAR10、CIFAR100-20、STL10で最高精度を達成するとともに、 ImageNetではいくつかの半教師あり学習手法を上回る性能を達成 117
  18. Method Semantic Clustering by Adopting Nearest neighbors (SCAN) を提案 ▪

    表現学習: ▪ instance discrimination(SimCLRまたはMoCOを採用)によりモデルを学習 ▪ データ拡張前後の画像の特徴表現を明示的に近づけるようロスを付加 ▪ クラスタリングの学習: ▪ 表現学習で得られた重みを初期値とし、出力ベクトルの次元数を クラスタ数とみなしてモデルを学習 ▪ SCAN-loss:ある画像とそのk近傍画像の出力ベクトルの距離を近づけるとともに、 出力ベクトルのエントロピーを最大化するようロスを付加 → 類似画像のクラスタ割り当てに一貫性をもたせつつ、 データ全体のクラスタ割り当ての均衡をとる ▪ self-labeling:確信度の高いサンプルに擬似ラベルを付与してcross entropyロスを適用 ▪ 評価時はハンガリアン法でクラスタとデータセットのクラスの対応付けを行う 118
  19. Method ▪ ResNet152x4をILSVRC2012, ImageNet-21k, JFT-300Mでそれぞれ学習 ▪ それにより得られるモデルをそれぞれBiT-S, BiT-M, BiT-Lと呼ぶ ▪

    BiT-Lの学習では512台のTPUv3を利用 ▪ BNの代わりにGN+WSを利用 ▪ その後、各種データセットでfine-tune ▪ データセットサイズと画像解像度に基づいてスケジュール、解像度、MixUpの利用有無を決定 ▪ 他のハイパラは固定 ▪ weight decayは利用しない 129