Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Dataset for Semantic Urban Scene Understanding

Dataset for Semantic Urban Scene Understanding

第35回コンピュータビジョン勉強会@関東「CVPR2016読み会(後編)」発表資料。
CVPR2016で発表された、都市交通環境のSemantic Segmentationに関する5本の論文・データセットをまとめています。
https://www.slideshare.net/YosukeShinya/dataset-for-semantic-urban-scene-understanding より移行。

Yosuke Shinya

July 24, 2016
Tweet

More Decks by Yosuke Shinya

Other Decks in Technology

Transcript

  1. 自己紹介 2007~2014 東京大学 話者認識 形状の数式表現、Mixed Reality 2014~2015 三菱電機 車内センシング(ドライバモニタ) 2015~

    デンソー(東京支社) 車外センシング(ADAS、自動運転) 技術動向調査(cvpaper.challenge参加) http://toyota.jp/technology/safety/toyota_safety_sense_p/ より引用 三菱電機公式サイトより引用 ※本発表は個人として行うものであり 所属組織を代表するものではありません
  2. 0. 導入 (3)CNNによるSemantic Segmentation FCN[J.Long+, CVPR2015] ← Classification 何が映っているか 矩形ごとに出力

    ← Semantic Segmentation 何が映っているか ピクセルごとに出力 ①基本原理 ②学習方法 ③データの集め方 どのピクセルが猫かをアノテーション(正解ラベル付け)すれば良い 一体どうやって? 人がやったら時間がかかるぞ…… データ数 GPU レベルを上げて物理で殴ればいい
  3. 0. 導入 (4)アノテーションの呪い (The Curse of Dataset Annotation) [J.Xie+, CVPR2016]を元に作成

    ← 短時間でアノテーションできるタスクの データは大量にある ← アノテーションに時間がかかるため 十分なデータが無い どうにかして大量のデータが欲しい
  4. 0. 導入 (5)今回紹介する論文・データセット 1. Cityscapes Dataset [M.Cordts+, CVPR2016] 2. 3D

    to 2D Label Transfer [J.Xie+, CVPR2016] 3. SYNTHIA Dataset [G.Ros+, CVPR2016] 4. Virtual KITTI Dataset [A.Gaidon+, CVPR2016] 5. Scene Flow Datasets [N.Mayer+, CVPR2016] FCN, SegNetの詳細等は紹介しないため、以下をご参照下さい https://computing.ece.vt.edu/~f15ece6504/ (W7: Oct 6) http://www.slideshare.net/Takayosi/ieee-itss-nagoya-chapter (p.40あたり) http://www.slideshare.net/cvpaperchallenge 人手で頑張ろう 3Dスキャン データを使おう CGを使おう
  5. 1. Cityscapes 論文: http://www.cv- foundation.org/openaccess/content_cvpr_2016/papers/Cordts_The_Cityscapes_Dataset_C VPR_2016_paper.pdf プロジェクトページ: https://www.cityscapes-dataset.com/ スライド: https://www.mpi-inf.mpg.de/fileadmin/inf/d2/HLCV/HLCV_2016/cv-ss16-0707-

    deep-learning3.pdf The Cityscapes Dataset for Semantic Urban Scene Understanding Marius Cordts, Mohamed Omran, Sebastian Ramos, Timo Rehfeld, Markus Enzweiler, Rodrigo Benenson, Uwe Franke, Stefan Roth, Bernt Schiele
  6. 1. Cityscapes (1)データの特徴 Fine annotations ・5000枚 ・Instance-wise annotation (人は1人ずつ、車は1台ずつ) ・品質を保証するため内製

    ・1枚あたり1時間半かけて アノテーション+チェック Coarse annotations ・20000枚 ・弱教師あり学習用 (使わなくても良い) ・外注 ・1枚あたり7分以下で アノテーション
  7. 2. 3D to 2D Label Transfer Semantic Instance Annotation of

    Street Scenes by 3D to 2D Label Transfer Jun Xie, Martin Kiefel, Ming-Ting Sun, Andreas Geiger 論文: http://www.cv- foundation.org/openaccess/content_cvpr_2016/papers/Xie_Semantic_Instance_Annotation_CVPR _2016_paper.pdf プロジェクトページ: http://www.cvlibs.net/projects/label_transfer/ (2016/7/23時点では未公開)
  8. 2. 3D to 2D Label Transfer (1)データの特徴 ①LIDARで3Dデータを取得 ②3Dの状態でアノテーション ③3Dから2Dに転写

    ・40万枚の画像 ・10万のレーザースキャンデータ ・semantic 3D annotations ・郊外の静止物にフォーカス ・先行研究と相補的 - Cityscapes:都市 - [L.-C.Chen+, CVPR2014]: 車両へのCADモデルあてはめ データセット作成方法 データセット内容 収集対象
  9. 2. 3D to 2D Label Transfer (2)手法 ピクセルと3D点群のラベルを同時に推定するCRFモデルを使用 Pixel Unary

    Potentials 3D Point Unary Potentials Geometric Unary Potentials Pixel Pairwise Potentials 2D/3D Pairwise Potentials 3D Pairwise Potentials ①Gibbs energy function
  10. 2. 3D to 2D Label Transfer (2)手法 ②Geometric Unary Potentials

    Curb, Foldを検出し、道路・歩道・壁のラベル変化に対応
  11. 2. 3D to 2D Label Transfer (4)アノテーション時間 2Dでは20時間かかるアノテーション(※)を 提案手法では3時間未満でアノテーション可能 ※条件:

    ・200フレームの動画を10フレームごとにアノテーション ・1枚のアノテーションに60分かかると仮定
  12. 2. 3D to 2D Label Transfer (5)定性評価結果 3D点群転写結果 入力画像 +

    segmentation結果 error map 大部分の境界を正しく推定できるが いくつか課題あり(樹、コントラストの低い領域、等)
  13. 3. SYNTHIA 論文: http://www.cv- foundation.org/openaccess/content_cvpr_2016/papers/Ros_The_SYNTHIA_Dataset_CVPR_ 2016_paper.pdf プロジェクトページ: http://synthia-dataset.net/ The SYNTHIA

    Dataset: A Large Collection of Synthetic Images for Semantic Segmentation of Urban Scenes German Ros, Laura Sellart, Joanna Materzynska, David Vazquez, Antonio M. Lopez
  14. 3. SYNTHIA (1)データの特徴 • CGで生成した架空の都市のデータ • 季節・天気・照明条件・視点の変動あり • ground truth:

    semantic segmentation, depth 詳細は公式動画をご覧下さい http://synthia-dataset.net/dataset/
  15. 3. SYNTHIA (2)手法 • 2種のCNNでSemantic Segmentation - T-Net [G.Ros+, arXiv2016]

    - FCN [J.Long+, CVPR2015] • 実写データとCGデータを交ぜて学習する方法 BGC (Balanced Gradient Contribution) [G.Ros+, arXiv2016]を使用し CGデータの重要度を下げる(発散を防ぐ効果あり) 実際には、実写データ6枚とCGデータ4枚を含むミニバッチを 使用しているだけ(λ=4/6) (実写データでのロス) + λ(CGデータでのロス)
  16. 4. Virtual KITTI (1)データの特徴 KITTI (multi-object tracking benchmark) Virtual KITTI

    ground truth optical flow, segmentation, depth CGで クローン作成
  17. 5. Scene Flow Datasets 論文: http://www.cv- foundation.org/openaccess/content_cvpr_2016/papers/Mayer_A_Large_Dataset_CVPR_2016_pa per.pdf プロジェクトページ: http://lmb.informatik.uni-freiburg.de/Publications/2016/MIFDB16/

    A Large Dataset to Train Convolutional Networks for Disparity, Optical Flow, and Scene Flow Estimation Nikolaus Mayer, Eddy Ilg, Philip Hausser, Philipp Fischer, Daniel Cremers, Alexey Dosovitskiy, Thomas Brox
  18. 5. Scene Flow Datasets (1)先行研究 Flying Chairs Dataset (FlowNet [A.Dosovitskiy+,

    ICCV2015]) ・椅子が空を飛ぶデータセット ・奥行き方向には飛ばない ・オプティカルフロー推定用CNNの学習に使える
  19. 5. Scene Flow Datasets (2)データの特徴 ③Driving (KITTIリスペクト) ②Monkaa (Sintelリスペクト) ①FlyingThings3D

    ・色んな物が空を飛ぶデータセット(椅子だけじゃない!) ・奥行き方向にも飛ぶ! ・シーンフロー推定用CNNの学習に使える!
  20. まとめ • Semantic Urban Scene Understanding に関する 5つの論文・データセットを紹介 • Semantic

    Segmentation用データを如何に集め、 如何に使うべきかは現時点で判断できず、更なる研究が必要 • Tracking, Scene Flow等、動きに関するデータは CGで代用できる可能性が高い どのようなデータで精度が上がり、それが何故なのか分析が必要
  21. 補足:CVPR2016で目についた傾向 Segmentation関連が約65件、うちSemantic Segmentationが約30件 (タイトル・セッション名で検索) • Multi-scale対応 FCN等でreceptive fieldが固定サイズである問題の解決 • RNNによる画素走査

    context情報を抽出 • Boundary, Optical Flowの併用 CRFの併用同様、境界付近の精度を向上 • 他のタスクへの転用 Semantic Segmentationの結果やCNNアーキテクチャを転用