Upgrade to Pro — share decks privately, control downloads, hide ads and more …

DDR: Deep Diminished Realityの実現に向けた一検討

DDR: Deep Diminished Realityの実現に向けた一検討

第40回コンピュータビジョン勉強会@関東「AR/VRを支える技術」発表資料。
ディープラーニングによるDR (Diminished Reality)の実現について検討しています。
https://www.slideshare.net/YosukeShinya/ddr-deep-diminished-reality-76972258 より移行。

Yosuke Shinya

June 15, 2017
Tweet

More Decks by Yosuke Shinya

Other Decks in Technology

Transcript

  1. 自己紹介 2007~2014 東京大学 話者認識 形状の数式表現、Mixed Reality 2014~2015 三菱電機 車内センシング(ドライバモニタ) 2015~

    デンソー(東京支社) 車外センシング(ADAS、自動運転) 技術動向調査(cvpaper.challenge参加) http://toyota.jp/technology/safety/toyota_safety_sense_p/ より引用 三菱電機公式サイトより引用 ※本発表は個人として行うものであり 所属組織を代表するものではありません
  2. 背景:ARと変身願望 Snapchat, SNOW, Instagram ・顔検出・顔器官検出による けもの化機能 ・Viola-Jones世代を中心に 億単位のユーザー ②美少女化願望 ①けもの化願望

    機械学習で美少女化 ~ あるいはNEW GAME! の世界 ~ http://qiita.com/Hi-king/items/8d36d9029ad1203aac55 • 私は貝になりたい • けものになりたい • 早く人間になりたい • 風になりたい • チーズ蒸しパンになりたい • 美少女になりたい • 来世は東京のイケメン男子に してくださーい! SNOW https://itunes.apple.com/jp/app/id1022267439 人間が持つ様々な変身願望 ・顔検出・似顔絵生成GAN による美少女化 ・2020年に向けて さらなる研究の必要性 課題:顔に限定され、全身を変換できない 全身の姿勢を推定する技術が必要
  3. 人物姿勢推定 OpenPose https://github.com/CMU-Perceptual-Computing-Lab/openpose [Zhe Cao+, CVPR2017], [Tomas Simon+, CVPR2017] 多人数の2D姿勢を約10fpsで推定

    手と顔のkeypointも合わせて推定 MMD (MikuMikuDance) 等の 3Dモデル 関節等を合わせて 重畳表示 VNect http://gvv.mpi-inf.mpg.de/projects/VNect/ [Dushyant Mehta+, SIGGRAPH2017] 1人の3D姿勢を30fpsで推定 https://learnmmd.com/http:/learnmmd.com/quic k-start-basics-of-mmd-to-get-you-started/
  4. 画像補完 Globally and Locally Consistent Image Completion [Satoshi Iizuka+, SIGGRAPH2017]

    http://hi.cs.waseda.ac.jp/~iizuka/projects/completion/ja/ 課題:マスクの入力が必要 マスクを推定する技術が必要
  5. DDR: Deep Diminished Reality • Instance segmentationと画像補完により 単眼カメラでのDR (Diminished Reality)が実現される

    • 学習済みモデルの組み合わせで実行可能になるはず 課題: 遅い (解像度によるが約3fps) 一つのネットワークにまとめ、 専用に学習した方が良い 図引用元:[Kaiming He+, arXiv2017], [Satoshi Iizuka+, SIGGRAPH2017]
  6. 人物を3Dモデルに変換する場合の構成案 人物姿勢推定 Instance segmentation 画像補完 重畳表示 光学的整合性 Discriminator*1 陰影生成*1 画像補完

    Discriminator *1: オプション。検討が不十分ですのでご了承下さい。以下が関連するかもしれません。 Deep Shading [Oliver Nalbach, EGSR2017] http://deep-shading-datasets.mpi-inf.mpg.de/ https://www.youtube.com/ watch?v=OWSpFm5LP3I 画像引用元は他ページをご参照下さい。
  7. UberNet Ubernet: Training a Universal Convolutional Neural Network for Low-,

    Mid-, and High-Level Vision Using Diverse Datasets and Limited Memory [Iasonas Kokkinos, CVPR2017] https://arxiv.org/abs/1609.02132 cvpaper.challenge資料: https://www.slideshare.net/cvpaperchallenge/201609cvpaperchallenge2016/24
  8. 補足:CNN自体の高速化 • Depthwise Separable Convolution*1 • 蒸留 (Distillation)*2 • その他モデル圧縮*3

    *1: 近年、高精度化・高速化・省メモリ化を目的に盛んに研究されている。 - Xception [François Chollet, CVPR2017] https://arxiv.org/abs/1610.02357 - ResNeXt [Saining Xie+, CVPR2017] https://arxiv.org/abs/1611.05431 - Speed/accuracy trade-offs [Jonathan Huang+, CVPR2017] https://arxiv.org/abs/1611.10012 - MobileNet [Andrew G. Howard+, arXiv2017] https://arxiv.org/abs/1704.04861 - SliceNet [Lukasz Kaiser+, arXiv2017] https://arxiv.org/abs/1706.03059 一方で、演算回数の理論値通りには高速化しない(2017年6月時点)。 - Speed/accuracy論文の”4.1.7 FLOPs analysis.”のMobilenetに関する記載 - Depthwise (separable) convolutionとか色々な畳込みの処理時間を比較してみる [内田祐介, 2017] http://qiita.com/yu4u/items/cf3f81e32fe613747f76 - 畳み込みニューラルネットを高速化するためのいろいろ [徳永拓之, 2017] https://developer.smartnews.com/blog/2017/06/convolution-speed-up/ そのため、Depthwise Separable Convolutionのパフォーマンスが出るよう設計されたハードウェアの登場が期待される。 (Depthwise Separable Convolutionを早期に検討していたGoogleが圧倒的に有利。) *2: segmentationではおそらく有効 (T-Net [German Ros+, arXiv2016] https://arxiv.org/abs/1604.01545 )。 画像補完等で有効かは要調査、要検証。 *3: 「マルチタスク学習でのモデル圧縮をどのように行うべきか」、「タスクごとに何の手法が有効で、それは何故なのか」等、更なる研究が必要。