Slide 1

Slide 1 text

DDR: Deep Diminished Reality の実現に向けた一検討 第40回CV勉強会「AR/VRを支える技術」 2017/6/10 進矢陽介 2017/6/15 説明・紹介論文追加

Slide 2

Slide 2 text

自己紹介 2007~2014 東京大学 話者認識 形状の数式表現、Mixed Reality 2014~2015 三菱電機 車内センシング(ドライバモニタ) 2015~ デンソー(東京支社) 車外センシング(ADAS、自動運転) 技術動向調査(cvpaper.challenge参加) http://toyota.jp/technology/safety/toyota_safety_sense_p/ より引用 三菱電機公式サイトより引用 ※本発表は個人として行うものであり 所属組織を代表するものではありません

Slide 3

Slide 3 text

前提知識:DR (Diminished Reality, 隠消現実感) 説明文・図引用元: [森ら, 日本バーチャルリアリティ学会論文誌2011] • 「視覚的に不要な物体を隠蔽・消去, もしくは障害となる物体を透過させる技術」 • 下図の場合、ポストが存在しないように 見せかける技術

Slide 4

Slide 4 text

背景:ARと変身願望 Snapchat, SNOW, Instagram ・顔検出・顔器官検出による けもの化機能 ・Viola-Jones世代を中心に 億単位のユーザー ②美少女化願望 ①けもの化願望 機械学習で美少女化 ~ あるいはNEW GAME! の世界 ~ http://qiita.com/Hi-king/items/8d36d9029ad1203aac55 • 私は貝になりたい • けものになりたい • 早く人間になりたい • 風になりたい • チーズ蒸しパンになりたい • 美少女になりたい • 来世は東京のイケメン男子に してくださーい! SNOW https://itunes.apple.com/jp/app/id1022267439 人間が持つ様々な変身願望 ・顔検出・似顔絵生成GAN による美少女化 ・2020年に向けて さらなる研究の必要性 課題:顔に限定され、全身を変換できない 全身の姿勢を推定する技術が必要

Slide 5

Slide 5 text

人物姿勢推定 OpenPose https://github.com/CMU-Perceptual-Computing-Lab/openpose [Zhe Cao+, CVPR2017], [Tomas Simon+, CVPR2017] 多人数の2D姿勢を約10fpsで推定 手と顔のkeypointも合わせて推定 MMD (MikuMikuDance) 等の 3Dモデル 関節等を合わせて 重畳表示 VNect http://gvv.mpi-inf.mpg.de/projects/VNect/ [Dushyant Mehta+, SIGGRAPH2017] 1人の3D姿勢を30fpsで推定 https://learnmmd.com/http:/learnmmd.com/quic k-start-basics-of-mmd-to-get-you-started/

Slide 6

Slide 6 text

人物姿勢推定と重畳表示 なんかでかい 重畳表示 BodySLAM https://wrnch.com/ ・wrnch社の人物姿勢推定エンジンで、ARに利用可能 ・重畳する物体は鎧(通常の服より大きい) 重畳する物体の方が小さいと破綻すると推測される ©大川ぶくぶ/竹書房・キングレコード http://hoshiiro.jp/ 重畳する物体 重畳される物体 はみ出る 課題: 大は小を兼ねない 元画像中の人物を消去する技術が必要 発生する現象

Slide 7

Slide 7 text

画像補完 Globally and Locally Consistent Image Completion [Satoshi Iizuka+, SIGGRAPH2017] http://hi.cs.waseda.ac.jp/~iizuka/projects/completion/ja/ 課題:マスクの入力が必要 マスクを推定する技術が必要

Slide 8

Slide 8 text

Instance segmentation Mask R-CNN [Kaiming He+, arXiv2017] https://arxiv.org/abs/1703.06870

Slide 9

Slide 9 text

DDR: Deep Diminished Reality • Instance segmentationと画像補完により 単眼カメラでのDR (Diminished Reality)が実現される • 学習済みモデルの組み合わせで実行可能になるはず 課題: 遅い (解像度によるが約3fps) 一つのネットワークにまとめ、 専用に学習した方が良い 図引用元:[Kaiming He+, arXiv2017], [Satoshi Iizuka+, SIGGRAPH2017]

Slide 10

Slide 10 text

人物を3Dモデルに変換する場合の構成案 人物姿勢推定 Instance segmentation 画像補完 重畳表示 光学的整合性 Discriminator*1 陰影生成*1 画像補完 Discriminator *1: オプション。検討が不十分ですのでご了承下さい。以下が関連するかもしれません。 Deep Shading [Oliver Nalbach, EGSR2017] http://deep-shading-datasets.mpi-inf.mpg.de/ https://www.youtube.com/ watch?v=OWSpFm5LP3I 画像引用元は他ページをご参照下さい。

Slide 11

Slide 11 text

課題:どうやってマルチタスク学習を行うか • データセット準備、学習、評価、実験環境再現が大変なため、 Instance segmentationと画像補完と3D人物姿勢推定を同時実行し、 元画像の人物を消去した上で、 MMDを重畳表示するのに都合の良いデータセットがあると良い • 上記が無理でも、異種のデータセットを交ぜて学習を行いつつ、 メモリ消費量は抑えられる手法があると良い

Slide 12

Slide 12 text

SURREAL Dataset Learning from Synthetic Humans [Gül Varol+, CVPR2017] http://www.di.ens.fr/willow/research/surreal/

Slide 13

Slide 13 text

UberNet Ubernet: Training a Universal Convolutional Neural Network for Low-, Mid-, and High-Level Vision Using Diverse Datasets and Limited Memory [Iasonas Kokkinos, CVPR2017] https://arxiv.org/abs/1609.02132 cvpaper.challenge資料: https://www.slideshare.net/cvpaperchallenge/201609cvpaperchallenge2016/24

Slide 14

Slide 14 text

まとめ • ディープラーニング技術の進展により、 単眼カメラでのDR (Diminished Reality)の実現が近づいている • 高精度化が重要なのは言うまでもないが、 AR関連の応用には、何よりも速さが足りない (各技術はこの1年で著しく高速化したが、更なる高速化が必要)

Slide 15

Slide 15 text

補足:応用上の高速化 • ディープでなくても良い部分を置き換える • フレームごとに別のGPUで処理(遅延が気にならない場合) • キーフレームのみ重い演算を行う • 背景の真値を取得し、ボトルネックとなるであろう画像補完処理を除去(対象が動く場合) • アプリケーションに応じて、解像度を下げる、処理対象を限定する

Slide 16

Slide 16 text

補足:CNN自体の高速化 • Depthwise Separable Convolution*1 • 蒸留 (Distillation)*2 • その他モデル圧縮*3 *1: 近年、高精度化・高速化・省メモリ化を目的に盛んに研究されている。 - Xception [François Chollet, CVPR2017] https://arxiv.org/abs/1610.02357 - ResNeXt [Saining Xie+, CVPR2017] https://arxiv.org/abs/1611.05431 - Speed/accuracy trade-offs [Jonathan Huang+, CVPR2017] https://arxiv.org/abs/1611.10012 - MobileNet [Andrew G. Howard+, arXiv2017] https://arxiv.org/abs/1704.04861 - SliceNet [Lukasz Kaiser+, arXiv2017] https://arxiv.org/abs/1706.03059 一方で、演算回数の理論値通りには高速化しない(2017年6月時点)。 - Speed/accuracy論文の”4.1.7 FLOPs analysis.”のMobilenetに関する記載 - Depthwise (separable) convolutionとか色々な畳込みの処理時間を比較してみる [内田祐介, 2017] http://qiita.com/yu4u/items/cf3f81e32fe613747f76 - 畳み込みニューラルネットを高速化するためのいろいろ [徳永拓之, 2017] https://developer.smartnews.com/blog/2017/06/convolution-speed-up/ そのため、Depthwise Separable Convolutionのパフォーマンスが出るよう設計されたハードウェアの登場が期待される。 (Depthwise Separable Convolutionを早期に検討していたGoogleが圧倒的に有利。) *2: segmentationではおそらく有効 (T-Net [German Ros+, arXiv2016] https://arxiv.org/abs/1604.01545 )。 画像補完等で有効かは要調査、要検証。 *3: 「マルチタスク学習でのモデル圧縮をどのように行うべきか」、「タスクごとに何の手法が有効で、それは何故なのか」等、更なる研究が必要。