DDR: Deep Diminished Realityの実現に向けた一検討

Slide 1

Slide 1 text

DDR: Deep Diminished Reality の実現に向けた一検討第40回CV勉強会「AR/VRを支える技術」 2017/6/10 進矢陽介 2017/6/15 説明・紹介論文追加

Slide 2

Slide 2 text

自己紹介 2007～2014 東京大学話者認識形状の数式表現、Mixed Reality 2014～2015 三菱電機車内センシング（ドライバモニタ） 2015～デンソー（東京支社）車外センシング（ADAS、自動運転）技術動向調査（cvpaper.challenge参加） http://toyota.jp/technology/safety/toyota_safety_sense_p/ より引用三菱電機公式サイトより引用 ※本発表は個人として行うものであり所属組織を代表するものではありません

Slide 3

Slide 3 text

前提知識：DR (Diminished Reality, 隠消現実感) 説明文・図引用元： [森ら, 日本バーチャルリアリティ学会論文誌2011] • 「視覚的に不要な物体を隠蔽・消去，もしくは障害となる物体を透過させる技術」 • 下図の場合、ポストが存在しないように見せかける技術

Slide 4

Slide 4 text

背景：ARと変身願望 Snapchat, SNOW, Instagram ・顔検出・顔器官検出によるけもの化機能・Viola-Jones世代を中心に億単位のユーザー ②美少女化願望 ①けもの化願望機械学習で美少女化 ~ あるいはNEW GAME! の世界 ~ http://qiita.com/Hi-king/items/8d36d9029ad1203aac55 • 私は貝になりたい • けものになりたい • 早く人間になりたい • 風になりたい • チーズ蒸しパンになりたい • 美少女になりたい • 来世は東京のイケメン男子にしてくださーい！ SNOW https://itunes.apple.com/jp/app/id1022267439 人間が持つ様々な変身願望・顔検出・似顔絵生成GAN による美少女化・2020年に向けてさらなる研究の必要性課題：顔に限定され、全身を変換できない全身の姿勢を推定する技術が必要

Slide 5

Slide 5 text

人物姿勢推定 OpenPose https://github.com/CMU-Perceptual-Computing-Lab/openpose [Zhe Cao+, CVPR2017], [Tomas Simon+, CVPR2017] 多人数の2D姿勢を約10fpsで推定手と顔のkeypointも合わせて推定 MMD (MikuMikuDance) 等の 3Dモデル関節等を合わせて重畳表示 VNect http://gvv.mpi-inf.mpg.de/projects/VNect/ [Dushyant Mehta+, SIGGRAPH2017] 1人の3D姿勢を30fpsで推定 https://learnmmd.com/http:/learnmmd.com/quic k-start-basics-of-mmd-to-get-you-started/

Slide 6

Slide 6 text

人物姿勢推定と重畳表示なんかでかい重畳表示 BodySLAM https://wrnch.com/ ・wrnch社の人物姿勢推定エンジンで、ARに利用可能・重畳する物体は鎧(通常の服より大きい) 重畳する物体の方が小さいと破綻すると推測される ©大川ぶくぶ/竹書房・キングレコード http://hoshiiro.jp/ 重畳する物体重畳される物体はみ出る課題：大は小を兼ねない元画像中の人物を消去する技術が必要発生する現象

Slide 7

Slide 7 text

画像補完 Globally and Locally Consistent Image Completion [Satoshi Iizuka+, SIGGRAPH2017] http://hi.cs.waseda.ac.jp/~iizuka/projects/completion/ja/ 課題：マスクの入力が必要マスクを推定する技術が必要

Slide 8

Slide 8 text

Instance segmentation Mask R-CNN [Kaiming He+, arXiv2017] https://arxiv.org/abs/1703.06870

Slide 9

Slide 9 text

DDR: Deep Diminished Reality • Instance segmentationと画像補完により単眼カメラでのDR (Diminished Reality)が実現される • 学習済みモデルの組み合わせで実行可能になるはず課題：遅い (解像度によるが約3fps) 一つのネットワークにまとめ、専用に学習した方が良い図引用元：[Kaiming He+, arXiv2017], [Satoshi Iizuka+, SIGGRAPH2017]

Slide 10

Slide 10 text

人物を3Dモデルに変換する場合の構成案人物姿勢推定 Instance segmentation 画像補完重畳表示光学的整合性 Discriminator*1 陰影生成*1 画像補完 Discriminator *1: オプション。検討が不十分ですのでご了承下さい。以下が関連するかもしれません。 Deep Shading [Oliver Nalbach, EGSR2017] http://deep-shading-datasets.mpi-inf.mpg.de/ https://www.youtube.com/ watch?v=OWSpFm5LP3I 画像引用元は他ページをご参照下さい。

Slide 11

Slide 11 text

課題：どうやってマルチタスク学習を行うか • データセット準備、学習、評価、実験環境再現が大変なため、 Instance segmentationと画像補完と3D人物姿勢推定を同時実行し、元画像の人物を消去した上で、 MMDを重畳表示するのに都合の良いデータセットがあると良い • 上記が無理でも、異種のデータセットを交ぜて学習を行いつつ、メモリ消費量は抑えられる手法があると良い

Slide 12

Slide 12 text

SURREAL Dataset Learning from Synthetic Humans [Gül Varol+, CVPR2017] http://www.di.ens.fr/willow/research/surreal/

Slide 13

Slide 13 text

UberNet Ubernet: Training a Universal Convolutional Neural Network for Low-, Mid-, and High-Level Vision Using Diverse Datasets and Limited Memory [Iasonas Kokkinos, CVPR2017] https://arxiv.org/abs/1609.02132 cvpaper.challenge資料： https://www.slideshare.net/cvpaperchallenge/201609cvpaperchallenge2016/24

Slide 14

Slide 14 text

まとめ • ディープラーニング技術の進展により、単眼カメラでのDR (Diminished Reality)の実現が近づいている • 高精度化が重要なのは言うまでもないが、 AR関連の応用には、何よりも速さが足りない（各技術はこの1年で著しく高速化したが、更なる高速化が必要）

Slide 15

Slide 15 text

補足：応用上の高速化 • ディープでなくても良い部分を置き換える • フレームごとに別のGPUで処理（遅延が気にならない場合） • キーフレームのみ重い演算を行う • 背景の真値を取得し、ボトルネックとなるであろう画像補完処理を除去（対象が動く場合） • アプリケーションに応じて、解像度を下げる、処理対象を限定する

Slide 16

Slide 16 text

補足：CNN自体の高速化 • Depthwise Separable Convolution*1 • 蒸留 (Distillation)*2 • その他モデル圧縮*3 *1: 近年、高精度化・高速化・省メモリ化を目的に盛んに研究されている。 - Xception [François Chollet, CVPR2017] https://arxiv.org/abs/1610.02357 - ResNeXt [Saining Xie+, CVPR2017] https://arxiv.org/abs/1611.05431 - Speed/accuracy trade-offs [Jonathan Huang+, CVPR2017] https://arxiv.org/abs/1611.10012 - MobileNet [Andrew G. Howard+, arXiv2017] https://arxiv.org/abs/1704.04861 - SliceNet [Lukasz Kaiser+, arXiv2017] https://arxiv.org/abs/1706.03059 一方で、演算回数の理論値通りには高速化しない（2017年6月時点）。 - Speed/accuracy論文の”4.1.7 FLOPs analysis.”のMobilenetに関する記載 - Depthwise (separable) convolutionとか色々な畳込みの処理時間を比較してみる [内田祐介, 2017] http://qiita.com/yu4u/items/cf3f81e32fe613747f76 - 畳み込みニューラルネットを高速化するためのいろいろ [徳永拓之, 2017] https://developer.smartnews.com/blog/2017/06/convolution-speed-up/ そのため、Depthwise Separable Convolutionのパフォーマンスが出るよう設計されたハードウェアの登場が期待される。（Depthwise Separable Convolutionを早期に検討していたGoogleが圧倒的に有利。） *2: segmentationではおそらく有効 (T-Net [German Ros+, arXiv2016] https://arxiv.org/abs/1604.01545 )。画像補完等で有効かは要調査、要検証。 *3: 「マルチタスク学習でのモデル圧縮をどのように行うべきか」、「タスクごとに何の手法が有効で、それは何故なのか」等、更なる研究が必要。