A Conditional Point Diffusion-Refinement Paradigm for 3D Point Cloud Completion

第10回全日本CV勉強会生成モデル論文読み会 A Conditional Point Diffusion-Refinement Paradigm for 3D Point
Cloud Completion 2022/05/15 takmin

自己紹介 2 株式会社ビジョン＆ITラボ代表取締役皆川卓也（みながわたくや）博士（工学）「コンピュータビジョン勉強会＠関東」主催株式会社フューチャースタンダード
技術顧問略歴： 1999-2003年日本HP（後にアジレント・テクノロジーへ分社）にて、ITエンジニアとしてシステム構築、プリセールス、プロジェクトマネジメント、サポート等の業務に従事 2004-2009年コンピュータビジョンを用いたシステム/アプリ/サービス開発等に従事 2007-2010年慶應義塾大学大学院後期博士課程にて、コンピュータビジョンを専攻単位取得退学後、博士号取得（2014年） 2009年-現在フリーランスとして、コンピュータビジョンのコンサル/研究/開発等に従事（2018年法人化） http://visitlab.jp

紹介する論文 3  A Conditional Point Diffusion-Refinement Paradigm for 3D
Point Cloud Completion  Zhaoyang Lyu, Zhufeng Kong, Xudong Xu, Liang Pan, Dahua Lin  ICLR2022  選んだ理由：  拡散モデル(Denoising Diffusion Probabilistic Model)を勉強したかった  仕事でPoint Cloudに関わることが多いので、拡散モデルを使用した論文の中でも点群を使用したものを船体

拡散モデル（Denoising Diffusion Probabilistic Model） 4

Denoising Diffusion Probabilistic Model 5  画像生成のモデル  元画像に徐々にノイズを付与し、ランダムな画像を生成 
上記の逆過程をたどることでランダムな画像からなんらかのそれっぽい画像を自動生成 [Ho, J., Jain, A., & Abbeel, P. (2020). Denoising diffusion probabilistic models. Advances in Neural Information Processing Systems, 2020- December(NeurIPS 2020), 1–12.]より引用

Denoising Diffusion Probabilistic Model 6 𝑞 𝐱𝑡 𝐱𝑡−1 ≔ 𝒩
𝐱𝑡 ; 1 − 𝛽𝑡 𝐱𝑡−1 , 𝛽𝑡 𝐈  Forward Diffusion Process  画像の各画素にガウスノイズを追加 Step毎にガウスノイズを付与最終的にただのガウスノイズになる

𝐱𝑡 ; 1 − 𝛽𝑡 𝐱𝑡−1 , 𝛽𝑡 𝐈  Reverse Diffusion Process ただのガウスノイズ Step毎にガウスノイズを除去 𝑝𝜃 𝐱𝑡−1 𝐱𝑡 ≔ 𝒩 𝐱𝑡−1 ; 𝝁𝜃 𝐱𝑡 , 𝑡 , 𝚺𝜃 𝐱𝑡 , 𝑡 𝛽𝑡 が小さいとき逆拡散過程もガウス分布

𝐱𝑡 ; 1 − 𝛽𝑡 𝐱𝑡−1 , 𝛽𝑡 𝐈  Reverse Diffusion Process 𝑝𝜃 𝐱𝑡−1 𝐱𝑡 ≔ 𝒩 𝐱𝑡−1 ; 𝝁𝜃 𝐱𝑡 , 𝑡 , 𝚺𝜃 𝐱𝑡 , 𝑡 𝛽𝑡 が小さいとき逆拡散過程もガウス分布・・・画像分布全体顔画像分布

𝐱𝑡 ; 1 − 𝛽𝑡 𝐱𝑡−1 , 𝛽𝑡 𝐈  Reverse Diffusion Process 𝑝𝜃 𝐱𝑡−1 𝐱𝑡 ≔ 𝒩 𝐱𝑡−1 ; 𝝁𝜃 𝐱𝑡 , 𝑡 , 𝚺𝜃 𝐱𝑡 , 𝑡 𝛽𝑡 が小さいとき逆拡散過程もガウス分布・・・画像分布全体顔画像分布学習により求めたい

Denoising Diffusion Probabilistic Model 11  学習元画像ノイズ Neural
Network ノイズ画像推定ノイズ二乗誤差 Back Prop  推論 Neural Network 入力画像推定ノイズーノイズ低減画像 Step： t Step： t

拡散モデルの導出 12 𝑞 𝐱0 : 元画像（ex.顔画像）の真の確率密度分布 𝑝𝜃 𝐱0 : 推定したい元画像の分布関数（𝜃：パラメータ）
・・・ 𝑞 𝐱𝒕 𝑞 𝐱0 𝑞 𝐱𝑇 max 𝜃 ෍ 𝑖 log 𝑝𝜃 𝐱0 𝑖 学習画像 𝑝𝜃 で𝑞をうまく表したい。 →対数尤度が最大となるパラメータ𝜃求めたい (1)

拡散モデルの導出 13 ・・・ 𝑞 𝐱𝒕 𝑞 𝐱0 𝑞
𝐱𝑇 max 𝜃 ෍ 𝑖 log 𝑝𝜃 𝐱0 𝑖 = min 𝜃 −𝔼𝑞(𝐱0) log 𝑝𝜃 𝐱0  学習画像の分布は𝑞 𝐱0 に従うので、 (2)

拡散モデルの導出 14 ・・・ 𝑞 𝐱𝒕 𝑞 𝐱0 𝑞
𝐱𝑇  イェンセンの不等式を用いて下界が求まる  途中計算は省略 𝐱0:𝑇 ≔ 𝐱0 , 𝐱1 , … , 𝐱𝑇 −𝔼𝑞(𝐱0) log 𝑝𝜃 𝐱0 ≤ 𝔼𝑞(𝐱0:𝑇) log 𝑞 𝐱1:𝑇 |𝐱0 𝑝𝜃 𝐱0:𝑇 こっちを最小化する (3)

拡散モデルの導出 16  𝐿𝑡−1 は2つのガウス分布のKLダイバージェンス 𝐿𝑡−1 = 𝐷𝐾𝐿 𝑞 𝐱𝑡−1
|𝐱𝑡 , 𝐱0 ∥ 𝑝𝜃 𝐱𝑡−1 |𝐱𝑡 𝐱0 で条件付けることで計算可能ガウス分布： 𝒩 𝐱𝑡−1 ; 𝝁𝜃 𝐱𝑡 , 𝑡 , 𝚺𝜃 𝐱𝑡 , 𝑡 ガウス分布： 𝒩 𝐱𝑡−1 ; ෥ 𝝁 𝐱𝑡 , 𝑡 , ෨ 𝛽𝑡 𝐈 ・・・ 𝑞 𝐱𝒕 𝑞 𝐱0 𝑞 𝐱𝑇

拡散モデルの導出 17  𝐿𝑡−1 の最小化は𝑞と𝑝𝜃 の平均の差を最小化 𝐿𝑡−1 = 𝐷𝐾𝐿 𝑞
𝐱𝑡−1 |𝐱𝑡 , 𝐱0 ∥ 𝑝𝜃 𝐱𝑡−1 |𝐱𝑡 𝐱0 で条件付けることで計算可能ガウス分布： 𝒩 𝐱𝑡−1 ; 𝝁𝜃 𝐱𝑡 , 𝑡 , 𝚺𝜃 𝐱𝑡 , 𝑡 ガウス分布： 𝒩 𝐱𝑡−1 ; ෥ 𝝁 𝐱𝑡 , 𝑡 , ෨ 𝛽𝑡 𝐈 𝚺𝜃 𝐱𝑡 , 𝑡 = 𝜎𝑡 2𝐈 = ෨ 𝛽𝑡 𝐈 と単純化する 𝐿𝑡−1 = 𝔼𝒒 1 2𝜎𝑡 2 ෥ 𝝁 𝐱𝑡 , 𝑡 − 𝝁𝜃 𝐱𝑡 , 𝑡 2 + 𝐶

拡散モデルの導出 18  𝐿𝑡−1 の最小化は𝐱𝑡 と𝐱𝑡−1 間のノイズを推定すること 𝐿𝑡−1 = 𝐷𝐾𝐿
𝑞 𝐱𝑡−1 |𝐱𝑡 , 𝐱0 ∥ 𝑝𝜃 𝐱𝑡−1 |𝐱𝑡 𝐿 𝑡 simple = 𝔼𝐱0,𝐳 𝐳𝑡 − 𝐳𝜃 𝐱𝑡 , 𝑡 2 Step tで加えたノイズ推定したノイズ = 𝔼𝒒 1 2𝜎𝑡 2 ෥ 𝝁 𝐱𝑡 , 𝑡 − 𝝁𝜃 𝐱𝑡 , 𝑡 2 + 𝐶 ෥ 𝝁, 𝝁𝜃 を代入して計算

Network ノイズ画像推定ノイズ二乗誤差 Back Prop  推論 Neural Network 入力画像推定ノイズーノイズ低減画像 Step： t Step： t 𝐱0 𝐱𝑡 𝐳1:𝑡 𝐳𝜃

Network ノイズ画像推定ノイズ二乗誤差 Back Prop  推論 Neural Network 入力画像推定ノイズーノイズ低減画像 Step： t Step： t 𝐱0 𝐱𝑡 𝐳𝑡 𝐳𝜃 𝐱𝑡 は 𝐱0 にt回ガウスノイズを加えたものなので 𝐱𝑡 = ത 𝛼𝑡 𝐱0 + 1 − ത 𝛼𝑡 𝐳𝑡 とかける（ただし ത 𝛼𝑡 = σ 𝑖=1 𝑡 (1 − 𝛽𝑖 ) ）

Network ノイズ画像推定ノイズ二乗誤差 Back Prop  推論 Neural Network 入力画像推定ノイズーノイズ低減画像 Step： t Step： t 𝐱0 𝐱𝑡 𝐳𝑡 𝐳𝜃 𝐱𝑡 𝐱𝑡−1 𝐳𝜃

Network ノイズ画像推定ノイズ二乗誤差 Back Prop  推論 Neural Network 入力画像推定ノイズーノイズ低減画像 Step： t Step： t 𝐱0 𝐱𝑡 𝐳𝑡 𝐳𝜃 𝐱𝑡 𝐱𝑡−1 𝐳𝜃 𝐱𝑡−1 = 1 𝛼𝑡 𝐱𝑡 − 1 − 𝛼𝑡 1 − ത 𝛼𝑡 𝒛𝜽 + 𝜎𝑡 𝒛 （ただし 𝛼𝑡 = 1 − 𝛽𝑖 ）

A Conditional Point Diffusion-Refinement Paradigm for 3D Point Cloud Completion
23

A Conditional Point Diffusion-Refinement Paradigm for 3D Point Cloud Completion
24  LiDAR等の測定では、オクルージョン等によりすべての箇所の点群データが取れるわけではない。  拡散モデル用いてデータの取得できなかった箇所の点群を生成する。  Coarse-to-Fineに点群生成  Conditional Generation Network (Coarse)  Refinement Network (Fine)

Point Cloud Completion 25  生成された点群とGround Truthの比較（Loss）に、従来は Chamfer DistanceやEarth Mover
Distanceが使用されていた。  Chamfer Distance  点群全体の密度分布を捉えない  補間結果の質が一様でない  Earth Mover Distance  計算が非常に重い  Denoise Diffusion Probabilistic Model (DDPM)  一様で高品質な補間が行えるのではないか？

Conditional Point Diffusion-Refinement (PDR) Paradigm 26 1. Conditional Generation Network
 拡散モデル（DDPM）によるCoarseな点群補間  各点の座標(x,y,z)にガウスノイズを付与 2. Refinement Network  Coarseな点群の高品質化

Conditional Generation Network 27

Conditional Generation Network 28 部分的な点群（Condition）から各段階の特徴量抽出各Step tでのノイズを推定 PointNet++ like

Conditional Generation Network 29 各Step tでのノイズを推定拡散ステップt Conditionのグローバル特徴部分点群の各レベルの特徴を入力推定ノイズ

Conditional Generation Network 30 拡散ステップt Conditionのグローバル特徴推定ノイズ Set Abstraction (SA)
Modules Max Pooling 𝑁𝑙+1 × 𝑑𝑙+1 PointNet 𝑁𝑙 × 𝑑𝑙 + 3 𝑁𝑙+1 × 𝑑𝑙 + 3 𝑙層の特徴量次元＋𝑥, 𝑦, 𝑧 𝑙層の点数 × Farthest Point Sampling K-Neighbors

Conditional Generation Network 31 拡散ステップt Conditionのグローバル特徴推定ノイズ Self Attention 𝑁𝑙+1
× 𝑑𝑙+1 PointNet Set Abstraction (SA) Modules

Conditional Generation Network 32 拡散ステップt Conditionのグローバル特徴推定ノイズ Feature Propagation (FP)
Modules 𝑁𝑙+1 × 𝑑′𝑙+1 + 3 PointNet Self Attention 𝑁𝑙 × 𝑑𝑙 𝑁𝑙 × 𝐾 × 𝑑′𝑙+1 + 3 MLP 𝑁𝑙 × 𝑑′𝑙 𝑁𝑙 × 3 Concatenate From Skip Connection K-Neighbors Upsampling 後の座標

Conditional Generation Network 33 拡散ステップt Conditionのグローバル特徴推定ノイズ近傍点の特徴量を取得し、MLPで変換後、Self-Attentionで統合 Feature
Transfer Modules

Refinement Network 34 Conditional Generation Networkとほぼ同じ構造 Coarse 点群U Conditional Generation
Networkより生成 Output 𝜖𝑓 𝒖, 𝒄 Refine点群V

Refinement Network 35  学習  Chamfer Distance Loss 
教師点群との距離  ℒCD 𝑽, 𝑿 = 1 𝑽 σ𝑣∈𝑽 min 𝑥∈𝑿 𝑣 − 𝑥 2 + 1 𝑿 σ𝑥∈𝑿 min 𝑣∈𝑽 𝑣 − 𝑥 2  𝑽: Refinement Networkの生成点群  𝑿: 教師データ  学習中はConditional Generation Networkのパラメータは固定  出力𝜖𝑓 𝒖, 𝒄 の次元数を上げることで解像度を増やせる

Experiments 36  データセット  MVP  62400訓練データ、41600テストデータ  ShapeNetより生成
 MVP-40  41600訓練データ、64160テストデータ  40カテゴリ  ModelNet40より生成  Completion3D  28974訓練データ  1184テストデータ  8カテゴリ  ShapeNetより生成

Experiments 37  評価指標  𝑽: Refinement Networkの生成点群  𝑿:
教師データ  Chamfer Distance  点同士の距離を元にしたLoss  ℒCD 𝑽, 𝑿 = 1 𝑽 σ𝑣∈𝑽 min 𝑥∈𝑿 𝑣 − 𝑥 2 + 1 𝑿 σ𝑥∈𝑿 min 𝑣∈𝑽 𝑣 − 𝑥 2  Earth Mover Distance  分布の最小移動量  ℒEMD 𝑽, 𝑿 = min 𝜙:𝑽⟷𝑿 σ𝑣∈𝑽 𝑣 − 𝜙 𝑣 2

Experiments 38  評価指標(続き)  F1 Score  RecallおよびPrecisionを加味した指標 
ℒF1 = 2ℒ𝑃 𝜌 ℒ𝑅 𝜌 ℒ𝑃 𝜌 +ℒ𝑅 𝜌  ℒ𝑃 𝜌 = 1 𝑽 σ 𝑣∈𝑽 min 𝑥∈𝑿 𝑣 − 𝑥 2 < 𝜌  ℒ𝑅 𝜌 = 1 𝑿 σ 𝑥∈𝑿 min 𝑣∈𝑽 𝑣 − 𝑥 2 < 𝜌

Experiments 39  結果

Experiments 40  MVPデータセットに対し、出力の解像度（点数）を変えて実験

Experiments 41  Ablation Study  PA-Deonv & Att.: 本手法
 PA-Deonv: Attentionを除いたもの  PointNet++: さらにPA-Deonv moduleを除いたもの  Concate 𝑥𝑡 & 𝑐: Ftmoduleを除いたもの  Pointwise-net: 部分点群（Condition）から取得したグローバル特徴のみ使用

Experiments 42

Experiments 43  本手法を拡張し、ConditionとしてBounding Boxを与えられるようにしたもの

まとめ 44  拡散モデルを利用した点群補間方法を提案  Conditional Generation Networkで全体構造を推定し、 Refinement Networkで詳細化
 他の手法と比較し、性能が大きく上回った  Controllable Point Cloud Generationのような、そのほかの点群を使用したタスクにも応用可能

PointNet 45  Qi, C. R., Su, H., Mo, K.,
& Guibas, L. J. (2017). PointNet : Deep Learning on Point Sets for 3D Classification and Segmentation Big Data + Deep Representation Learning. IEEE Conference on Computer Vision and Pattern Recognition (CVPR).  各点群の点を独立に畳み込む  Global Max Poolingで点群全体の特徴量を取得各点を個別に畳み込みアフィン変換各点の特徴を統合

PointNet++ 46  Qi, C. R., Yi, L., Su, H.,
& Guibas, L. J. (2017). PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metric Space. Conference on Neural Information Processing Systems (NIPS).  PointNetを階層的に適用  点群をクラスタ分割→PointNet→クラスタ内で統合を繰り返す

A Conditional Point Diffusion-Refinement Paradi...

A Conditional Point Diffusion-Refinement Paradigm for 3D Point Cloud Completion

More Decks by Takuya MINAGAWA

Other Decks in Technology

Featured

Transcript