Autodesk AI Lab の論文紹介 3D何でも勉強会 #1 / Introduction Autodesk Papers

Autodesk AI Lab の論文紹介〜主に CLIP-Forge: Towards Zero-Shot
Text-to-Shape Generation, CVPR2022 〜 3D何でも勉強会 #1 竹原大智

自己紹介 Copyright 2017-2021 CADDi Inc. All rights reserved. 1 •
竹原大智 | @myaunraitau • キャディ株式会社 AI Lab • 3Dが会社で盛り上がってるので気になる (2Dで精一杯ですが) 図面による類似画像検索を開発していますチーム紹介資料（CADDi AI Lab Description）より

発表について Copyright 2017-2021 CADDi Inc. All rights reserved. 2 目次
• Autodesk について • Autodesk AI Lab (Autodesk Research) の論文 • 論文紹介: CLIP-Forge: Towards Zero-Shot Text-to-Shape Generation, CVPR2022 Autodesk製品を実際によく使ってる人のコメント聞きたいです Twitter #3d_nandemo

Autodesk Copyright 2017-2021 CADDi Inc. All rights reserved. 3 AutoCADに代表される図面作成ソフトウェアを主に開発している企業（Wikipediaより）
AutoCAD Fusion360 ※ 画像は公式サイトより引用

Autodesk Copyright 2017-2021 CADDi Inc. All rights reserved. 4 AutoCADに代表される図面作成ソフトウェアを主に開発している企業（Wikipediaより）
Maya 3ds Max ※ 画像は公式サイトより引用

Autodesk AI Lab (Autodesk Research) Copyright 2017-2021 CADDi Inc. All
rights reserved. 5 CAD (Computer-Aided Design, コンピュータ支援設計) 技術などの研究成果を公開している ※ 図表は元論文より引用近年のコンピュータビジョンや機械学習分野でのPublications CLIP-Forge: Towards Zero-Shot Text-to-Shape Generation, CVPR2022 JoinABLe: Learning Bottom-up Assembly of Parametric CAD Joints, CVPR2022 BRepNet: A Topological Message Passing System for Solid Models, CVPR2021 RobustPointSet: A Dataset for Benchmarking Robustness of Point Cloud Classifiers, ICLR2021 workshop Fusion 360 Gallery: A Dataset and Environment for Programmatic CAD Construction from Human Design Sequences, SIGGRAPH 2021 Building-GAN: Graph-Conditioned Architectural Volumetric Design Generation, ICCV 2021 UV-Net: Learning from Boundary Representations, CVPR2021 UVStyle-Net: Unsupervised Few-shot Learning of 3D Style Similarity Measure for B-Reps, ICCV2021 Learning to Simulate and Design for Structural Engineering, ICML2020 PointMask: Towards Interpretable and Bias-Resilient Point Cloud Processing, ICML2020

rights reserved. 6 CAD (Computer-Aided Design, コンピュータ支援設計) 技術などの研究成果を公開している JoinABLe: Learning Bottom-up Assembly of Parametric CAD Joints, CVPR2022 BRepNet: A Topological Message Passing System for Solid Models, CVPR2021 Fusion 360 Gallery: A Dataset and Environment for Programmatic CAD Construction from Human Design Sequences, SIGGRAPH 2021 ※ 図表は元論文より引用 • Fusion 360 の CADデータセットを公開 ◦ Assembly Dataset ◦ Reconstruction Dataset ◦ Segmentation Dataset JoinABLe では複数の部品を組み合わせたアセンブリにジョイントを予測する手法を提案

rights reserved. 7 CAD (Computer-Aided Design, コンピュータ支援設計) 技術などの研究成果を公開している RobustPointSet: A Dataset for Benchmarking Robustness of Point Cloud Classiﬁers, ICLR2021 Workshop PointMask: Towards Interpretable and Bias-Resilient Point Cloud Processing, ICML2020 ※ 図表は元論文より引用 • 点群データ処理に関する研究 • データセットも公開している RobustPointSet は点群分類モデルのロバスト性を測るために、複数の変換を適用したデータセット

rights reserved. 8 CAD (Computer-Aided Design, コンピュータ支援設計) 技術などの研究成果を公開している Building-GAN: Graph-Conditioned Architectural Volumetric Design Generation, ICCV 2021 Learning to Simulate and Design for Structural Engineering, ICML2020 ※ 図表は元論文より引用 • 建築における設計の自動化、最適化、シミュレーションに関する研究 Building-GAN は program graph, design space を条件とした volumetric design を生成する

論文紹介: CLIP-Forge: Towards Zero-Shot Text-to-Shape Generation, CVPR2022

どんな論文？ Copyright 2017-2021 CADDi Inc. All rights reserved. 10 CLIP-Forge:
Towards Zero-Shot Text-to-Shape Generation, CVPR2022, Autodesk AI Lab • Text-to-Shape Generation, テキストから3次元形状を生成する手法を提案 • Zero-Shot, 学習にテキスト-3次元形状のペアをラベルを必要としない • ラベル付けされていない形状データセット • CLIPなどの事前学習済み画像-テキストモデルを活用 ※ 図表は元論文より引用

背景 Copyright 2017-2021 CADDi Inc. All rights reserved. 11 •
テキストから形状の生成モデルは、創造的な設計や製造、アニメーションやゲームにおける新しいスマートな機能を可能にする重要な技術 • DALLE, CLIPなどのテキストからの画像生成での有望な結果 • 2次元での成功が3次元でも通用するのか？テキストと形状のペアは画像のように大量に取得することが困難これイラストレーターさんが書いたんじゃないの...? デザイン革命！ #Text2Image #DALLE #midjourney #StableDiffusion Next ! #Text2Shape

手法の全体像 Copyright 2017-2021 CADDi Inc. All rights reserved. 12 •
事前学習済みCLIP (Text Encoder, Image Encoder) ← このモデルは学習しない • 学習 • Stage 1: Shape Autoencoder • Stage 2: Conditional Normalizing Flow • 推論

関連研究: CLIP Copyright 2017-2021 CADDi Inc. All rights reserved. 13
Learning Transferable Visual Models From Natural Language Supervision, CVPR2021 (OpenAI) • Text Encoder と Image Encoder を対照学習 • 4億のテキスト-画像ペアを学習 • 紹介論文では、CLIP の Image Encoder, Text Encoder 自体は学習しない ※ 図表は元論文より引用

学習 - Stage 1: Shape Autoencoder Copyright 2017-2021 CADDi Inc.
All rights reserved. 14 Encoder - e = f_encoder(V) + ε - V … Voxel, 32^3 - ε … ガウスノイズを付加 - f_encoder (Voxel encoder) … 3D convolution + Batch normalization

学習 - Stage 1: Shape Autoencoder Copyright 2017-2021 CADDi Inc.
All rights reserved. 15 Decoder - Occupancy Networks [36]-based approch - O = f_decoder(e + P) - P … point, (x, y, z) - f_decoder (Implicit Decoder) - 予測したO(Occupancy, {0, 1})からMSE(Loss)を算出し学習する

学習 - Stage 2: Conditional Normalizing Flow Copyright 2017-2021 CADDi
Inc. All rights reserved. 16 Voxel Encoder により得られた e と対応する多視点のレンダリング画像により、Flow Model (Flow-based generative model) を学習 - 多視点のレンダリング画像を CLIP Image Encoder に入力し c を得る - c (CLIP features) と e (Shape features) - Conditional Normalizing Flow - 5層 RealNVP network - RealNVP[12] …real-valued non-volume preserving transformations - 逆変換可能な変換を学習 RealNVP[12]論文より

推論 Copyright 2017-2021 CADDi Inc. All rights reserved. 17 Stage
2 で学習したFlow Modelの逆変換 - c が Text Encoder から得られた CLIP features である (CLIP は Image ↔ Text で互換可能) Stage 1 で学習したDecoderにより3次元形状 (Voxel) を取得

実験 Copyright 2017-2021 CADDi Inc. All rights reserved. 18 Dataset
- ShapeNet dataset - 13 rigid object classes - about 30000 samples - 評価に用いるテキストクエリはWordNet taxonomyに基づきShapeNet datasetのクラスの下位語および形状に関する属性 (e.g. a round chair, a square table) により手動で234 クエリ用意クラス毎のサンプル数 • airplane,aeroplane,plane - Num: 2832 • sofa,couch,lounge - Num: 2222 • cabinet - Num: 1101 • telephone,phone,telephone set - Num: 737 • vessel,watercraft - Num: 1359 • rifle - Num: 1661 • table - Num: 5958 • bench - Num: 1272 • display,video display - Num: 767 • lamp - Num: 1624 • car,auto,automobile,machine,motorcar - Num: 5248 • speaker - Num: 1134 • chair - Num: 4746

結果 Copyright 2017-2021 CADDi Inc. All rights reserved. 19 一般的なオブジェクトの名称の入力に対して適切
な結果が得られている定性評価

結果 Copyright 2017-2021 CADDi Inc. All rights reserved. 21 Tableに様々な形状に関する属性を加えたクエリ
でも適切な形状が得られている - circular, rectangular, square, thick, thin Car, Boat, Chair のサブカテゴリに当たるような概念も形状が得られている一般的なオブジェクトの名称の入力に対して適切な結果が得られている定性評価

まとめ Copyright 2017-2021 CADDi Inc. All rights reserved. 25 CLIP-Forge:
Towards Zero-Shot Text-to-Shape Generation, CVPR2022, Autodesk AI Lab • Text-to-Shape Generation, テキストから3次元形状を生成する手法を提案 • Zero-Shot, 学習にテキスト-3次元形状のペアをラベルを必要としない • ラベル付けされていない形状データセット • CLIPなどの事前学習済み画像-テキストモデルを活用 ※ 図表は元論文より引用感想 • Flow Modelの導入により、モダリティを超えて事前学習済み CLIPの資産を活用するアイデアは面白いと思った • CLIPを応用に活用する系の他研究も知りたい • 他のデータセットでどの程度できるのか？データセットのカテゴリをより増やしても良好な結果は得られるのか？辺りが気になった

We are hiring!! 「キャディ　エンジニア採用」で検索！ 

Autodesk AI Lab の論文紹介 3D何でも勉強会 #1 / Introducti...

Autodesk AI Lab の論文紹介 3D何でも勉強会 #1 / Introduction Autodesk Papers

haradai1262

More Decks by haradai1262

Other Decks in Technology

Featured

Transcript

Autodesk AI Lab の論文紹介〜主に CLIP-Forge: Towards Zero-Shot

自己紹介 Copyright 2017-2021 CADDi Inc. All rights reserved. 1 •

発表について Copyright 2017-2021 CADDi Inc. All rights reserved. 2 目次

Autodesk Copyright 2017-2021 CADDi Inc. All rights reserved. 3 AutoCADに代表される図面作成ソフトウェアを主に開発している企業（Wikipediaより）

Autodesk Copyright 2017-2021 CADDi Inc. All rights reserved. 4 AutoCADに代表される図面作成ソフトウェアを主に開発している企業（Wikipediaより）

Autodesk AI Lab (Autodesk Research) Copyright 2017-2021 CADDi Inc. All

Autodesk AI Lab (Autodesk Research) Copyright 2017-2021 CADDi Inc. All

Autodesk AI Lab (Autodesk Research) Copyright 2017-2021 CADDi Inc. All

Autodesk AI Lab (Autodesk Research) Copyright 2017-2021 CADDi Inc. All

論文紹介: CLIP-Forge: Towards Zero-Shot Text-to-Shape Generation, CVPR2022

どんな論文？ Copyright 2017-2021 CADDi Inc. All rights reserved. 10 CLIP-Forge:

背景 Copyright 2017-2021 CADDi Inc. All rights reserved. 11 •

手法の全体像 Copyright 2017-2021 CADDi Inc. All rights reserved. 12 •

関連研究: CLIP Copyright 2017-2021 CADDi Inc. All rights reserved. 13

学習 - Stage 1: Shape Autoencoder Copyright 2017-2021 CADDi Inc.

学習 - Stage 1: Shape Autoencoder Copyright 2017-2021 CADDi Inc.

学習 - Stage 2: Conditional Normalizing Flow Copyright 2017-2021 CADDi

推論 Copyright 2017-2021 CADDi Inc. All rights reserved. 17 Stage

実験 Copyright 2017-2021 CADDi Inc. All rights reserved. 18 Dataset

結果 Copyright 2017-2021 CADDi Inc. All rights reserved. 19 一般的なオブジェクトの名称の入力に対して適切

結果 Copyright 2017-2021 CADDi Inc. All rights reserved. 20 Car,

結果 Copyright 2017-2021 CADDi Inc. All rights reserved. 21 Tableに様々な形状に関する属性を加えたクエリ

結果 Copyright 2017-2021 CADDi Inc. All rights reserved. 22 点群データであっても良好な結果が得ら

結果 Copyright 2017-2021 CADDi Inc. All rights reserved. 23 入力テキストの設計(接頭辞の選択を調

結果 Copyright 2017-2021 CADDi Inc. All rights reserved. 24 学習データに無い形状をクエリの場合は、学習データに含まれるもの

まとめ Copyright 2017-2021 CADDi Inc. All rights reserved. 25 CLIP-Forge:

We are hiring!! 「キャディ　エンジニア採用」で検索！

結果 Copyright 2017-2021 CADDi Inc. All rights reserved. 27 多視点のレンダリング画像の数を増やすと生成の品

Experiments: Model Architectures Copyright 2017-2021 CADDi Inc. All rights reserved.

Experiments: Model Architectures Copyright 2017-2021 CADDi Inc. All rights reserved.

Autodesk AI Lab の 論文紹介 3D何でも勉強会 #1 / Introducti...

Autodesk AI Lab の 論文紹介 3D何でも勉強会 #1 / Introduction Autodesk Papers

More Decks by haradai1262

Other Decks in Technology

Featured

Transcript

Autodesk AI Lab の論文紹介 3D何でも勉強会 #1 / Introducti...

Autodesk AI Lab の論文紹介 3D何でも勉強会 #1 / Introduction Autodesk Papers