Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Autodesk AI Lab の 論文紹介 3D何でも勉強会 #1 / Introducti...

Autodesk AI Lab の 論文紹介 3D何でも勉強会 #1 / Introduction Autodesk Papers

haradai1262

August 29, 2022
Tweet

More Decks by haradai1262

Other Decks in Technology

Transcript

  1. Autodesk AI Lab の 論文紹介 〜 主に CLIP-Forge: Towards Zero-Shot

    Text-to-Shape Generation, CVPR2022 〜 3D何でも勉強会 #1 竹原大智
  2. 自己紹介 Copyright 2017-2021 CADDi Inc. All rights reserved. 1 •

    竹原大智 | @myaunraitau • キャディ株式会社 AI Lab • 3Dが会社で盛り上がってるので気 になる (2Dで精一杯ですが) 図面による類似画像検索を開発しています チーム紹介資料(CADDi AI Lab Description)より
  3. 発表について Copyright 2017-2021 CADDi Inc. All rights reserved. 2 目次

    • Autodesk について • Autodesk AI Lab (Autodesk Research) の論文 • 論文紹介: CLIP-Forge: Towards Zero-Shot Text-to-Shape Generation, CVPR2022 Autodesk製品を実際によく使ってる人のコメント聞きたいです Twitter #3d_nandemo
  4. Autodesk AI Lab (Autodesk Research) Copyright 2017-2021 CADDi Inc. All

    rights reserved. 5 CAD (Computer-Aided Design, コンピュータ支援設計) 技術などの研究成果を公開している ※ 図表は元論文より引用 近年のコンピュータビジョンや機械学習分野でのPublications CLIP-Forge: Towards Zero-Shot Text-to-Shape Generation, CVPR2022 JoinABLe: Learning Bottom-up Assembly of Parametric CAD Joints, CVPR2022 BRepNet: A Topological Message Passing System for Solid Models, CVPR2021 RobustPointSet: A Dataset for Benchmarking Robustness of Point Cloud Classifiers, ICLR2021 workshop Fusion 360 Gallery: A Dataset and Environment for Programmatic CAD Construction from Human Design Sequences, SIGGRAPH 2021 Building-GAN: Graph-Conditioned Architectural Volumetric Design Generation, ICCV 2021 UV-Net: Learning from Boundary Representations, CVPR2021 UVStyle-Net: Unsupervised Few-shot Learning of 3D Style Similarity Measure for B-Reps, ICCV2021 Learning to Simulate and Design for Structural Engineering, ICML2020 PointMask: Towards Interpretable and Bias-Resilient Point Cloud Processing, ICML2020
  5. Autodesk AI Lab (Autodesk Research) Copyright 2017-2021 CADDi Inc. All

    rights reserved. 6 CAD (Computer-Aided Design, コンピュータ支援設計) 技術などの研究成果を公開している JoinABLe: Learning Bottom-up Assembly of Parametric CAD Joints, CVPR2022 BRepNet: A Topological Message Passing System for Solid Models, CVPR2021 Fusion 360 Gallery: A Dataset and Environment for Programmatic CAD Construction from Human Design Sequences, SIGGRAPH 2021 ※ 図表は元論文より引用 • Fusion 360 の CADデータセットを公開 ◦ Assembly Dataset ◦ Reconstruction Dataset ◦ Segmentation Dataset JoinABLe では複数の 部品を組み合わせたア センブリにジョイントを予 測する手法を提案
  6. Autodesk AI Lab (Autodesk Research) Copyright 2017-2021 CADDi Inc. All

    rights reserved. 7 CAD (Computer-Aided Design, コンピュータ支援設計) 技術などの研究成果を公開している RobustPointSet: A Dataset for Benchmarking Robustness of Point Cloud Classifiers, ICLR2021 Workshop PointMask: Towards Interpretable and Bias-Resilient Point Cloud Processing, ICML2020 ※ 図表は元論文より引用 • 点群データ処理に関する研究 • データセットも公開している RobustPointSet は点群分類モデルのロバスト性を測るため に、複数の変換を適用したデータセット
  7. Autodesk AI Lab (Autodesk Research) Copyright 2017-2021 CADDi Inc. All

    rights reserved. 8 CAD (Computer-Aided Design, コンピュータ支援設計) 技術などの研究成果を公開している Building-GAN: Graph-Conditioned Architectural Volumetric Design Generation, ICCV 2021 Learning to Simulate and Design for Structural Engineering, ICML2020 ※ 図表は元論文より引用 • 建築における設計の自動化、最適化、シミュ レーションに関する研究 Building-GAN は program graph, design space を条件 とした volumetric design を生成する
  8. どんな論文? Copyright 2017-2021 CADDi Inc. All rights reserved. 10 CLIP-Forge:

    Towards Zero-Shot Text-to-Shape Generation, CVPR2022, Autodesk AI Lab • Text-to-Shape Generation, テキストから3次元形状を生成する手法を提案 • Zero-Shot, 学習にテキスト-3次元形状のペアをラベルを必要としない • ラベル付けされていない形状データセット • CLIPなどの事前学習済み画像-テキストモデルを活用 ※ 図表は元論文より引用
  9. 背景 Copyright 2017-2021 CADDi Inc. All rights reserved. 11 •

    テキストから形状の生成モデルは、創造的な設 計や製造、アニメーションやゲームにおける新し いスマートな機能を可能にする重要な技術 • DALLE, CLIPなどのテキストからの画像生成で の有望な結果 • 2次元での成功が3次元でも通用するのか?テ キストと形状のペアは画像のように大量に取得 することが困難 これイラストレーターさんが書い たんじゃないの...? デザイン革命! #Text2Image #DALLE #midjourney #StableDiffusion Next ! #Text2Shape
  10. 手法の全体像 Copyright 2017-2021 CADDi Inc. All rights reserved. 12 •

    事前学習済みCLIP (Text Encoder, Image Encoder) ← このモデルは学習しない • 学習 • Stage 1: Shape Autoencoder • Stage 2: Conditional Normalizing Flow • 推論
  11. 関連研究: CLIP Copyright 2017-2021 CADDi Inc. All rights reserved. 13

    Learning Transferable Visual Models From Natural Language Supervision, CVPR2021 (OpenAI) • Text Encoder と Image Encoder を対照学習 • 4億のテキスト-画像ペアを学習 • 紹介論文では、CLIP の Image Encoder, Text Encoder 自体は学習しない ※ 図表は元論文より引用
  12. 学習 - Stage 1: Shape Autoencoder Copyright 2017-2021 CADDi Inc.

    All rights reserved. 14 Encoder - e = f_encoder(V) + ε - V … Voxel, 32^3 - ε … ガウスノイズを付加 - f_encoder (Voxel encoder) … 3D convolution + Batch normalization
  13. 学習 - Stage 1: Shape Autoencoder Copyright 2017-2021 CADDi Inc.

    All rights reserved. 15 Decoder - Occupancy Networks [36]-based approch - O = f_decoder(e + P) - P … point, (x, y, z) - f_decoder (Implicit Decoder) - 予測したO(Occupancy, {0, 1})からMSE(Loss)を 算出し学習する
  14. 学習 - Stage 2: Conditional Normalizing Flow Copyright 2017-2021 CADDi

    Inc. All rights reserved. 16 Voxel Encoder により得られた e と対応する多視点のレ ンダリング画像により、Flow Model (Flow-based generative model) を学習 - 多視点のレンダリング画像を CLIP Image Encoder に入力し c を得る - c (CLIP features) と e (Shape features) - Conditional Normalizing Flow - 5層 RealNVP network - RealNVP[12] …real-valued non-volume preserving transformations - 逆変換可能な変換を学習 RealNVP[12]論文より
  15. 推論 Copyright 2017-2021 CADDi Inc. All rights reserved. 17 Stage

    2 で学習したFlow Modelの逆変換 - c が Text Encoder から得られた CLIP features である (CLIP は Image ↔ Text で互換可能) Stage 1 で学習したDecoderにより3次元 形状 (Voxel) を取得
  16. 実験 Copyright 2017-2021 CADDi Inc. All rights reserved. 18 Dataset

    - ShapeNet dataset - 13 rigid object classes - about 30000 samples - 評価に用いるテキストクエリはWordNet taxonomyに基づきShapeNet datasetのクラス の下位語および形状に関する属性 (e.g. a round chair, a square table) により手動で234 クエリ用意 クラス毎のサンプル数 • airplane,aeroplane,plane - Num: 2832 • sofa,couch,lounge - Num: 2222 • cabinet - Num: 1101 • telephone,phone,telephone set - Num: 737 • vessel,watercraft - Num: 1359 • rifle - Num: 1661 • table - Num: 5958 • bench - Num: 1272 • display,video display - Num: 767 • lamp - Num: 1624 • car,auto,automobile,machine,motorcar - Num: 5248 • speaker - Num: 1134 • chair - Num: 4746
  17. 結果 Copyright 2017-2021 CADDi Inc. All rights reserved. 20 Car,

    Boat, Chair のサブカテゴリに当たるような概 念も形状が得られている 一般的なオブジェクトの名称の入力に対して適切 な結果が得られている 定性評価
  18. 結果 Copyright 2017-2021 CADDi Inc. All rights reserved. 21 Tableに様々な形状に関する属性を加えたクエリ

    でも適切な形状が得られている - circular, rectangular, square, thick, thin Car, Boat, Chair のサブカテゴリに当たるような概 念も形状が得られている 一般的なオブジェクトの名称の入力に対して適切 な結果が得られている 定性評価
  19. 結果 Copyright 2017-2021 CADDi Inc. All rights reserved. 22 点群データであっても良好な結果が得ら

    れた - Shape AutoEncoder の構成は変更して いる - Encoder: PointNet - Decoder: FoldingNet
  20. 結果 Copyright 2017-2021 CADDi Inc. All rights reserved. 24 学習データに無い形状をクエリの場合は、学習データに含まれるもの

    から形状を作成しようとする - 分布外のサンプルを一般化するために本手法を拡張したい
  21. まとめ Copyright 2017-2021 CADDi Inc. All rights reserved. 25 CLIP-Forge:

    Towards Zero-Shot Text-to-Shape Generation, CVPR2022, Autodesk AI Lab • Text-to-Shape Generation, テキストから3次元形状を生成する手法を提案 • Zero-Shot, 学習にテキスト-3次元形状のペアをラベルを必要としない • ラベル付けされていない形状データセット • CLIPなどの事前学習済み画像-テキストモデルを活用 ※ 図表は元論文より引用 感想 • Flow Modelの導入により、モダリティを超えて事前学習済み CLIPの資産を 活用するアイデアは面白いと思った • CLIPを応用に活用する系の他研究も知りたい • 他のデータセットでどの程度できるのか?データセットのカテゴリをより増や しても良好な結果は得られるのか?辺りが気になった