Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文紹介 / GeoDiff: A Geometric Diffusion Model for Molecular Conformation Generation

論文紹介 / GeoDiff: A Geometric Diffusion Model for Molecular Conformation Generation

第10回 全日本コンピュータビジョン勉強会 生成モデル縛り論文読み会 にて、
"GeoDiff: A Geometric Diffusion Model for Molecular Conformation Generation" [Xu et al, ICLR 2022]
のご紹介をさせていただきました。

◆イベント詳細 URL:
https://kantocv.connpass.com/event/243586/
◆発表日:
2022/05/15

2ad725754b7ea0ff9e0abb9b7017fc07?s=128

Yusuke Mori

June 12, 2022
Tweet

More Decks by Yusuke Mori

Other Decks in Research

Transcript

  1. GeoDiff: A Geometric Diffusion Model for Molecular Conformation Generation shade-tree

    Twitter: @shade_tree2112 Website: https://www.mori.ai [PDF of the paper] [Code] 第10回 全⽇本コンピュータビジョン勉強会 「⽣成モデル縛り」論⽂読み会 2022/05/15 1
  2. 前⼝上 2022/05/15 2

  3. お前は誰だ – 発表者の⽴場・視点 • shade-tree • 博⼠(情報理⼯学) • 研究分野の主なキーワード: Creative

    Support, Natural Language Processing, Storytelling, Emotions • ⾃然⾔語処理を中⼼に、創作⽀援への応⽤などを研究 • 2021/10 - 某社勤務、リサーチャー • エンタテインメントAI • 2021/11 - 某⼤ 某研究室、⾮常勤研究員(兼業) • ⾃然⾔語処理、マルチモーダル 2022/05/15 3
  4. • 初聴講は2016年(?) • 当時:博⼠課程学⽣ • しばらくは聴講のみ shade-tree’s CV勉強会 attendance (1)

    2022/05/15 4 … 発表してみなよ! 前向きに検討できるよう 善処します
  5. shade-tree’s CV勉強会 attendance (2) • 初の発表 • 2017年のCVPR 読み会で発表 2022/05/15

    5 A Hierarchical Approach for Generating Descriptive Image Paragraphs 2017-08-19 Å41kCVï}k CVPRÛ,k‰î Presenter : shade-tree 8/19/2017 1 %53A21  $6 • Fine-grained $i¿Ąl • ˆŠ&ÎxÒ$_Àv&ŽĈ • CVï}kÒ%'²&) ©Ā$y.+&áä!'e&) 6©ÕÒ%¹ø + 8/19/2017 19 °jďì&9PZF 「CV勉強会」ですが、 私は⾔語メインで話をします (ひらきなおり)
  6. shade-tree’s CV勉強会 attendance (3) 2022/05/15 6 • 少し間を置いて、全⽇本CV勉強会の 第六、七回で発表 •

    「CVはよく分からないのですが……」 お前は誰だ – 発表者の⽴場・視点(1) • shade-tree • 某⼤学院の博⼠課程学⽣ • 研究分野のキーワード: Natural Language Processing, Natural Language Generation, Machine Learning, Storytelling, Emotions • V&L と Computer Vision、どこに⾏った?! • CV 専⾨家が多数いる環境で NLP やりながら、「CV はよく分からない のですが」と素⼈質問(原義)する⼈ • 特に Story Generation や Story Understanding について、 研究だったりしなかったりする活動 2021/7/31 5 An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale shade-tree Twitter: @shade_tree2112 Website: https://forest1988.github.io Paper’s page at Open Review: https://openreview.net/forum?id=YicbFdNTTy 第六回 全⽇本コンピュータビジョン勉強会 Transformer論⽂読み会 My Website 2021/4/18 1 Transitional Adaptation of Pretrained Models for Visual Storytelling shade-tree Twitter: @shade_tree2112 Website: https://forest1988.github.io [PDF of the paper] [Code of the paper] 第七回 全⽇本コンピュータビジョン勉強会 CVPR2021読み会(後編) My Website 2021/7/31 1
  7. shade-tree’s CV勉強会 attendance (4) • 全⽇本CV勉強会 第9回 ICCV2021論⽂読み会 • 「やっぱり⾔語の話をしよう」

    2022/05/15 7
  8. 満を持して(?)、 ⾔語の話をしません! なお、コンピュータビジョンの話もしません そして、今回…… 2022/05/15 8

  9. 今回ご紹介する論⽂ 2022/05/15 9

  10. 本編 個別の注記がない限り、図版は、紹介論⽂と、著者らの先⾏研究(後述) から引⽤しています。 2022/05/15 10

  11. どんな論⽂? • Keywords: molecular conformation generation, deep generative models, diffusion

    probabilistic models • Molecular conformation の予測は、化学情報学や創薬の分野に おいて重要な課題。このタスクにおいて、以下の2点が重要: • 間接的にではなく直接的に予測を⾏うこと • roto-translational invariance であること • これらを満たす新規⼿法 GeoDiff を提案 • Denoising diffusion models を基礎とする • 既存のベンチマークで SOTA • 従来は扱えなかった、より⼤きな分⼦でも扱うことができる 2022/05/15 11
  12. 論⽂選定理由(経緯) (1) • はやりの Diffusion Model なるものを…… • (Preprocess) •

    Text-to-Image の Diffusion Model を読もう! →「これCVPR 2022(to appear)だ……CVPR 2022 読み会(があったら)で!」 • 4⽉に開催された ICLR 2022 の論⽂をざっくり検索してみた 2022/05/15 12 https://openreview.net/forum?id=PzcvxEMzvQC
  13. 論⽂選定理由(経緯) (2) • Reviewer による評価を⾒てみたところ、⼤変勉強になりそう! • Strengths: • High technical

    novelty: first generative model for molecular conformation generation based on a diffusion framework • Very clearly written paper. • Impressive empirical results with state-of-the-art results on GEOM-Drugs and GEOM-QM9 datasets. • Weaknesses: • Most of the weaknesses reported by the reviewers seem to have been addressed in the rebuttal. • The idea of the work is highly novel. The authors propose the first generative model for molecular conformation generation based on a diffusion framework. This paper brings together recent ideas and methods (e.g. diffusion, SE(3) equivariance) to the established task of molecular conformation generation with impressive empirical results. All the reviewers agree on acceptance with high scores. 2022/05/15 13 (強調は発表者によるもの)
  14. キーワード • 著者らの書いている論⽂キーワード(再掲) • Keywords: molecular conformation generation, deep generative

    models, diffusion probabilistic models • それ以外にも、 • SE(3) equivariance 2022/05/15 14
  15. 著者らの previous work • “Learning Gradient Fields for Molecular Conformation

    Generation” (Shi et al., 2021) • ConfGF を提案 • ICML 2021 Long talk • https://github.com/DeepGraphLearning/ConfGF • 既にスライドが公開されており、紹介論⽂とのつながりも深いため、 本発表の資料作成の参考とさせていただきました • https://drive.google.com/file/d/1wA5Qu98dYPmEdoGt1QQcYfoUJG3Ndnec/view 2022/05/15 15
  16. まず、Molecular Conformation とは? • (機械学習で扱えるように)分⼦を表現する形式の⼀種 • a more intrinsic and

    informative representation for molecules is the 3D geometry, also known as conformation, where atoms are represented as their Cartesian coordinates. 2022/05/15 16
  17. Conformation Prediction • 著者らが主に取り組んでいるタスクは、以下のようなもの 2022/05/15 17 2D のグラフ表現から、3D の構造を推定(⽣成)する

  18. Notations & Problem Definition (1) • Notations: • n 個の原⼦からなる分⼦を、(無向)グラフ

    で表現 • が頂点で、原⼦を表現 • が辺で、原⼦間の繋がりを表現 • それぞれ、何の元素か、結合の種類は、などの情報を持つ • Conformation は以下のような⾏列で表現される(n 個の原⼦の 3 次元 空間上での位置) 2022/05/15 18
  19. Notations & Problem Definition (2) 2022/05/15 19

  20. SE(3) equivariance とは? • SE(3) • これだけで検索すると、某スマートフォンが出てくる • Special Euclidean

    group: 特殊ユークリッド群 • N-次元空間における剛体を動かす「剛体運動(rigid motions) 」 • 回転、平⾏移動が含まれる • In this work, we consider the SE(3) group, i.e., the group of rotation, translation in 3D space. • 論⽂中には、”roto-translational” という表現も頻出 • the roto-translational invariance, (e.g. atomic distances does not change when rotating the molecule) • (私のように)あまりその分野に明るくない読者にとっても分かりやすいよう、 ⽤語の説明が丁寧になされているなという印象 2022/05/15 20
  21. 提案⼿法: GeoDiff 1. 3D diffusion の定式化 2. どのように をパラメタライズして、roto-translational invariant

    を達成するか 3. どのように平⾏移動と回転に対し不変な最適化を実現するか 4. どのようにサンプリングを⾏うか 2022/05/15 21
  22. 3D diffusion • 近年の Denoising diffusion models (Sohl-Dickstein et al.,

    2015; Ho et al., 2020) の進展に基づく • : Ground Truth conformations • : Sequence of latent variables • Diffusion probabilistic model (Sohl-Dickstein et al., 2015) は以下 の 2 つのプロセスで説明される • The forward diffusion process • The reverse generative process 2022/05/15 22
  23. Diffusion Model 概略 • Forward Diffusion • 複雑なデータの分布を、単純で 扱いやすい分布に変換 •

    左図の (a) が⼊⼒、(b) が変換 されたもの • Generation • 上記の逆変換を学習する 2022/05/15 23 (Sohl-Dickstein et al., 2015)
  24. (Forward) Diffusion Process • Physical insight に基づき、Diffusion process をマルコフ連鎖と して定式化

    • Forward process は fixed (diffusion model の特性) • このプロセスには、特定の不変性の制約を設けていない 2022/05/15 24
  25. Reverse Process • 逆変換を学習する • Condition として Graph を⽤いる 2022/05/15

    25
  26. 不変性を持った Reverse Generative Process • 回転や並⾏移動に対する不変性 2022/05/15 26

  27. Denoising Diffusion • (Ho et al., 2020) の denoising diffusion

    framework を基に実装 • Parameterization • Denoising score との matching を⾏う 2022/05/15 27 (Ho et al., 2020)
  28. 学習するもの • Zero center of mass (CoM) (Köhler et al.,

    2020) を参考に • 同様に CoM-free なシステム • (Ho et al., 2020) を参考に、以下のようにパラメタライズ • は訓練可能なパラメータθを持つニューラルネットワーク • Conformation を decorrupt するのに必要なノイズ推定を学習する 2022/05/15 28
  29. 問題の帰結 • 問題は を roto-translational equivariant に構築することに帰結 • equivariant convolutional

    layer, named graph field network (GFN) 2022/05/15 29
  30. ⽬的関数 • ⼀般的な Variational Lower Bound (ELBO) を考える • 式

    (4) のパラメータを⽤いる場合、(Ho et al., 2020) を参考に、 さらにシンプルにできる 2022/05/15 30
  31. 2 種の⽬的関数 2022/05/15 31

  32. Chain-rule • Chain-rule については (Shi et al., 2021) に詳細 •

    Gradient の拡散に関する⼯夫 2022/05/15 32
  33. Sampling アルゴリズム 2022/05/15 33

  34. 実験 • ⼆つの標準的なベンチマークで、ベースラインと⽐較 • Conformation Generation • Property Prediction •

    データセット • GEOM-QM9 (Ramakrishnan et al., 2014) • GEOM-Drugs (Axelrod & Gomez-Bombarelli, 2020) • 前者は⼩さな分⼦を、後者は中ぐらいのサイズの有機化合物を扱っている 2022/05/15 34
  35. ベースライン • Models with highest reported performance: • CVGAE (Mansimov

    et al., 2019) • GRAPHDG (Simm & Hernandez-Lobato, 2020) • CGCF (Xu et al., 2021a) • ConfVAE (Xu et al., 2021b) • ConfGF (Shi et al., 2021) • Classic (established) • RDKIT (Riniker & Landrum, 2015) • arguably the most popular open-source software for conformation generation. 2022/05/15 35
  36. 提案⼿法とその表記 • GEODIFF can be trained with two types of

    modified ELBO, named alignment and chain-rule approaches. We denote models learned by these two objectives as GEODIFF-A and GEODIFF-C respectively. 2022/05/15 36
  37. 実験結果(Conformation Generation) (1) 2022/05/15 37

  38. 実験結果(Conformation Generation) (2) 2022/05/15 38

  39. ⽣成結果例 2022/05/15 39

  40. 考察(Conformation Generation) • 提案⼿法が既存 SOTA を outperform • 特に分⼦が⼤きな場合 •

    提案⼿法の C と A では、C のほうが少し良い • Chain-rule のほうが良い optimization procedure になっている • GeoDiff は局所的にも⼤域的にもうまく構造を取れている 2022/05/15 40
  41. 実験結果と考察(Property Prediction) • Property は geometric structure と深く関わっているので、 GeoDiff はこちらでも良い性能

    • 指標は Mean Absolute Error (MAE) 2022/05/15 41
  42. 結論 • Molecular Conformation のための確率的⽣成モデルである GeoDiff を提案 • Denoising Diffusion

    を幾何学的表現と組み合わせた • 回転や平⾏移動に対する不変性を実現 • 扱いやすい⽬的関数を導出 • 実験の結果、既存の SOTA に対して優位性を確認 2022/05/15 42
  43. Update いただいたご質問・コメント等を踏まえたアップデート 2022/05/15 43

  44. グラフ構造と三次元的分⼦構造の対応 • ⼀意に決まるのか、様々な形を取りえるのか? • 鏡像変換で移るものは同じとみなすのか? • 三次元的な物理制約は⽤いるのか? 2022/05/15 44 グラフから三次元形状を作る際に、

    不⾜する情報を補うための「仮想の Edge」が、 あらかじめグラフに含められている
  45. 詳細は、著者らの先⾏研究で確認 • GitHub リポジトリの README (下図)によると、本紹介論⽂ で⽤いているデータセットは先⾏研究と同様 • 同様に GEOM

    を使い、同じ前処理を⾏っている 2022/05/15 45
  46. 詳細は、著者らの先⾏研究で確認 • 先⾏研究(ConfGF)には、以下のように記載されている • As the bonded edges in a

    molecule are not sufficient to characterize a conformation (bonds are rotatable), we extend the original molecular graph by adding auxiliary edges, i.e., virtual bonds, between atoms that are 2 or 3 hops away from each other, which is a widely-used technique in previous work (Simm & Hernandez-Lobato, 2020; Xu et al., 2021) for reducing the degrees of freedom in 3D coordinates. • Edge 情報だけでは 3D 化が難しいところ(2D に対する 3D の ⾃由度に起因する)については、補助的な仮想 edge を⾜すこ とで、形状を決められるようにしている。 2022/05/15 46
  47. 2D → 3D の⼿法がなぜ必要であるのか • 2D graph のメリット・デメリットについては、David et al.

    [2020] が詳述している • メリットに、「部分グラフ」を扱えることがあると述べられている • 本紹介論⽂では、「創薬」が応⽤先の例として挙げられている • 何らかの性質(を持った化合物)を狙って作り出したい、というよう なニーズに応えられる技術 • 2D で考え、それを 3D 化する。これをより良い精度で⾏うことに価値 2022/05/15 47 “Molecular representations in AI-driven drug discovery: a review and practical guide” [David et al., 2020]