Slide 1

Slide 1 text

1 Matlantisに込められた
 技術・思想
 高本 聡 Preferred Networks リサーチャー Matlantis User Conference 2022/12/03

Slide 2

Slide 2 text

2 PFN Confidential 高本 聡 略歴: 東京大学工学部機械情報工学科卒業 同大学院機械工学専攻で修士号、博士号を取得 MIT Postdoctoral Fellow →東京大学 助教 →PFN リサーチャー 研究テーマ: 機械学習に基づく原子シミュレーション 興味: 深層学習技術と物理シミュレーションの融合 自己紹介 Twitter: @tkmtSo

Slide 3

Slide 3 text

3 PFN Confidential ● 大学学部時代: 機械学習 ○ もともとは制御への興味、高度な制御としての強化学習に関心 ○ 時系列解析の機械学習手法に関する研究 ■ 当時はSVMが多分野でスタンダード ○ アプリケーションから考える必要性を実感 ○ 「世界を記述する」のだから世界に対する模型が必要 →物理シミュレーションとの融合を志向 ● 大学院: 物理シミュレーション ○ 適用先をいろいろと模索 ■ 剛体系、材料変形、流体シミュレーション、波、粒子法… 昔話

Slide 4

Slide 4 text

4 PFN Confidential ● 陰解法と陽解法 ○ 陰解法: 全体のつりあい式を陰的な式で表現する ■ 逆行列や収束計算で解く ○ 陽解法: つりあいを解かず、一方向に向かって解く ● 陰解法は複雑だが比較的正確とされ、数値計算も 安定している ○ それにもかかわらず後年になってから 陽解法が再発見されるケースが多々ある ○ 計算機の発達で対象のスケールが巨大になるに 従い、陽解法が優位になるタイミングがある? ■ 現在陰解法が主流で、スケールに困って いる問題は何だろう? 物理シミュレーションとムーアの法則 https://people.eecs.berkeley.edu/~cecilia77/ graphics/a3/ From https://en.wikipedia.org/wiki/File:Moore%27s_Law_Transistor_Count_1970-2020.png by Hannah Ritchie and Max Roser under CC-BY 4.0

Slide 5

Slide 5 text

5 PFN Confidential ● 精度と速度の両立 ○ 精度と速度が向上するほど、コンピュータで 表現可能な世界の範囲が広がっていく ● 分子動力学の分野では、量子化学計算と簡易な モデル(古典ポテンシャル)を組み合わせた 研究開発が古くから行われてきた ○ Lennard-Jonesポテンシャルの発表は1924年 ○ 近年になって巨大スケールの計算が現実的に ■ 今後拡大する計算資源をどう使うかに 自由度が生まれる ● 研究者が様々な工夫をこらして個別の材料、現象と向き合っていた ○ 「良い」簡易モデルを作ることが要になることが多い ○ 機械学習との相性の良さ 原子シミュレーションと機械学習 S. Takamoto, et al., "Charge-transfer interatomic potential for investigation of the thermal-oxidation growth process of silicon", Journal of Applied Physics 120, 165109 (2016).

Slide 6

Slide 6 text

6 PFN Confidential ● 初めの衝撃: ILSVRC 2012 ○ 周囲ではコンテスト結果発表の当日から 結果に賑わっていた ● 当時は静観していた ○ 当初、畳み込み演算と画像特徴との関係性が 注目されていたので、画像に特化した技術 なのかどうかという観点で注目 ● 物理シミュレーションとの統一的解釈のはじまり ○ 物理シミュレーションの数値積分手法とResNetの類似性の指摘 ○ 統一的な解釈の台頭 (例: Neural ODE) ● NNを「微分がしやすい実装をもつ関数」とみなす視点 ○ 既存の関数を一種のNNとしてみなす解釈が広がる ○ 後年、この観点で様々な物理モデルが微分可能に 深層学習の到来 https://medium.com/coinmonks/paper-revi ew-of-alexnet-caffenet-winner-in-ilsvrc-20 12-image-classification-b93598314160

Slide 7

Slide 7 text

7 PFN Confidential ● 数学的には等価だが、NNとしてみることで新しい示唆を得る ○ 2015-2016年頃に試してみたことのひとつ 古典ポテンシャルをNNとみなして書き直す 古典ポテンシャル(Tersoff)の式 等価なNNとして 図等は博士論文 https://www.fml.t.u-tokyo.ac.jp/img/graduation-thesis/2016d_takamoto.pdf から

Slide 8

Slide 8 text

8 PFN Confidential ● NNとしてみたときに不自然な箇所に手を加える ○ 変更点を元のポテンシャルの表現に戻し、「エネルギーの安定な結合を 原子が選ぶ」という物理的な解釈を与える ○ 解釈にもとづいて活性化関数の形を決定 ● 結合が複雑に変化する原子シミュレーション が可能に NNとしての解釈を持つ物理シミュレーション So Takamoto, et al., "Atomistic mechanism of graphene growth on SiC substrate: Large-scale molecular dynamics simulation based on a new charge-transfer bond-order type potential", Physical Review B 97, 125411 (2018).

Slide 9

Slide 9 text

9 PFN Confidential ● 真の関係をエミュレートしたモデルを作るという観点では類似の枠組み ○ アプローチや道具立てに差異がみられる 機械学習と物理シミュレーションの粗視化モデル ● 補完的な関係にあるとみなせる ● 双方の「いいとこ取り」ができるはず 粗視化物理モデル 機械学習モデル 組み立て方 元のモデルから出発して近似を していく 学習しやすいコンポーネントを組 み合わせていく 注目される性質 物理法則、不変性 滑らかさ、勾配の振る舞い パラメータの性質 解釈性が良く選ばれたもの 表現力と過学習のバランス 望まれるもの 高い表現力、汎用性 対象の帰納バイアス

Slide 10

Slide 10 text

10 PFN Confidential ● TeaNet: PFPの前身になったニューラルネットワークポテンシャル ○ MIT在籍時に開発 ● TeaNetの思想 ○ ニューラルネットワークとして振る舞いの良いアーキテクチャ ■ 比較的計算コストの大きな畳み込み、勾配に気をつけた演算 ○ 各種古典ポテンシャルの関数を分析し、それらのポテンシャルを包含した 表現力を持たせる ■ 背景電子密度(EAM)やボンドオーダー(Tersoff)など ■ 不変性 ○ 線形オーダーの計算量 ■ 局所相互作用 ○ 精度重視、5年後に実用的な計算が可能になるレベルを目指す TeaNet: Tensor Atom Embedding Network

Slide 11

Slide 11 text

11 PFN Confidential ● TeaNet: テンソル量をグラフに流すニューラルネットワーク ○ 2階のテンソルによって不変性を保ちながら高次の幾何特徴を扱う ○ 古典ポテンシャル(EAM, Tersoff)の計算フローをGNNとして翻訳 ○ 層間のパラメータの共有により深いネットワークで性能向上 ○ 活性化関数を再設計 TeaNetアーキテクチャ: Overview TeaNet: Universal neural network interatomic potential inspired by iterative electronic relaxations, https://doi.org/10.1016/j.commatsci.2022.111280

Slide 12

Slide 12 text

12 PFN Confidential TeaNetアーキテクチャ: テンソル量と不変性 ● 不変性の確保 ○ 回転や平行移動に対しての不変性を持たせつつ原子の位置関係を表現 する必要がある ○ 特定の演算は同変性を保持する ■ ベクトルの線形和、内積、テンソル積 ○ 方針: NNの内部の値にベクトル量を持たせて、認められた演算のみでグ ラフ畳み込み演算を構築する ■ グラフを伝って情報が遠方まで流れる ● ベクトルだけでは足りない情報 ○ ベクトル情報は加算により「消える」かもしれない ○ 角度情報の代替にはならない

Slide 13

Slide 13 text

13 PFN Confidential TeaNetアーキテクチャ: テンソル量と不変性 ● 高階テンソルの導入 ○ テンソルは種々の方程式を 表現する道具として頻出 ● 古典ポテンシャル(EAM, Tersoff)の計算 フローをGNNとして翻訳する過程で発見 ○ もしGraph convがcos(θ)で 書かれていたら、内積で書ける ○ もしgraph convがcos(θ)の2次式で 書かれていたら、2階のテンソルで書ける Tensor product Flobenius Nrom

Slide 14

Slide 14 text

14 PFN Confidential ● 高い表現力をもつ原子間ポテンシャルの実証 ○ 単一の学習済みモデルで複数の現象を同時に扱えることがわかった ■ 元素: HからArまで ■ 再現したもの: 水、共有結合結晶、有機分子、etc. ● 深層学習と原子間ポテンシャルの融合の試み ○ 原子間ポテンシャルの表現力を包含する深層学習モデル ○ 物理的な対応を持つコンポーネント TeaNetで実現できたもの

Slide 15

Slide 15 text

15 PFN Confidential ● 基盤モデル: 大量かつ多様なデータで学習された汎用的なモデル ○ 自然言語モデルで台頭、有名に ○ スケーリング則: データ・計算資源・モデルのサイズを 増やすほど性能が向上していく性質 ○ 単一用途ではなく様々なタスク に適用可能 深層学習の発展: 基盤モデルの登場 Year Model # Parameters 2018 BERT=Large 355M 2019 GPT2 1.5B 2019 T5 11B 2020 GPT-3 175B 2022 PaLM 540B Image from "Scaling Laws for Neural Language Models”, https://arxiv.org/abs/2001.08361

Slide 16

Slide 16 text

16 PFN Confidential ● 現実世界のうち、人間の直感が働く領域はごく僅か ○ 人間の直感が働かない領域は、これまで丁寧な物理シミュレーションに頼るしか なかった ○ 直感(=コストの低い近似モデル)を備えたシミュレータが作れれば、今まで人間の 想像力で上限が決まっていた世界に対する解像度が大幅に上がるのではないか ● 原子シミュレーション ○ 原子の動きを理解した汎用的なモデルで未知の物質の振る舞いを予言できるよう になれば、次の世界をつくる道具になる ○ 現実世界を計算可能にする 深層学習の発展: 人間の直感を超える領域

Slide 17

Slide 17 text

17 PFN Confidential ● 「現実世界に存在するすべての原子構造を シミュレーション可能にする原子間ポテンシャル」を作る ○ 量子化学計算による進展 ■ DFTにより、任意の構造に適用可能 かつ化学精度に準ずる精度を達成 ■ O(N3)、非常に強い計算量の制約 ○ 古典ポテンシャル: DFTをバイパスする試み ■ 汎用性と引き換えに速度を獲得 ■ 研究対象毎にポテンシャルを作成 ● 計算量と汎用性の壁を打ち破る技術を 人類が獲得可能な時期が迫っているのでは ○ 100年越しの悲願 PFP: 汎用原子間ポテンシャル Matlantis Cases. https://matlantis.com/ja/cases

Slide 18

Slide 18 text

18 PFN Confidential ● アーキテクチャの設計はTeaNetの思想を継承 ○ 高次の幾何的な特徴を扱うGNN ○ 線形オーダーの計算量、局所相互作用 ○ 2-3年後の実用を目指す ● 振る舞いの良いポテンシャルとして ○ 頑健 ■ エネルギー的に不安定な構造をターゲットに含める ■ 破綻させない (古典ポテンシャルはしばしば凝集や爆発等の破綻した振 る舞いを見せてしまう) ○ エネルギー曲面の整合性 ■ カットオフ距離でも連続/エネルギーと力を整合させる ■ 無限階微分可能 ■ 回転不変性/平行移動不変性 ■ 示量性 PFPの設計思想: モデル編

Slide 19

Slide 19 text

19 PFN Confidential ● 使いやすいポテンシャルとして ○ 計算のためのパラメータはできるだけ露出させない ■ DFTの計算パラメータの設定等 ○ 入力は原子の種類と座標のみとする ■ 結合や原子電荷を入力にとらない ○ ポテンシャルの前処理に関する情報を露出させない ■ 周期境界/自由境界に対応 ■ カットオフ距離とセルサイズの制約を持たせない ○ 任意の入力に対して応答不能にさせない ■ 例: すべての原子を同じ座標に置くと… ○ ステートレス ○ (力に基づく)構造最適化計算が収束するレベルの数値精度 ■ 実装は部分的に混合精度演算 PFPの設計思想: インタフェース編

Slide 20

Slide 20 text

20 PFN Confidential ● データセットが機械学習モデルの性能の上限を定める ● 物理シミュレーションの場合、データセットは与えられるものではなく、自分で 生成することが可能 ○ 計算資源が強みになる 大規模データセットの生成 クラスター 主な計算資源 MN-1 (運用終了) [GPU] P100 x 8: 128台 MN-1b (運用終了) [GPU] V100 x 8: 64台 MN-2a [GPU] V100 x 8: 128台 [CPU] Xeon 36 core: 32台 MN-2b [GPU] A100 x 6: 42台 [GPU] A30 x 6: 42台 MN-3a [MN-core] MN-core x 4: 48台

Slide 21

Slide 21 text

21 PFN Confidential ● 既知の材料データベースに留まることへの課題 ○ 不安定な構造に対する情報の欠落、構造の多様性の確保 ● 「(学習中の)機械学習モデル自身に探索してもらう」手法 ○ 人手ではなく機械学習モデルが自己学習する ○ ゲームAIとのアナロジー PFPデータセット PFP # Samples GPU days v0.0.0 3 x 10^6 6 x 10^4 v1.0.0 10 x 10^6 10 x 10^4 v2.0.0 17 x 10^6 15 x 10^4 v3.0.0 22 x 10^6 42 x 10^4 * * 収束しなかった等の理由で学習に使用していないデータ の計算時間を含む Simulation Add record Training Self play Add structure Training PFP dataset Game AI

Slide 22

Slide 22 text

22 PFN Confidential ● 原子構造のための深層学習モデルが多数登場 ○ グラフNN→ケモインフォマティクス→NNP の流れ 深層学習x原子シミュレーションの分野の発展 入力情報 グラフ 座標 適用先 主に分子系を想定 結晶系にも応用 NFP: Neural Fingerprint GGNN: Gated Graph Neural Network RelGCN: Relational Graph Convolutional Network MPNN: Message Passing Neural Network GIN: Graph Isomorphism Neural Network GWM: Graph Warp Module 2015 SchNet: A continuous-filter confolutional neural network MEGNet: Universal MatEerials Graph Newtork CGCNN: Crystal Graph Convolutional Neural Network DimeNet: Directional Message passing Cormorant: Covariant Molecular Neural Networks 2020 発表時期

Slide 23

Slide 23 text

23 PFN Confidential ● Open Catalyst Project ○ 触媒の材料探索プロジェクト (2020) ● 1億以上のDFT最適化構造を含む表面吸着構造データセットを構築 ● データセットの多様性が高く、高精度なモデルの構築がチャレンジングな目標 であることを示唆 深層学習x原子シミュレーションの分野の発展 Open Catalyst Project Dataset Paper, https://arxiv.org/pdf/2010.09990.pdf

Slide 24

Slide 24 text

24 PFN Confidential ● 素朴な機械学習モデル開発では回帰スコア向上に注意が向くことが多い ○ スコアと適用事例との乖離に気がつく機会を 確保することに課題がある ● PFPの開発サイクル ○ 作成したポテンシャルで様々なシミュレーションを行い、うまくいかない事 例を把握する ○ 原因を究明し、NNPアーキテクチャの修正や新しい性質のデータセットの 取得につなげる ○ 開発が進むほどデータセットが高度化/アーキテクチャが複雑化し、難易 度が上がっていく (プロジェクトの知見になる) PFPプロジェクトの独自性 右図: OC20の学習済みモデルで吸着構造を推論し た事例。想定構造(左)から離れた崩れた構造 (右)でエ ネルギーがより安定になるケースがあった。 S. Takamoto, et al., Machine Learning and the Physical Sciences workshop, NeurIPS 2022.

Slide 25

Slide 25 text

25 PFN Confidential ● 「内挿は良いが、外挿は苦手」問題 ○ 性能がデータの量に制約 ○ 現象の普遍的な性質を理解しきれていない ● データサイエンスとクラシックな科学の関係 ○ 「少ない仮定から多くの事実を予言できるものが良い理論」 ■ 量子力学→量子統計、原子の構造、物性理論… ■ 相対性理論→光の曲がり、時間の遅れ、重力波… ○ データに基づく手法が向き合う課題 ■ パラメータを増やせばどこまでも複雑にできてしまう ● どのようにして機械学習の圧倒的な表現力と「良い理論」を両立させられる か? マテリアルズインフォマティクスとの関係

Slide 26

Slide 26 text

26 PFN Confidential データ科学と物理シミュレーション World Element Motion Trajectory Phenomena 支配方程式: 複雑な関係を機械学 習の表現力でエミュレートする 運動方程式: 多様な現象を単一の 方程式で表現する 物理的意味の明快な量 (ここではエネルギー) 本来の関係式: 計算機によって教師データを 取得することが可能 支配方程式を通すことで、機械学習の表 現力と「良い理論」を両立

Slide 27

Slide 27 text

27 PFN Confidential ● シミュレーションで材料探索を行うサービス ○ 材料探索のツールとしてPFPを見直す ● 材料開発には現象解明のために様々な レベルのモデル化・研究が伴う ○ 試行錯誤を高速化するための ツール群を用意する Matlantis World Element Motion Trajectory Phenomena 高性能計算機・深層学習で解 決可能な領域

Slide 28

Slide 28 text

28 PFN Confidential ● シミュレーション環境と深層学習モデルの動作環境を分離 ○ 原子間ポテンシャルは基本的に状態非依存で、推論速度に対して 動作に必要な内部状態が小さいことを利用したもの ○ 深層学習にひもづく複雑な設定(GPU等の計算資源の設定と利用方法、 並列化やバッチ化、効率化)のユーザー環境からの分離 ● Jupyter Notebook環境 ○ インタラクティブな計算環境 ○ 過去の計算やユーザー間での資産の再利用 ○ 再現性の確保 Matlantis

Slide 29

Slide 29 text

29 PFN Confidential ● 精度に関する野望 ○ NNPの精度・汎用性は今後数年をかけて引き続き向上 ○ 精度向上に従い他の要素の重要度が上がっていくと考えられる ● 速度/スケールに関する野望 ○ ~数倍: 演算器の効率的な利用、演算器の性能向上 ○ ~10倍: NNPアーキテクチャの変更、軽量モデル ○ ~100倍: 古典ポテンシャルの活用、併用 ○ ~104-106倍: (深層学習つき)メタダイナミクス/レアイベント解析 原子シミュレーションの展望 DFTの誤差 ポテンシャルの誤差 スケールによる誤差 DFTの誤差 スケールによる誤差

Slide 30

Slide 30 text

30 PFN Confidential ● 深層学習を鍵としてシミュレーションによる材料探索が広がりつつある ● NNPによる原子シミュレーションの支配方程式を手にしたことは、 材料の世界の地図を手に入れたようなもの ○ 一方で、探索可能な空間は極めて巨大 ○ 地図の取得だけでは材料探索の「自動運転」にはまだ道半ば ● 材料の世界を俯瞰するツールに育てていく ○ より少ない作業で幅広いシミュレーションを可能にするための ツールの整備 ○ エネルギー曲面を超えた機械学習の展開 原子シミュレーションによる材料探索の未来

Slide 31

Slide 31 text

Making the real world computable