Slide 1

Slide 1 text

有機材料を 専門とする 実験研究者 による Matlantisの 活用事例 東京工業大学 物質理工学院 助教 畠山 歓 Midjourney 東工大Official 1

Slide 2

Slide 2 text

経歴 • 早稲田 • 高校~大学院(博士) +教員5年 • 東工大 • 2023年4月~ • 助教 • 専門 • 高分子化学: 合成、計測、デバイス化など • データ科学: マテリアルズ・インフォマティクス 2

Slide 3

Slide 3 text

3 日経エレクトロニクス2020年11月号

Slide 4

Slide 4 text

Web情報 4 https://twitter.com/kanhatakeyama

Slide 5

Slide 5 text

本日の内容 • 背景 • GPT-4が変えつつあるかもしれない化学研究 • 研究活動の再定義 • Matlantisを用いるに至るモチベーション • 本論 • Matlantisと機械学習を活用した屈折率の予測 • その他の用途開拓 5

Slide 6

Slide 6 text

GPT-4は賢い そこそこの推論能力 自然言語とプログラム言語の仲介 再帰的な呼び出しによる自律動作 6

Slide 7

Slide 7 text

7 詳細はこちら https://www.docswell.com/s/KanHatakeyama/KGX1QM-GPT

Slide 8

Slide 8 text

論文のRebuttal Letterの執筆が得意 8 レビュアーに対して、低姿勢で回答してくれる点がありがたい

Slide 9

Slide 9 text

9 GPT-4による 化合物の研究 (via Matlantis)

Slide 10

Slide 10 text

10 GPT-4による 化合物の研究 (via Matlantis)

Slide 11

Slide 11 text

化学の推論ができる 11

Slide 12

Slide 12 text

化学の推論ができる One-shot learning & explainable AI & 不確定性の提示 12

Slide 13

Slide 13 text

GPT-4 による アーム制御 指示: 容器AからBへ3 mL、液体を移動 すごい点: アームの上げ下げが必要なことを推察、3回ループが必要なことを推察。 つまり、GPT-4は自然言語を理解して、正しい推論を行っている

Slide 14

Slide 14 text

未来像 小型ロボットに よる化学実験 白雪姫に出てくる「七人の小人」 をロボット化し、酷使させれば良い! 14 Amazonで売っているような 安価なロボット・IoT・マイコン機器を活用

Slide 15

Slide 15 text

手持ちの文献データへのアクセス 15 技術的な中身 ・文献データのEmbedding vectorの事前計算 ・PromptのEmbed. vec.の計算 ・文献データと類似度の高いvecの文献を promptに載せた上で質問

Slide 16

Slide 16 text

自動化した方が良い作業の例 • 実験 • 得られたデータの分析 • 結果の予測と条件の提案 • 実験そのもの(by robot) • 情報処理 • 既知データの収集・解析・課題の抽出 • 報告書の作成と要約 16 GPT-1000くらいまでいけば、 分子現象も正確にシミュレーション してくれる可能性はあるが、、

Slide 17

Slide 17 text

Black box予測は気持ち悪い 17 物性 Kan Hatakeyama-Sato, Recent advances and challenges in experiment- oriented polymer informatics, Polymer Journal (2022).

Slide 18

Slide 18 text

ポリマーの 屈折率予測 high refractive index polymer lens [関連発表] 2022年 ケモインフォ討論会 2B04 「Matlantisを用いた有機分子の記述子生成 と機械学習による実測物性の予測」 (早大理工) ○畠山 歓, 小柳津 研一 18

Slide 19

Slide 19 text

ベースライン: Random forestによる予測 19 物性 X = 分子の低次元データ (molecular descriptorなど) y = 屈折率

Slide 20

Slide 20 text

説明変数1/3 比較的まじめに計算した物性パラメータ Matlantis density: Matlantisで計算した物質密度(相互作用込み) RDKit density: RDKitで計算した密度(真空1分子系) vol: RDKitで計算した真空1分子の体積 alpha_0.0: Gaussianで計算した分極率 (∞ nm) alpha_0.0694: Gaussianで計算した分極率 (657 nm) alpha_0.0773: Gaussianで計算した分極率 (589 nm) ※ Gaussian: PM7で構造最適化後、B3LYP/6-31G(d,p)でメイン計算 20

Slide 21

Slide 21 text

説明変数2/3 RDKitで計算した分子記述子105種(意味が比較的明瞭なもの) MolWt, HeavyAtomMolWt, ExactMolWt, NumValenceElectrons, NumRadicalElectrons, MaxPartialCharge, MinPartialCharge, MaxAbsPartialCharge, MinAbsPartialCharge, TPSA, FractionCSP3, HeavyAtomCount, NHOHCount, NOCount, NumAliphaticCarbocycles, NumAliphaticHeterocycles, NumAliphaticRings, NumAromaticCarbocycles, NumAromaticHeterocycles, NumAromaticRings, NumHAcceptors, NumHDonors, NumHeteroatoms, NumRotatableBonds, NumSaturatedCarbocycles, NumSaturatedHeterocycles, NumSaturatedRings, RingCount, MolLogP, MolMR, fr_Al_COO, fr_Al_OH, fr_Al_OH_noTert, fr_ArN, fr_Ar_COO, fr_Ar_N, fr_Ar_NH, fr_Ar_OH, fr_COO, fr_COO2, fr_C_O, fr_C_O_noCOO, fr_C_S, fr_HOCCN, fr_Imine, fr_NH0, fr_NH1, fr_NH2, fr_N_O, fr_Ndealkylation1, fr_Ndealkylation2, fr_Nhpyrrole, fr_SH, fr_aldehyde, fr_alkyl_carbamate, fr_alkyl_halide, fr_allylic_oxid, fr_amide, fr_amidine, fr_aniline, fr_aryl_methyl, fr_azide, fr_azo, fr_barbitur, fr_benzene, fr_benzodiazepine, fr_bicyclic, fr_diazo, fr_dihydropyridine, fr_epoxide, fr_ester, fr_ether, fr_furan, fr_guanido, fr_halogen, fr_hdrzine, fr_hdrzone, fr_imidazole, fr_imide, fr_isocyan, fr_isothiocyan, fr_ketone, fr_ketone_Topliss, fr_lactam, fr_lactone, fr_methoxy, fr_morpholine, fr_nitrile, fr_nitro, fr_nitro_arom, fr_nitro_arom_nonortho, fr_nitroso, fr_oxazole, fr_oxime, fr_para_hydroxylation, fr_phenol, fr_phenol_noOrthoHbond, fr_phos_acid, fr_phos_ester, fr_piperdine, fr_piperzine, fr_priamide, fr_prisulfonamd, fr_pyridine, fr_quatN, fr_sulfide, fr_sulfonamd, fr_sulfone, fr_term_acetylene, fr_tetrazole, fr_thiazole, fr_thiocyan, fr_thiophene, fr_unbrch_alkane, fr_urea, 21

Slide 22

Slide 22 text

説明変数3/3 Group Contribution法で推定した分子物性 ※ 一種の機械学習。分子構造をもとに物性を線形モデルで予測。既存 の学習モデルを使用 ACS Omega 2017, 2, 12, 8682–8688 https://pubs.acs.org/doi/full/10.1021/acsomega.7b01464 BoilingPoint, MeltingPoint, CriticalTemp, CriticalPress, CriticalVolume, EnthalpyForm, GibbsEnergy, HeatCapacity, EnthalpyVap, EnthalpyFus, LiquidVisco, CrystalSolub_1, CrystalSolub_2, AmorphSolub_1, AmorphSolub_2, 22

Slide 23

Slide 23 text

ベースライン Random Forest 23 • 精度がイマイチ • 誤差要因も不明なブラックボック ス予測は使いにくい (占星術)

Slide 24

Slide 24 text

屈折率𝒏の予測戦略 𝒏𝟐 − 𝟏 𝒏𝟐 + 𝟐 = 𝟒𝝅 𝟑 ∙ 𝜶 𝑽 24

Slide 25

Slide 25 text

分子体積𝑉の計算 • Matlantis (v. 3.0.0)を使用 • セル内に分子のユニット構造を充填 • 周期的境界条件 • 20分子 • ランダムに配置 • 分子構造の最適化 • 分子内の応力を下げるように構造変形 • ソルバー: LBFGSLineSearch • 0 Kに急速冷凍するイメージ • (構造ではなく)密度が収束したら計算終了 25

Slide 26

Slide 26 text

体積計算の主な近似1 • 高分子鎖の計算コストが高すぎるため、低分子で近似 26

Slide 27

Slide 27 text

体積計算の主な近似2 • Matlantisの誤差 • DFTの精度 • PBE汎関数 • PAWポテンシャル (VASP5.4.4) • d3補正 • 学習モデルの誤差 • それぞれ、どの程度の誤差かは詳細不明 • 芳香環やハロゲンが多い場合は、誤差が大きい印象 27

Slide 28

Slide 28 text

• PMMA • 実測密度 1.18 g/cm3 • セル内の分子数を変えながら密度計算 (N =10) セルサイズの最適化1 28

Slide 29

Slide 29 text

• PPO • 実測密度 1.21―1.36 g/cm3 • セル内の分子数を変えながら密度計算 (N =10) セルサイズの最適化2 29

Slide 30

Slide 30 text

密度 (∝1/V)計算の結果 30 Matlantis (20分子系、N = 10) 真空1分子 (RDKitで分子体積を計算) 相関係数: 0.93 相関係数: 0.92 RDKitでもそれなりに精度が出るが、Matlantisの方がわずかに高性能

Slide 31

Slide 31 text

オリゴマー計算も可 (検討中) 31 • 5量体 • 2x2x2個を充填 • 結晶に近い構造 • NPT計算

Slide 32

Slide 32 text

分子分極αの計算 32 相関係数 0.992 相関係数 0.996 Gaussian RDKit (経験則) RDKitでもそれなりに精度が出るが、系統誤差あり(単位系の違い?)

Slide 33

Slide 33 text

機械学習の併用 33

Slide 34

Slide 34 text

予測式の中身 • 屈折率𝑛の理論式(ローレンツ・ローレンツ式) • 𝑛2−1 𝑛2+2 = 4𝜋 3 ∙ 𝛼pred 𝑉pred • 𝛼pred = σ 𝑐𝑖 𝑥𝑖 (𝑐𝑖 = const.) • 𝑉pred = σ 𝑏𝑖 𝑥𝑖 (𝑑𝑖 = const.) • 𝑥𝑖: 説明変数 • シミュレーションで計算した密度や分極率など • 分子記述子 • 推定物性 34

Slide 35

Slide 35 text

密度の回帰式 35 係数 備考 RDKit density 0.119867 RDKitの密度 Matlantis density 0.090046 Matlantisの密度 JR_CriticalPress 0.018928 推定される臨界密度 rdkit_fr_NH0 0.007591 NHの数 rdkit_fr_alkyl_halide 0.004204 アルキルハライドの数 JR_AmorphSolub_1 0.002374 推定される溶解度 rdkit_fr_nitrile 0.000203 ニトリルの数

Slide 36

Slide 36 text

分極率の回帰式 36 係数 rdkit_MolMR 7.891426 vol 6.267404 alpha_0.0 5.371888 rdkit_ExactMolWt 3.58794 rdkit_MolWt 3.571914 rdkit_HeavyAtomMolWt 3.062773 rdkit_fr_halogen -2.892719 alpha_0.0694 2.563431 alpha_0.0773 2.529426 JR_GibbsEnergy 2.111205 rdkit_NumValenceElect rons 2.019513 rdkit_HeavyAtomCount 1.959138 … …

Slide 37

Slide 37 text

屈折率の計算 37 • 屈折率𝑛の理論式(ローレンツ・ローレンツ式) • 𝑛2−1 𝑛2+2 = 4𝜋 3 ∙ 𝛼pred 𝑉pred • 𝛼pred = σ 𝑐𝑖 𝑥𝑖 (𝑐𝑖 = const.) • 𝑉pred = σ 𝑏𝑖 𝑥𝑖 (𝑑𝑖 = const.) MSE 0.0017 分子構造から直接予測(RFR) MSE 0.0070 This work

Slide 38

Slide 38 text

38 検討中: シンボリック回帰による回帰式の自動設計 得られた関数 MolWt:分子量,density:密度 CirticalTemp:臨界温度/EnthalpyVap:蒸発エンタルピー 近似とシミュレータを含み統合的な回帰 分子量で補間する関係 相関の強い臨界温度と蒸発エンタルピーを抽出 𝜌: 密度 𝛼: 分極率 図 屈折率の予測 近似式で計算 複雑度13 誤差3.86E-2 筑波大 五十嵐康彦先生、山根さんが解析

Slide 39

Slide 39 text

ドメイン知識の埋め込みをAIで代行? 研究に超詳しいGPT 回帰・分類モデル 化学・材料・計算データ 予測 予測モデルへのドメイン知識の反映 (これまでは人間が実施。しかし知識やノウハウに制約・属人性) 39

Slide 40

Slide 40 text

Matlantisの 用途開拓 40

Slide 41

Slide 41 text

ポリマーの 熱伝導 41

Slide 42

Slide 42 text

イオン液体 の拡散係数 • NPT • プレアニーリング&実計算 • 10分子 • 353 K • Time step: 1.5 fs • Total: 300 ps • 採用値 • 3回の独立な計算後の中央値 • 所要時間約1日/分子

Slide 43

Slide 43 text

その他 試してみた(い)機能 • 粘度 • 有機分子の溶媒和 • 柔粘性結晶の集合状態 • シリコン界面での高分子の吸着状態 • 高分子の相分離(に関連する分子)状態の推定 など 43

Slide 44

Slide 44 text

主な計算手法との比較 (※畠山主観) 関係者のための注釈: Matlantis: システム上は1万原子以上も計算可能。ただし凝縮系ではneighbor数 の制限がボトルネック。Pythonスキルは必須。 DFT-MD: 専用のwork stationが必要。 DFTB: DFTB+な どは使い易いが、デフォルトでは元素種に制限。 MD・粗視化モデル: 力場計算が素人には障壁 44

Slide 45

Slide 45 text

まとめ 45