Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Elix, 出版記念ウェビナー, ざっくりわかる書籍のダイジェスト

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
Avatar for Elix Elix
March 23, 2023

Elix, 出版記念ウェビナー, ざっくりわかる書籍のダイジェスト

Avatar for Elix

Elix

March 23, 2023
Tweet

More Decks by Elix

Other Decks in Research

Transcript

  1. Copyright © Elix, Inc. All rights reserved. 書籍の内容について、有機化合物を扱ったものを中⼼にダイジェスト 形式でお話しします。 •

    具体的には、五つのケーススタディについて概説します。 • 詳細については、書籍をご覧いただければ幸いです。 今⽇話すこと 2
  2. Copyright © Elix, Inc. All rights reserved. • ケモインフォマティクス・マテリアルズインフォマティクスに関する和書が増えてきた ◦

    『詳解 マテリアルズインフォマティクス』では、化学分野における深層学習⼿法について解説 • 深層学習はかなり柔軟にモデル化できる⼀⽅、モデル設計時に考えるべきことも多い ➔ データの処理・モデルの構築⽅法などで困ることも多いはず ◦ 参考になりそうな書籍は、(残念ながら) 今のところあまり多くはない 執筆の背景 3
  3. Copyright © Elix, Inc. All rights reserved. 深層学習を化学分野で利⽤するためのガイドとして、 九つのケーススタディをとおして深層学習活⽤のポイントを解説 •

    ここ数年で⾏われた⽐較的新しい研究で、なるべく具体的な対象を 扱っているもの (ベンチマークデータセットでの評価で終わっていない ようなもの) を中⼼にケーススタディを選択 • 『詳解 マテリアルズインフォマティクス』の5, 6章 (応⽤例) の内容を、 操作⼿順・⼿法についてより詳しく説明したような感じ ◦ 論⽂の他にも著者実装なども参考にしながら、できる限りクリアに 解説することを試みた • 脚注にも、関連情報や考え⽅のポイントなどを記載 本書の特⻑ 4
  4. Copyright © Elix, Inc. All rights reserved. モデル構築に利⽤する化学データの形式やデータベースについて解説 • 基本的には『詳解

    マテリアルズインフォマティクス』の1章を再掲 ◦ ただし、データベースの情報など、⼀部修正した箇所もある • 有機化合物のデータ形式: ◦ SMILES⽂字列: ⼀定の⽂法に従う⽂字列で分⼦構造を表現 ◦ MOLファイル: 分⼦に含まれる各原⼦の座標が記録されている • 有機化合物のデータベース: ◦ PubChem ◦ ChEMBL ◦ ZINC ◦ GDB 序章 深層学習に必要なデータの準備 5 MOLファイル SMILES⽂字列 C[C@@H](C(=O)O)N
  5. Copyright © Elix, Inc. All rights reserved. 予測モデル: 与えられたサンプルに対して、ラベル (物性・活性値や所属グループ)

    を予測するモデル 有機化合物に対する予測モデルを扱った三つのケーススタディをとおして、 データの処理・ネットワーク構造の設計・訓練⽅法の設定などについて解説 扱った主な内容 • マルチタスク学習 (1.1節) • 物理情報付きニューラルネットワーク (1.2節) • 予測の不確実性を考慮したネットワーク (1.3節) 『詳解 マテリアルズインフォマティクス』であまり触れなかった⼿法を中⼼に扱った 1章 有機化合物に対する予測モデル 6
  6. Copyright © Elix, Inc. All rights reserved. • マルチタスク学習: ⼀つのネットワークで複数の予測対象を

    予測できるように、ネットワークを訓練する⽅法 ◦ 複数の予測対象を同⼀のネットワークで予測することで、 予測対象に対する知識を共有できる ▪ 転移学習の⼀種とみなせる ▪ 「物性値とその計算値を予測する」など、予測対象に関連性 があるとうまく予測しやすい ◦ サンプルに対する複数の予測対象を同時に予測したい場合に便利 • ポリマーに対するモノマーと、ポリマーの物性の計算値・実測値の データセットを利⽤して、全結合層からなるモデルを構築 ◦ モノマーの特徴だけでなく、ポリマーとしての構造の特徴を 捉えられるような記述⼦ベクトルを設計して⼊⼒ 1.1 マルチタスク学習を利⽤したポリマーの物性予測 7
  7. Copyright © Elix, Inc. All rights reserved. • 物理情報付きNN: 対象が満たすべき物理法則に関する知識を

    考慮したネットワーク ◦ ネットワーク構造や損失関数に物理法則に関する知識を 組み込んで訓練する ◦ ネットワークから得られる特徴ベクトルも、物理法則に対して 整合性が取れるようなものになると期待される ◦ 従う物理法則が同じなら、外挿サンプルでもうまく予測 しやすいはず ➔ 転移学習に利⽤しやすいと考えられる • 化学においては、量⼦化学的な特徴量が物性に寄与することが多い ➔ これらに関連する物理法則を有効活⽤できるとよい 1.2 物理情報付きNNの転移学習を利⽤したポリマーの物性予測 8
  8. Copyright © Elix, Inc. All rights reserved. • Hohenberg‒Kohnの第1定理に基づいた物理的な制約を課した ネットワークを利⽤

    ◦ ネットワークの内部で、サンプルの分⼦軌道に対応する 特徴ベクトルを作成 ➔ この特徴ベクトルが実際の分⼦軌道を模倣できるように、 HK定理に基づいた制約を課す • QM9データセット (約13万件のサンプル) での事前訓練後、 特徴抽出部分のパラメータを凍結して転移 ➔ ポリマーの物性 (原⼦化エネルギー・バンドギャップなど) を 予測 1.2 物理情報付きNNの転移学習を利⽤したポリマーの物性予測 9
  9. Copyright © Elix, Inc. All rights reserved. • PFAS: ⼀つ以上の

    ‒CF3 /‒CF2 ‒ 基を持つ有機化合物 ◦ フォトレジスト・難燃剤など、多岐にわたって利⽤される ◦ 毒性も懸念されている • 毒性 (LD50 ) の予測モデルに望まれること ◦ ⾼い予測性能を持つ ◦ 出⼒される予測結果を信頼するか否かを適切に判断できる • こうしたモデルを作成するのは難しい: ◦ 毒性発現のメカニズムは複雑 ◦ PFASに対する毒性データの量が⼗分でない ◦ データに測定誤差が含まれうる 1.3 予測の不確実性を考慮したPFASの毒性予測 10
  10. Copyright © Elix, Inc. All rights reserved. • 予測が不確実と判断されたものについては「わかりません」と⾔える モデル

    (SelectiveNet) を利⽤ ➔ 出⼒される予測値についてはある程度信頼できるものになる ◦ 予測を棄権したPFAS化合物に対してのみ別途実験するようにする ➔ 必要な実験回数を減らせる • ⼀般の毒性データセットでSelectiveNetを訓練した結果を転移し、 PFAS類似化合物の毒性データを利⽤してネットワークの⼀部を 再訓練 ➔ PFAS関連データが少ない問題に対応 1.3 予測の不確実性を考慮したPFASの毒性予測 11
  11. Copyright © Elix, Inc. All rights reserved. 無機材料に対する予測モデルを扱った三つのケーススタディをとおして、 データの処理・ネットワーク構造の設計・訓練⽅法の設定などについて解説 扱った主な内容

    • 3次元結晶構造からの合成可能性予測 (2.1節) • 材料の局所構造からの安定性予測 (2.2節) • 合⾦のガラス形成能予測のためのマルチタスク学習 (2.3節) この発表では内容紹介を割愛するが、有機化合物に対する予測などに有⽤なテクニックも多いので、 ぜひ⽬を通していただきたい (特に、データの前処理・ネットワーク構造の設計⽅法は、参考になる点があると思われる) 2章 無機材料に対する予測モデル 12
  12. Copyright © Elix, Inc. All rights reserved. ⽣成モデル: データの⽣成過程を表現したモデル ⽣成モデルを利⽤した三つのケーススタディをとおして、医薬品の設計や材料の探索に⽣成モデルが

    どのように活⽤されているかを解説 扱った主な内容 • フラグメントのSMILES⽂字列を⽣成するSeq2Seqモデル (3.1節) • 敵対的オートエンコーダの半教師あり学習 (3.2節) • 変分オートエンコーダによる組成の合成可能性評価 (3.3節) この発表では、3.3節の紹介は省略する 3章 ⽣成モデルを活⽤した材料・医薬品の設計 13
  13. Copyright © Elix, Inc. All rights reserved. • リードジェネレーション: 標的分⼦に対するヒット化合物から

    新薬になりそうなリード化合物へと構造を修正 ◦ ヒット化合物の分⼦構造をある程度保持しつつ、化合物の 機能性を⾼めるように構造修正 • DDR1に対するヒット化合物から、構造⽣成器を⽤いて リードジェネレーション ◦ スキャフォールドのSMILES⽂字列を⼊⼒すると、⼊⼒に 結合する側鎖が⽣成されるようなSeq2Seqモデル ◦ DDR・FGFR阻害剤の分⼦構造から、スキャフォールドと 側鎖の組を⽣成したうえで訓練 ▪ スキャフォールド・側鎖として妥当になるように 適当な条件が課されている 3.1 フラグメント構造⽣成器を利⽤したリードジェネレーション 14
  14. Copyright © Elix, Inc. All rights reserved. • 興味のある化合物データは少量しか⼿に⼊らないことが多い ◦

    実験に時間・コストがかかる ◦ 多数のサンプルに対するシミュレーションもなかなか⼤変 ◦ ⽂献調査で集められるデータにも限りがある • ⼩規模なデータセットでの訓練では過剰適合しやすくなり、 期待する性能が得られないことがある ➔ (ラベルなしの) ⼀般の⼤規模な分⼦構造データセットを 活⽤できると良い • 半教師あり学習: ラベルありデータセットとラベルなし データセットを同時に利⽤して訓練する⽅法 3.2 半教師あり学習を利⽤した分⼦構造⽣成 15
  15. Copyright © Elix, Inc. All rights reserved. • 敵対的オートエンコーダ (AAE)

    を利⽤した、ADRA2A阻害剤の SMILES⽂字列の⽣成 ◦ 敵対的⽣成ネットワーク (GAN) とオートエンコーダを 組み合わせたモデル ◦ 分⼦構造を潜在変数という多次元ベクトルで表現 ➔ 潜在変数から分⼦構造を⽣成できるようになっている ◦ 潜在変数が従う確率分布を⾃由に設定できる ➔ ラベルありデータセットとラベルなしデータセットの分布が 重なるように設定し、ラベルありデータセットの存在する 領域からサンプリング 3.2 半教師あり学習を利⽤した分⼦構造⽣成 16
  16. Copyright © Elix, Inc. All rights reserved. • 『事例でわかる マテリアルズインフォマティクス』は、深層学習を化学分野で利⽤するためのガイド

    として、九つのケーススタディをとおして深層学習活⽤のポイントを解説した本 • この発表では、有機化合物に関する五つのケーススタディについて、内容を概説した ◦ データの処理やネットワーク構造の設計のアイディアは、扱うデータが有機・無機のいずれでも 活⽤できるものが多い 『事例でわかる マテリアルズインフォマティクス』に記した内容が、何らかの形で皆さんの役に⽴てますと 幸いです。 まとめ 17