Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Elix, 出版記念ウェビナー, ざっくりわかる書籍のダイジェスト
Search
Elix
March 23, 2023
Research
190
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
Elix, 出版記念ウェビナー, ざっくりわかる書籍のダイジェスト
Elix
March 23, 2023
More Decks by Elix
See All by Elix
Elix,第42回メディシナルケミストリーシンポジウム,ランチョンセミナー,標的タンパク分解誘導薬開発へのAI活⽤:新たなMolecular Glue Degrader創出に向けて
elix
0
95
Elix,CBI2025,スポンサードセッション,タンパク-タンパク複合体情報を活用した構造生成:TRIM21の新たなリガンド探索に向けて
elix
0
42
Elix, CBI2025,ランチョンセミナー,標的タンパク分解誘導薬開発へのAI活用:新たなMolecular Glue Degrader創出に向けて
elix
0
91
kMoL: An Open-source Machine and Federated Learning Library for Drug Discovery
elix
0
54
SynthFormer: A Customizable Framework for Virtual Synthesis-Based Molecule Generation, Elix, CBI2024
elix
0
180
Optimization of Generator Reward Function Settings for Non-covalent KRAS Inhibitors, Elix, CBI2024
elix
0
320
Open Molecule Generator: A Multipurpose Molecule LLM, Elix, CBI2024
elix
0
180
Elix, CBI2024, ランチョンセミナー, 創薬における連合学習の応用
elix
0
160
Elix, 第1回 AIDD Wednesday, ⼩規模データセットを⽤いた 予測モデルの訓練について
elix
0
750
Other Decks in Research
See All in Research
National high-resolution cropland classification of Japan with agricultural census information and multi-temporal multi-modality datasets
satai
3
280
The mathematics of transformers
gpeyre
0
310
業界横断 副業コンプライアンス調査 三者(副業者・本業先・発注者)におけるトラブル認知ギャップの構造分析
fkske
0
1.3k
人間中心の意思決定支援AI
yukinobaba
PRO
4
2.5k
正規分布と最適化について
koide3
1
240
ScoreMatchingRiesz for Automatic Debiased Machine Learning and Policy Path Estimation with an Application to Japanese Monetary Policy Evaluation
masakat0
0
290
AGI4OPT:自然言語から数理最適化を導くエ ージェントスキル Translating Human Intent into Mathematical Optimization
mickey_kubo
0
130
存立危機事態の再検討
jimboken
0
290
Can We Teach Logical Reasoning to LLMs? – An Approach Using Synthetic Corpora (AAAI 2026 bridge keynote)
morishtr
1
250
2026 東京科学大 情報通信系 研究室紹介 (すずかけ台)
icttitech
0
3.7k
NLP colloquium: AI Safety Survey
kanekomasahiro
0
550
量子コンピュータの紹介
oqtopus
0
320
Featured
See All Featured
Building an army of robots
kneath
306
46k
Making the Leap to Tech Lead
cromwellryan
135
9.9k
Navigating Weather and Climate Data
rabernat
0
210
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
49
10k
Highjacked: Video Game Concept Design
rkendrick25
PRO
1
380
Data-driven link building: lessons from a $708K investment (BrightonSEO talk)
szymonslowik
1
1.1k
Jess Joyce - The Pitfalls of Following Frameworks
techseoconnect
PRO
1
160
Bootstrapping a Software Product
garrettdimon
PRO
307
120k
How to make the Groovebox
asonas
2
2.2k
The Language of Interfaces
destraynor
162
27k
DBのスキルで生き残る技術 - AI時代におけるテーブル設計の勘所
soudai
PRO
65
55k
Why Mistakes Are the Best Teachers: Turning Failure into a Pathway for Growth
auna
0
150
Transcript
Copyright © Elix, Inc. All rights reserved. ざっくりわかる 書籍のダイジェスト 創薬との関連を中⼼に
2023/03/23 株式会社Elix リサーチエンジニア 井上 貴央
Copyright © Elix, Inc. All rights reserved. 書籍の内容について、有機化合物を扱ったものを中⼼にダイジェスト 形式でお話しします。 •
具体的には、五つのケーススタディについて概説します。 • 詳細については、書籍をご覧いただければ幸いです。 今⽇話すこと 2
Copyright © Elix, Inc. All rights reserved. • ケモインフォマティクス・マテリアルズインフォマティクスに関する和書が増えてきた ◦
『詳解 マテリアルズインフォマティクス』では、化学分野における深層学習⼿法について解説 • 深層学習はかなり柔軟にモデル化できる⼀⽅、モデル設計時に考えるべきことも多い ➔ データの処理・モデルの構築⽅法などで困ることも多いはず ◦ 参考になりそうな書籍は、(残念ながら) 今のところあまり多くはない 執筆の背景 3
Copyright © Elix, Inc. All rights reserved. 深層学習を化学分野で利⽤するためのガイドとして、 九つのケーススタディをとおして深層学習活⽤のポイントを解説 •
ここ数年で⾏われた⽐較的新しい研究で、なるべく具体的な対象を 扱っているもの (ベンチマークデータセットでの評価で終わっていない ようなもの) を中⼼にケーススタディを選択 • 『詳解 マテリアルズインフォマティクス』の5, 6章 (応⽤例) の内容を、 操作⼿順・⼿法についてより詳しく説明したような感じ ◦ 論⽂の他にも著者実装なども参考にしながら、できる限りクリアに 解説することを試みた • 脚注にも、関連情報や考え⽅のポイントなどを記載 本書の特⻑ 4
Copyright © Elix, Inc. All rights reserved. モデル構築に利⽤する化学データの形式やデータベースについて解説 • 基本的には『詳解
マテリアルズインフォマティクス』の1章を再掲 ◦ ただし、データベースの情報など、⼀部修正した箇所もある • 有機化合物のデータ形式: ◦ SMILES⽂字列: ⼀定の⽂法に従う⽂字列で分⼦構造を表現 ◦ MOLファイル: 分⼦に含まれる各原⼦の座標が記録されている • 有機化合物のデータベース: ◦ PubChem ◦ ChEMBL ◦ ZINC ◦ GDB 序章 深層学習に必要なデータの準備 5 MOLファイル SMILES⽂字列 C[C@@H](C(=O)O)N
Copyright © Elix, Inc. All rights reserved. 予測モデル: 与えられたサンプルに対して、ラベル (物性・活性値や所属グループ)
を予測するモデル 有機化合物に対する予測モデルを扱った三つのケーススタディをとおして、 データの処理・ネットワーク構造の設計・訓練⽅法の設定などについて解説 扱った主な内容 • マルチタスク学習 (1.1節) • 物理情報付きニューラルネットワーク (1.2節) • 予測の不確実性を考慮したネットワーク (1.3節) 『詳解 マテリアルズインフォマティクス』であまり触れなかった⼿法を中⼼に扱った 1章 有機化合物に対する予測モデル 6
Copyright © Elix, Inc. All rights reserved. • マルチタスク学習: ⼀つのネットワークで複数の予測対象を
予測できるように、ネットワークを訓練する⽅法 ◦ 複数の予測対象を同⼀のネットワークで予測することで、 予測対象に対する知識を共有できる ▪ 転移学習の⼀種とみなせる ▪ 「物性値とその計算値を予測する」など、予測対象に関連性 があるとうまく予測しやすい ◦ サンプルに対する複数の予測対象を同時に予測したい場合に便利 • ポリマーに対するモノマーと、ポリマーの物性の計算値・実測値の データセットを利⽤して、全結合層からなるモデルを構築 ◦ モノマーの特徴だけでなく、ポリマーとしての構造の特徴を 捉えられるような記述⼦ベクトルを設計して⼊⼒ 1.1 マルチタスク学習を利⽤したポリマーの物性予測 7
Copyright © Elix, Inc. All rights reserved. • 物理情報付きNN: 対象が満たすべき物理法則に関する知識を
考慮したネットワーク ◦ ネットワーク構造や損失関数に物理法則に関する知識を 組み込んで訓練する ◦ ネットワークから得られる特徴ベクトルも、物理法則に対して 整合性が取れるようなものになると期待される ◦ 従う物理法則が同じなら、外挿サンプルでもうまく予測 しやすいはず ➔ 転移学習に利⽤しやすいと考えられる • 化学においては、量⼦化学的な特徴量が物性に寄与することが多い ➔ これらに関連する物理法則を有効活⽤できるとよい 1.2 物理情報付きNNの転移学習を利⽤したポリマーの物性予測 8
Copyright © Elix, Inc. All rights reserved. • Hohenberg‒Kohnの第1定理に基づいた物理的な制約を課した ネットワークを利⽤
◦ ネットワークの内部で、サンプルの分⼦軌道に対応する 特徴ベクトルを作成 ➔ この特徴ベクトルが実際の分⼦軌道を模倣できるように、 HK定理に基づいた制約を課す • QM9データセット (約13万件のサンプル) での事前訓練後、 特徴抽出部分のパラメータを凍結して転移 ➔ ポリマーの物性 (原⼦化エネルギー・バンドギャップなど) を 予測 1.2 物理情報付きNNの転移学習を利⽤したポリマーの物性予測 9
Copyright © Elix, Inc. All rights reserved. • PFAS: ⼀つ以上の
‒CF3 /‒CF2 ‒ 基を持つ有機化合物 ◦ フォトレジスト・難燃剤など、多岐にわたって利⽤される ◦ 毒性も懸念されている • 毒性 (LD50 ) の予測モデルに望まれること ◦ ⾼い予測性能を持つ ◦ 出⼒される予測結果を信頼するか否かを適切に判断できる • こうしたモデルを作成するのは難しい: ◦ 毒性発現のメカニズムは複雑 ◦ PFASに対する毒性データの量が⼗分でない ◦ データに測定誤差が含まれうる 1.3 予測の不確実性を考慮したPFASの毒性予測 10
Copyright © Elix, Inc. All rights reserved. • 予測が不確実と判断されたものについては「わかりません」と⾔える モデル
(SelectiveNet) を利⽤ ➔ 出⼒される予測値についてはある程度信頼できるものになる ◦ 予測を棄権したPFAS化合物に対してのみ別途実験するようにする ➔ 必要な実験回数を減らせる • ⼀般の毒性データセットでSelectiveNetを訓練した結果を転移し、 PFAS類似化合物の毒性データを利⽤してネットワークの⼀部を 再訓練 ➔ PFAS関連データが少ない問題に対応 1.3 予測の不確実性を考慮したPFASの毒性予測 11
Copyright © Elix, Inc. All rights reserved. 無機材料に対する予測モデルを扱った三つのケーススタディをとおして、 データの処理・ネットワーク構造の設計・訓練⽅法の設定などについて解説 扱った主な内容
• 3次元結晶構造からの合成可能性予測 (2.1節) • 材料の局所構造からの安定性予測 (2.2節) • 合⾦のガラス形成能予測のためのマルチタスク学習 (2.3節) この発表では内容紹介を割愛するが、有機化合物に対する予測などに有⽤なテクニックも多いので、 ぜひ⽬を通していただきたい (特に、データの前処理・ネットワーク構造の設計⽅法は、参考になる点があると思われる) 2章 無機材料に対する予測モデル 12
Copyright © Elix, Inc. All rights reserved. ⽣成モデル: データの⽣成過程を表現したモデル ⽣成モデルを利⽤した三つのケーススタディをとおして、医薬品の設計や材料の探索に⽣成モデルが
どのように活⽤されているかを解説 扱った主な内容 • フラグメントのSMILES⽂字列を⽣成するSeq2Seqモデル (3.1節) • 敵対的オートエンコーダの半教師あり学習 (3.2節) • 変分オートエンコーダによる組成の合成可能性評価 (3.3節) この発表では、3.3節の紹介は省略する 3章 ⽣成モデルを活⽤した材料・医薬品の設計 13
Copyright © Elix, Inc. All rights reserved. • リードジェネレーション: 標的分⼦に対するヒット化合物から
新薬になりそうなリード化合物へと構造を修正 ◦ ヒット化合物の分⼦構造をある程度保持しつつ、化合物の 機能性を⾼めるように構造修正 • DDR1に対するヒット化合物から、構造⽣成器を⽤いて リードジェネレーション ◦ スキャフォールドのSMILES⽂字列を⼊⼒すると、⼊⼒に 結合する側鎖が⽣成されるようなSeq2Seqモデル ◦ DDR・FGFR阻害剤の分⼦構造から、スキャフォールドと 側鎖の組を⽣成したうえで訓練 ▪ スキャフォールド・側鎖として妥当になるように 適当な条件が課されている 3.1 フラグメント構造⽣成器を利⽤したリードジェネレーション 14
Copyright © Elix, Inc. All rights reserved. • 興味のある化合物データは少量しか⼿に⼊らないことが多い ◦
実験に時間・コストがかかる ◦ 多数のサンプルに対するシミュレーションもなかなか⼤変 ◦ ⽂献調査で集められるデータにも限りがある • ⼩規模なデータセットでの訓練では過剰適合しやすくなり、 期待する性能が得られないことがある ➔ (ラベルなしの) ⼀般の⼤規模な分⼦構造データセットを 活⽤できると良い • 半教師あり学習: ラベルありデータセットとラベルなし データセットを同時に利⽤して訓練する⽅法 3.2 半教師あり学習を利⽤した分⼦構造⽣成 15
Copyright © Elix, Inc. All rights reserved. • 敵対的オートエンコーダ (AAE)
を利⽤した、ADRA2A阻害剤の SMILES⽂字列の⽣成 ◦ 敵対的⽣成ネットワーク (GAN) とオートエンコーダを 組み合わせたモデル ◦ 分⼦構造を潜在変数という多次元ベクトルで表現 ➔ 潜在変数から分⼦構造を⽣成できるようになっている ◦ 潜在変数が従う確率分布を⾃由に設定できる ➔ ラベルありデータセットとラベルなしデータセットの分布が 重なるように設定し、ラベルありデータセットの存在する 領域からサンプリング 3.2 半教師あり学習を利⽤した分⼦構造⽣成 16
Copyright © Elix, Inc. All rights reserved. • 『事例でわかる マテリアルズインフォマティクス』は、深層学習を化学分野で利⽤するためのガイド
として、九つのケーススタディをとおして深層学習活⽤のポイントを解説した本 • この発表では、有機化合物に関する五つのケーススタディについて、内容を概説した ◦ データの処理やネットワーク構造の設計のアイディアは、扱うデータが有機・無機のいずれでも 活⽤できるものが多い 『事例でわかる マテリアルズインフォマティクス』に記した内容が、何らかの形で皆さんの役に⽴てますと 幸いです。 まとめ 17
Elix, Inc. https://elix-inc.com/ Copyright © Elix, Inc. All rights reserved.