Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Elix, CBI 2023, フォーカストセッション, 生成モデルを中心としたElixにお...

Elix
October 24, 2023

Elix, CBI 2023, フォーカストセッション, 生成モデルを中心としたElixにおけるAI創薬

Elix

October 24, 2023
Tweet

More Decks by Elix

Other Decks in Research

Transcript

  1. AI創薬プラットフォーム Elix DiscoveryTM:提供形態 TM Copyright © Elix, Inc. All rights

    reserved. ① プラットフォーム提供 • 各社のニーズに合わせて最適な形での提供 • 例1)AI創薬に必要なものを新規に⼀括で提供 • 例2)既存システムを活かしつつ、⼀部拡張 ② 共同研究 • Elix Discovery™の技術を活⽤しつつ共同研究 • 弊社の研究者・エンジニアが稼働 • 世界でもトップクラスの⾼コスト効率な提案 例2の既存システム活かす場合のイメージ図 ケミストも直感的に使える統合型AI創薬プラットフォーム 2
  2. Elix Discovery™メイン機能及び共同研究 Elix Predict ( 化合物プロファイル予測 ) 化合物構造を⼊⼒することで、活 性・物性・ADMET等の化合物プロ ファイルを予測。

    ⾃動で最適な予測モデルを作成。 Elix Create ( 構造⽣成 ) 所望のプロファイルを持つ化合物を ⽣成。 活性・物性・A DMETに加え、合成 容易性等を考慮して最適化。 Elix Assist ( アクティブ・ラーニング ) 少ないデータで効率よく学習。 より少ない実験数・期間で所望の化 合物に到達。 追加実験データ 追加学習 実験 所望のプロファイル /起点構造 モデル ※現時点ではシステム上ではなく弊社とコラボする形での提供。 Elix Discovery™にも後々組み込む予定 プロファイル モデル Copyright © Elix, Inc. All rights reserved. モデル 3
  3. Elix Discovery™メイン機能及び共同研究 ドッキング シミュレーション GPUによる⾼速化を⾏い、構造⽣成モデル の学習に組み込み最適化。(同様にファー マコフォアモデルも利⽤可) より⾼精度なシミュレーション。 通常は⻑い計算時間がかかるが、アクティ ブ・ラーニングと組み合わせて⾼速化も。

    アクティブ・ラーニング ABFE: Absolute Binding Free Energy FEP: Free Energy Perturbation ABFE, FEP (社内検証中、提供予定企業あり) ドッキング 構造⽣成 モデル ABFE, FEP 予測 モデル シミュレーションと機械学習の融合:それぞれ相補的な強みを活かし、データが少ない状況にも対処 シミュレーション 機械学習 • 学習データを必要としない • 計算時間がかかる(タンパクの構造情報も必要) Copyright © Elix, Inc. All rights reserved. • 計算が⾼速 • 学習データが必要 4
  4. 主要取引先及びパートナー 製薬企業 学術機関 パートナー 製薬企業 Copyright © Elix, Inc. All

    rights reserved. 製薬企業 製薬企業 製薬企業 製薬企業 製薬企業 京都⼤学 11
  5. 事例:科研製薬様 ‒ ランチョンセミナーでの事例紹介 Elixランチョンセミナー • 「科研製薬における Elix Discovery™の導⼊及び活⽤事例」 • 科研製薬株式会社

    森本恭平様 • ⽇時:10⽉25⽇(⽔)12:00-13:00 • 3つ予定している講演のうち2番⽬ • 場所:タワーホール船堀 4階 研修室 12
  6. Elix Discovery™によるpan-KRAS阻害剤の⽣成 - 1 13 Copyright © Elix, Inc. All

    rights reserved. 問題設定 Elix Discovery™の構造⽣成モデルを活⽤し、pan-KRAS阻害剤を⽣成する Pan-KRAS阻害剤に取り組む意義 • KRASは細胞の増殖等に関わるタンパクで、その変異はがんを引き起こす • ポケットが浅いため、阻害剤の探索が難しい • G12Cに関してはSotorasibとAdagrasibが2021年と2022年に上市。これ らは共有結合性阻害剤 • 共有結合では狙えないようなG12Dなどの変異に対して、共有結合を⽤い ないpan-KRAS阻害剤の同定が期待される • BI-2865という⾮共有結合性pan-KRAS阻害剤が2023年6⽉に論⽂で報告 されているが、まだ⾮臨床試験の段階 Image Sources: Fell, J. B. et al., J. Med. Chem., Vol. 63, pp. 6679-6693 (2020), Kim, D. et al., Nature, Vol. 619, pp. 160–166 (2023)
  7. Elix Discovery™によるpan-KRAS阻害剤の⽣成 - 2 14 Copyright © Elix, Inc. All

    rights reserved. 提案⼿法の特徴 • ⽣成モデルとファーマコフォアモデルを組み合わせて利⽤ • 活性値の学習データなしでも新規構造⽣成が可能 構造⽣成モデルの最適化設定 • 共結晶構造からファーマコフォアスコアを算出 • 相互作⽤は⾃動で検出し、その後⼿動で⼀部補正 • MW, HBD, HBA, LogP, フィルター 結果 • ドッキングシミュレーションやファーマコフォアモデルに おいて起点化合物と同等以上の親和性を⽰す化合物を⽣成 • 複数の新規構造を⽣成 今後の予定 • Eurofinsのアッセイ系構築が完了次第、実験による検証を⾏う Elix Discovery™上のファーマコフォアモデルの画⾯ ✕ AI 実験
  8. 膜タンパクデータを活⽤したマルチモーダル予測モデル - 1 15 Copyright © Elix, Inc. All rights

    reserved. 問題設定 Elixの独⾃モデルにSEEDSUPPLYの独⾃データで学習させ、 予測モデルを作成。バーチャルスクリーニング等に役⽴てる。 ✕ AI データ 予測モデル • Elixの独⾃モデル • 結合活性を予測 • 化合物情報だけを考慮する通常のモデルと異 なり、タンパクの配列情報も考慮 • ドッキング等と異なりタンパクの構造を⼊⼒ として必要としない。配列さえあれば良い 学習データ • 膜タンパク(SLCトランスポーター、GPCR) • どのタンパクも構造情報がほぼ存在しない • どのターゲットも同じ⼿法でスクリーニング したクリーンなデータ • タンパクの種類:688 • 化合物数:35,568
  9. 膜タンパクデータを活⽤したマルチモーダル予測モデル - 2 16 Copyright © Elix, Inc. All rights

    reserved. 対象ライブラリ(テストセット) • 全体:約45万化合物 • 真のヒット化合物:タンパクごとに2〜15個含まれる 実施内容 • 全ての化合物に対して活性予測を実施し、濃縮率の向上を検証 • 学習データには存在しないタンパクに対して実施 (機械学習的には⾮常に難易度の⾼い設定) 結果 • ①追加学習なし:全体の約20%の化合物を実際の実験にかければ、 真のヒット化合物のうち約40%を取得することが可能 • ②追加学習あり:約10%の実験で約40%のヒットを取得可能 • 注意:上記は今回の実験の中でも良かったもの。構造的に近いタ ンパクが学習データに多いと良い結果に繋がりやすい。 利⽤⽤途 • バーチャルスクリーニングによる実験の効率化 • マウス型等で学習し、ヒト型で発現が困難なタンパクで予測 ②GPR87: 11個のヒット化合物を加えた追加学習あり ①SLC7A1:学習データにヒット化合物なし。追加学習なし Retrain Fine-tune
  10. 膜タンパクデータを活⽤したマルチモーダル予測モデル - 3 17 Copyright © Elix, Inc. All rights

    reserved. ⼝頭発表 • ⼝頭発表O07:「データサイエンス/ADME・毒性」 • "Binding Compound Database Screening using Deep Learning: Strategies for Improved Candidate Enrichment” • Thomas Auzard • 10/25(⽔)17:10〜18:40
  11. 独⾃ライブラリkMoLを活⽤した連合学習 kMoL • 創薬に特化した唯⼀の連合学習対応機械学習ライブラリ • 京都⼤学と共同開発 • オープンソース:https://github.com/elix-tech/kmol • 特徴

    • 最新のグラフ系モデル • マルチタスク・マルチモーダルでの予測 例)タンパクの配列も考慮した予測 ⼝頭発表 • フォーカストセッション:「創薬におけるプライバシー保護連合学習の最新動向」 • "Efficient and Scalable Framework for Activity Prediction with kMol” • Jun Jin Choong • 10/25(⽔)17:10〜18:40 18
  12. 構造⽣成モデルの性能評価 ⽣成モデルの性能評価における課題 • 創薬に限らず⽣成モデルの評価は⼀般的に難しい • いくつかベンチマーク⼿法が存在するもののどれも⽋点がある • 例1)⼀⾒スコアがよく⾒えても実はuniquenessが考慮さ れていない。⾼スコアの同じ化合物を⽣成し続けている •

    例2)機械学習ベースの予測モデルによるスコアを最⼤化 しようとしている。汎化性能に問題があり、幅広くケミカ ルスペースをカバーしての評価が難しい。 ⼝頭発表 • ⼝頭発表O03:「ケムインフォマティクス・機械学習/AIによる創薬研究」 • "Benchmarking Deployed Generative Models on Elix Discovery” • Vincent Richard • 10/24(⽕)17:10〜18:40 例1の図。Model 3は⼀⾒よく⾒えるが、 実際にはuniquenessが著しくく、⾼スコ の化合物を繰り返し⽣成している。 19
  13. Copyright © Elix, Inc. All rights reserved. 20 ChatGPT (GPT-4)

    Google Bard (PaLM 2) ⼤規模⾔語モデル(Large Language Model, LLM)
  14. Copyright © Elix, Inc. All rights reserved. Bran, A. M.,

    Cox, S., White, A. D., & Schwaller, P., arXiv:2304.05376 [physics.chem-ph], Apr. 2023 タスク例:アトルバスタチンの合成とコスト アトルバスタチンの合成⽅法を教えてください。必要な 試薬を買うといくらかかるかも教えて下さい。単純にア トルバスタチンを買うよりも⾃分で合成した⽅が本当に 安いかどうかも教えてください。 GPT-4単独だとそこそこの結果? 学習データに含まれる有名な簡単な例だと解けるが、 より複雑な問題になると解けなくなる傾向 他にも新規化合物の⽣成、物性予測等 様々なタスクで検証されている GPT-4 (ChatGPT)に創薬はできるか 21
  15. Copyright © Elix, Inc. All rights reserved. 22 Bran, A.

    M., Cox, S., White, A. D., & Schwaller, P., arXiv:2304.05376 [physics.chem-ph], Apr. 2023 インターフェースとしてのLLM • GPT-4単独で全てできるわけではないにしても、タスクを理解し、指⽰出しすることはできる • 構造発⽣、類似度計算、特許チェックなど各専⾨ツールをGPT-4に操作してもらう • GPT-4単独よりも良い結果が得られる傾向。特により難しいタスクにおいて。 • ChatGPTのプラグインのように、LLMと特化型のAIを組み合わせたアプローチが創薬でも役⽴つ可能性。 • LLMは前処理に向いているかも? • データの前処理はエッジケースが多く、GUIよりも⾃然⾔語の⽅が向いているインターフェースなのかも
  16. ご案内 展⽰ブース コーヒーコーナー 情報及び連絡先 • 1階展⽰ブース 22番 • お気軽にお⽴ち寄りください •

    Elixの複数の講演スライドは全てSpeaker Deckで後ほど公開予定です。Xでシェアします。 • X (Twitter): @shinya_elix • Email: [email protected] • 絶賛採⽤中です! • 4階にElixがスポンサーのコーヒー☕がありますので是⾮ • Elixのチョコレートもあります🍫 23