Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Elix, CBI2024, ランチョンセミナー, 創薬における連合学習の応用

Elix
October 29, 2024

Elix, CBI2024, ランチョンセミナー, 創薬における連合学習の応用

Elix

October 29, 2024
Tweet

More Decks by Elix

Other Decks in Technology

Transcript

  1. Copyright © Elix, Inc. All rights reserved. 創薬における連合学習の応用 2024/10/29 @

    CBI 2024 ランチョンセミナー 株式会社Elix アプリケーションサイエンティスト 井上 貴央
  2. Copyright © Elix, Inc. All rights reserved. • 性能の良い予測モデルを構築するには、サンプル数が多いのが望ましい ◦

    とくに、深層学習モデルでは、古典的モデルと比べて多数のサンプルが必要になる場合も多い ➔ 利用できるラベル付きの化合物データが少なく、所持する化合物種に偏りがある場合がある • 大規模な化合物データを集めるため、企業間で連携してデータを集める? ➔ セキュリティなどの関係から、 (たとえ暗号化されていたとしても) 蓄積した化合物データそのものを 社外に出すのは難しい 化合物データに関連する課題 2
  3. Copyright © Elix, Inc. All rights reserved. • 連合学習: データセットを一箇所に集めずに、

    (深層学習) モデルの訓練を行う手法 ◦ サーバと複数のクライアントがモデルパラメータを やり取りしながら訓練 ▪ サーバは、共有するモデルのパラメータを管理 ▪ 各クライアントは、手持ちのデータセットで 訓練 (公開の必要なし) ◦ モデルの種類・ハイパーパラメータなどについては あらかじめ合意をとっておく ➔ データセット自体を外部と共有することなく 多数のサンプルで訓練したことになる 連合学習 3 [1] M. Oldenhof, et al. Proc. AAAI Conf. Artif. Intell. Vol. 37. No. 13. 2023. 図は論文[1]より引用
  4. Copyright © Elix, Inc. All rights reserved. • モデルの訓練では、予測のずれ具合を評価する損失関数 𝐿

    𝑾 を最小化する モデルパラメータを求める ◦ 回帰: 平均2乗誤差など、分類: クロスエントロピー誤差など • 深層学習モデルの訓練では、ふつう、損失関数を最小化するパラメータ 𝑾∗ が解析的に求まらない (𝑾∗ = ⋯ の形で書き表せない) ➔ 勾配降下法などの、反復による数値解法を利用する • 勾配降下法: 𝑾 𝑡+1 = 𝑾 𝑡 − 𝜂𝐿′ 𝑾 𝑡 (𝜂 > 0: 学習率) ◦ 現在のパラメータ 𝑾 𝑡 における、最適化したい関数 𝐿 の勾配 𝐿′ の情報 を用いてパラメータを更新 ➔ モデルの訓練には、モデルパラメータの情報があれば十分 モデルパラメータの最適化 4
  5. Copyright © Elix, Inc. All rights reserved. 1. サーバで管理しているモデル (グローバルモデル)

    の 更新に参加するクライアントを選択 2. 各クライアントに、現在のグローバルモデルパラメータ を送信 3. 配布されたモデルパラメータを利用して、クライアント ごとにモデルを訓練 4. 各クライアントのパラメータ更新量をサーバに送信 5. 各クライアントから送られてきた更新量の情報を サーバで集約し、グローバルモデルを更新 6. 1〜5で1ラウンドとし、複数ラウンド分繰り返す 連合学習の流れ 5 [1] M. Oldenhof, et al. Proc. AAAI Conf. Artif. Intell. Vol. 37. No. 13. 2023. 図は論文[1]より引用
  6. Copyright © Elix, Inc. All rights reserved. • 集約の方法は様々 ◦

    FedAvg: モデルパラメータの更新量の重み付き平均を、 グローバルモデルの更新量とする ▪ 重みの付け方も様々 ⁃ ex.) 所有するサンプル数の割合 ▪ 各クライアントでの訓練結果は、当該クライアントのデータに 過剰適合する可能性がある ◦ FedProx: 各クライアントのモデルパラメータ更新で、 グローバルモデルのパラメータからズレすぎないよう制約をかける グローバルモデルの更新 6 図は 米谷 竜, 連合学習入門 より引用
  7. Copyright © Elix, Inc. All rights reserved. • モデルの性能を保持したまま、クライアント–サーバ間の通信時間を短縮する ◦

    とくに、モデルが大規模で通信時間が律速になる場合には有効 ◦ 各クライアントからパラメータの更新量を送る際、更新量の情報を圧縮 ▪ ex.) ランダムマスク, パラメータ行列の低ランク近似, etc. • 通信の暗号化によるデータプライバシーの改善 ◦ 推論攻撃: 学習済みモデルから、典型的な訓練データを推測・生成したり、あるサンプルが 訓練データセットに含まれているかどうかを推測したりする攻撃 ➔ データの中身が推測できないように、共有するパラメータの具体的な値を隠蔽 ◦ Masking with one-time pads[1]: 更新量の和の情報だけをうまく伝える集約方法 ◦ パラメータの更新量に適当なノイズを足しておく (差分プライバシー) ▪ kMoLでは差分プライバシーが利用されている その他の話題 7 [1] K. Bonawitz, et al. Proc. ACM Conf. Comput. Commun. Secur. 2017.
  8. Copyright © Elix, Inc. All rights reserved. • 製薬企業・スタートアップを含む10の団体がデータを出し合って、連合学習でグローバルモデルを訓練 ◦

    約26億件のデータ点で訓練 (化合物数: 約2100万件, アッセイ数: 約4万件) ▪ 現在もデータが取得されているアッセイデータ (Alive) と、データ取得が完了したアッセイデータ (Historical) に分類されている ▪ アッセイごとに、Panel (オフターゲット効果を確認), ADME, Others (オンターゲット効果を確認) に分類されている ◦ 各クライアントは、データの前処理マニュアルに従ってツール (MELLODDY-TUNER) を用いて前処理 ▪ 訓練に利用するデータセットへの制約、特徴ベクトルの作成方法などの統一 • クライアントごとに、予測タスクが異なっている MELLODDY[1, 2] 8 [1] W. Heyndrickx, et al. J. Chem. Inform. Model. 64(7), 2331–2344, 2024. [2] M. Oldenhof, et al. Proc. AAAI Conf. Artif. Intell. Vol. 37. No. 13. 2023.
  9. Copyright © Elix, Inc. All rights reserved. • ベースとするモデル: SparseChem[3]

    ◦ ECFPフィンガープリントを入力とする全結合型ニューラル ネットワーク ◦ 入力層付近のネットワークは共通 ◦ タスクに応じて、出力層付近のネットワークのみを変更 ▪ (2値) 分類・回帰に応じて4パターンのネットワーク構造 ⁃ 補助タスク (HTS, 画像データからのターゲット予測結果 を予測するタスク) を利用するモデルも用意 • 集約方法: Masking with one-time pads[4] ◦ ネットワークの共通部分のパラメータのみを連合学習で訓練 利用されているモデル・訓練方法 9 図は論文[1]より引用 図は論文[2]より引用 [1] W. Heyndrickx, et al. J. Chem. Inform. Model. 64(7), 2331–2344, 2024. [2] M. Oldenhof, et al. Proc. AAAI Conf. Artif. Intell. Vol. 37. No. 13. 2023. [3] A. Arany, et al. arXiv preprint. arXiv:2203.04676, 2022. [4] K. Bonawitz, et al. Proc. ACM Conf. Comput. Commun. Secur. 2017.
  10. Copyright © Elix, Inc. All rights reserved. • ベースライン (連合学習をしない場合)

    からの、評価指標の相対 改善率 (連合学習によってどの程度の性能改善を達成できたか) で評価 ◦ metric perfect : 評価指標の最大値 ◦ metric MoI / metric baseline : 連合学習モデル/ベースラインモデルの評価指標 • 回帰: 𝑅2, 2値分類: AUC–PR, AD: Conformal Efficiency (CE)[2] ◦ AUC–PR: Precision–Recall曲線の下部面積 (最大値: 1) ◦ CE: 単一のクラスに分類されると予測されたサンプルの割合 (最大値: 1) ▪ 両方のクラスに分類したり、どちらにも分類しなかったりすることが できる仕組み (コンフォーマル予測) を利用している • RIPtoPの中央値は多くの場合に正の値をとる ➔ 連合学習で予測性能が改善 モデルの性能評価 10 図は論文[1]より引用 [1] W. Heyndrickx, et al. J. Chem. Inform. Model. 64(7), 2331–2344, 2024. [2] W. Heyndrickx, et al. Artif. Intell. Life Sci. 3, 100070, 2023.
  11. Copyright © Elix, Inc. All rights reserved. • 所持サンプル数による性能改善 ◦

    所持サンプル数によらず、性能改善がみられる • 補助タスクの効果 ◦ 多くの場合、連合学習 + 補助タスクで性能が改善 ◦ ADにはほぼ影響なし • アッセイデータの種類 ◦ ADME, Panelのアッセイデータが、Otherのアッセイデータ よりも性能改善が大きい ➔ 他社のタスクとの関連度が高く、同一の化合物が含まれている ことに起因すると考えられる モデルの性能評価 11 図は論文[1]より引用 [1] W. Heyndrickx, et al. J. Chem. Inform. Model. 64(7), 2331–2344, 2024.
  12. Copyright © Elix, Inc. All rights reserved. • 連合学習: データセットを一箇所に集めずに、(深層学習)

    モデルの訓練を行う手法 ◦ サーバと各クライアントが、モデルパラメータをやり取りしながら訓練 ◦ サーバは、各クライアントでの訓練結果を集約して、グローバルモデルのパラメータを更新 • MELLODDY: 製薬企業・スタートアップを含む10の団体がデータを出し合って、連合学習で グローバルモデルを訓練 ◦ 連合学習により予測性能が改善 ▪ 補助タスクは予測性能の改善に寄与するが、ADの改善は他クライアントのデータに依るもの ▪ ADME・オフターゲット効果の予測のように、他のクライアントもデータを所持しているような タスクでの連合学習の効果が高い まとめ 12
  13. Copyright © Elix, Inc. All rights reserved. • 米谷 竜,

    連合学習入門 https://www.omron.com/jp/ja/technology/omrontechnics/2021/OMT_Vol53_No2_006JP.pdf • 鹿島 久嗣, 連合学習 (Federated Learning) https://hkashima.github.io/introductionFederatedLearning.pdf • 清藤 武暢, プライバシー保護技術としての連合学習の仕組みと最新動向 https://www.jstage.jst.go.jp/article/essfr/16/3/16_196/_article/-char/ja 参考文献 14