Slide 1

Slide 1 text

Copyright © Elix, Inc. All rights reserved. ⼩規模データセットを⽤いた 予測モデルの訓練について 2024/05/22 @ AIDD Wednesday 株式会社Elix リサーチエンジニア 井上 貴央

Slide 2

Slide 2 text

Copyright © Elix, Inc. All rights reserved. • 実務上、サンプルが少ない⼩規模なデータセットで予測モデルを訓練したい場⾯は多い ◦ サンプルの取得に実験・シミュレーションなどが必要で、サンプル収集が⼤変 • 今回は、サンプルが少ない場⾯で予測モデルを構築する際に役に⽴ちそうな内容を紹介 ◦ 他のデータセットを活⽤して性能のよいモデルを構築する ◦ 予測の不確実性を考慮した意思決定 今回紹介する内容について 2

Slide 3

Slide 3 text

Learning to Group Auxiliary Datasets for Molecule 3

Slide 4

Slide 4 text

Copyright © Elix, Inc. All rights reserved. • マルチタスク学習: 本タスクの訓練時に、補助タスクの データセットでの訓練も実施する転移学習の⼀種 ◦ 補助タスクを解く際の知識を活⽤ ➔ 本タスクを解きやすくし、本タスクにおけるモデルの性能 を⾼めようとしている ただし、うまく知識が活⽤できない場合は性能が悪化する 場合もある (負の転移) • ベンチマークデータセットに対して、単体で訓練したときと、補助 タスクのデータセットも活⽤して訓練したときの性能変化を検証 ◦ データセットによって、性能改善のしやすさ (親和性) が異なる ➔ 本タスクに対して、どのようなデータセットを⽤いれば 性能改善するのか? マルチタスク学習で活⽤できる/できないデータセット 4 GNN 本タスク NN 補助タスク NN 本タスク 出⼒ 補助タスク 出⼒ 本タスク データセット 補助タスク データセット [1] T. Huang, et al. NeurIPS 36 (2024).

Slide 5

Slide 5 text

Copyright © Elix, Inc. All rights reserved. • データセットの親和性を測るため、データセットのタスクと データセット内の分⼦構造に着⽬してデータセットをベクトル化 • 特徴ベクトル間のKLダイバージェンスを利⽤して、データセット間の タスク・分⼦構造の類似度を評価 ◦ 親和性は⾮対称的 ➔ (⾮対称的な) KLダイバージェンスを利⽤ • ⼆つの類似度を組み合わせた指標のほうが、⽚⽅のみよりも相対改善度 に対する相関が強い ◦ データセット間のタスク・分⼦構造の類似度がデータセットの親和性 に影響している ◦ ただし、類似していないものでも親和性があることがある • どのようにすれば親和性の⾼いデータセットを⾒つけることができるか? データセットの親和性を測る 5 1 0 1 … 0 1 [1] A. Achille, et al. Proc. IEEE Int. Conf. Comput. Vis. 2019. [2] T. Huang, et al. NeurIPS 36 (2024). Task2vec[1] MACCS Key 出現頻度 の計算 タスクの 特徴ベクトル 構造情報の 特徴ベクトル データセット フィンガープリント

Slide 6

Slide 6 text

Copyright © Elix, Inc. All rights reserved. • 各タスクを解く (同⼀構造の) ネットワークを⽤意し、さらに別の ネットワーク 𝑔 で各タスクのネットワークをどの程度「混ぜる」かを 制御 ◦ ネットワーク 𝑔 は、データセット間のタスク類似度・構造類似度に 依って混ぜる⽐率を決定 ◦ ネットワーク 𝑔 のパラメータも決定する必要があるため、 2段階で最適化 1. ネットワークを混ぜて補助タスクを解き、パラメータを更新 2. 本タスクを解き、𝑔 のパラメータを更新 • 訓練完了段階での 𝑔 の出⼒が、補助データセットの親和性を表すと 考える MolGroup 6 [1] T. Huang, et al. NeurIPS 36 (2024).

Slide 7

Slide 7 text

Copyright © Elix, Inc. All rights reserved. • データセットの集合が与えられたときに、性能改善に 寄与する補助データセットを選択する⽅法 1. MolGroupで各データセットの親和性を計算 2. 設定した閾値よりも低いデータセットを除去 なければ、最も親和性が低いものを除去 3. 指定の繰り返し回数に達していたら親和性の⾼い 𝑘 個 のデータセットを利⽤、そうでないなら1へ データセットの集合から適切なデータセットを選ぶ 7 [1] T. Huang, et al. NeurIPS 36 (2024).

Slide 8

Slide 8 text

Copyright © Elix, Inc. All rights reserved. • MoleculeNetに含まれるベンチマークデータセット を利⽤して実験 ◦ 10,000件未満のデータセットを利⽤ • GNNモデルの種類・補助データセットの探索⽅法 を変化させて、性能を評価 • MolGroupによる性能改善を確認 ◦ 親和性の⾼い補助データセットを多く⽤いる ほうが良い性能になる 実験結果 8 [1] T. Huang, et al. NeurIPS 36 (2024).

Slide 9

Slide 9 text

Calibration and generalizability of probabilistic models on low-data chemical datasets with DIONYSUS 9

Slide 10

Slide 10 text

Copyright © Elix, Inc. All rights reserved. • モデルの予測性能が良かったとしても、得られる予測値がいつでも正解値に近くなるとは限らない • 予測が不確実になる理由は主に⼆つ ◦ 認識論的不確実性: ⼊⼒サンプルに対するモデルの予測性能が不⾜していることに起因する不確実性 モデルパラメータがチューニングしきれていないと、モデルの予測値が外れやすい 訓練データセットに似たサンプルがない⼊⼒では、モデルの予測値が外れやすい ⁃ 「⼊⼒サンプルがモデルの適⽤範囲の外にある」と表現することがある モデルの表現能⼒を⾼めたり、訓練サンプルを多様にしたりすれば軽減できる ◦ 偶然的不確実性: 訓練サンプルの本質的なばらつきに起因する不確実性 サンプルの正解値⾃体に含まれる誤差により、モデルの予測値が外れやすくなる 与えられたデータセットに対しては、どう頑張っても軽減できない • モデルの予測値の不確実性を定量的に評価する⼿法・モデルは、(特にデータが少ない時点での) 意思決定に役⽴つ ◦ 化合物のフィルタリング・実験する化合物の選定など、不確実性の度合いを元に⾏動を選択できる 予測モデルは万能ではない 10

Slide 11

Slide 11 text

Copyright © Elix, Inc. All rights reserved. • (通常の予測モデルと同様に) 訓練に使っていないデータセットに 対する予測性能 (汎化性能) が⾼いこと • 予測モデルの不確実性の評価が正確であること ◦ 間違っている/正しい予測に「不確実性が低い/⾼い」と評価すると、 意思決定を間違える可能性がある ➔ どういったものを利⽤すべきか? ◦ 5種類のモデルで、利⽤する特徴ベクトルを変えて⽐較検討 NGBoost, ガウス過程回帰 (GP), スペクトル正規化GP (SNGP), GNN-GP, ベイズニューラルネットワーク (BNN) ECFPフィンガープリント, Mordred記述⼦, GNNでの 特徴抽出 ◦ 回帰・2値分類とベイズ最適化のタスクで⽐較 ただし、ハイパーパラメータの最適化などは実施されていない 同様の実験ができるようパッケージ化 (DIONYSUS) 不確実性を測ることができる予測モデルに求められる性能 11 [1] G. Tom, et al. Digit. Discov. 2.3 (2023): 759‒774.

Slide 12

Slide 12 text

Copyright © Elix, Inc. All rights reserved. • 予測性能の評価: 回帰は決定係数 𝑅!、分類はROC‒AUC • 不確実性の算出: 回帰は標準偏差 𝜎、分類は正例分類確率 𝑝 • 不確実性の正確性の評価: ◦ 回帰: 絶対校正誤差 (AMA) 予測された平均・標準偏差を使って標準化した誤差から 計算される分位数と、正規分布の分位数との誤差の累積 ◦ 分類: 期待校正誤差 (ECE) 予測された正例分類確率と正解値との誤差の平均 ◦ いずれも、不確実性を不正確に⾒積もると⼤きくなる 予測性能と不確実性の正確性の評価 12 [1] G. Tom, et al. Digit. Discov. 2.3 (2023): 759‒774.

Slide 13

Slide 13 text

Copyright © Elix, Inc. All rights reserved. • 3種類の回帰/分類タスクで、 各⼿法の予測性能 (横軸)・ 不確実性誤差 (縦軸) を評価 ◦ 右下にプロットがあるのが理想 • 観察: ◦ モデルによらず、Mordred記述⼦が良い モデルはGPが良かった ◦ ECFPフィンガープリントを利⽤する 場合は、GPが良い ◦ サンプル数が⼗分あれば、 BNN+Mordred, GNN-GPも良い ◦ GNNの特徴抽出は、GPやNGBoostと ともに使う場合、サンプル数が ⼩さくても良い 予測性能の⽐較 13 [1] G. Tom, et al. Digit. Discov. 2.3 (2023): 759‒774.

Slide 14

Slide 14 text

Copyright © Elix, Inc. All rights reserved. • ターゲット値が既知のデータセットの⼀部 (全体の5%/10%) で訓練したモデルを⽤いて、 新たに訓練に利⽤するサンプルを探索 ◦ 少ない反復で最適化合物を発⾒したい ◦ 獲得関数として、算出された平均・ 標準偏差を利⽤ • 観察: ◦ Mordred+GP/NGBoostが良い ◦ 不確実性の情報を全く使わない場合、ヒットは早く ⾒つかるものの、訓練されたモデルの性能は悪い 最初のデータセットに近いものが得られるよう バイアスが掛かってしまうためと考えられる ベイズ最適化での利⽤ 14 [1] G. Tom, et al. Digit. Discov. 2.3 (2023): 759‒774.

Slide 15

Slide 15 text

Copyright © Elix, Inc. All rights reserved. • 訓練データセットのサンプル数を 変更しながら、汎化性能・不確実性誤差 がどう変わるかを⾒る ◦ 汎化性能を⾒るため、クラスタ サンプリングを利⽤ 構造・ターゲット情報をもとに クラスタリングしたデータを利⽤ • 観察: ◦ 100個未満のサンプルのときにはNGBoostが 良い性能 ◦ 深層学習モデルは、300個未満のサンプルでは 性能が悪い 500を超えてくると良くなってくる 訓練データセット量の汎化性能・不確実性誤差への影響 15 [1] G. Tom, et al. Digit. Discov. 2.3 (2023): 759‒774.

Slide 16

Slide 16 text

Copyright © Elix, Inc. All rights reserved. • ⼩規模データセットを⽤いた予測モデルの訓練について、アプローチの 異なる⼆つの⼿法を紹介 • Learning to Group Auxiliary Datasets for Molecule ◦ MolGroup: マルチタスク学習に利⽤する補助データセットをうまく選び、 予測性能を改善する • Calibration and generalizability of probabilistic models on low-data chemical datasets with DIONYSUS ◦ 予測モデルの予測値の不確実性を出⼒できる⼿法に関して、 利⽤する特徴ベクトル・モデルごとの特徴を、複数のタスクで評価 どういったモデルを利⽤すべきかに関する実務的なガイドを提供 DIONYSUSというパッケージを提供 まとめ 16

Slide 17

Slide 17 text

Elix, Inc. https://elix-inc.com/ Copyright © Elix, Inc. All rights reserved.