Slide 1

Slide 1 text

0 モデルの適用範囲 モデルの適用領域 Applicability Domain (AD) 明治大学 理⼯学部 応用化学科 データ化学⼯学研究室 ⾦⼦ 弘昌

Slide 2

Slide 2 text

モデルの適用範囲 (AD) とは︖ モデルが十分な性能を発揮できるデータ領域 AD の設定方法 • トレーニングデータの範囲 • トレーニングデータの中心からの距離 • データ密度 • アンサンブル学習ベイズの定理を利用 モデルとの距離 (Distance to Model, DM) によって AD の広さを 定量的にすることで、推定誤差を⾒積もることができる クラス分類でアンサンブル学習により AD を設定するときは注意する 1

Slide 3

Slide 3 text

どんな X の値でもモデルに⼊⼒してよいのか︖ 2 回帰モデル・クラス分類モデル y = f( X ) 説明変数 (記述⼦) X 目的変数 y ⼊⼒ 出⼒ ⼊⼒してはいけない説明変数 X の値がある︕ モデルの適用範囲・適用領域 (Applicability Domain, AD) [1-3] [1] I. V. Tetko, et al., J. Chem. Inf. Model. 2008, 48, 1733. [2] D. Horvath, G. Marcou, A. Varnek, J. Chem. Inf. Model. 2009, 49, 1762. [3] H. Kaneko, M. Arakawa, K. Funatsu, AIChE J. 2011, 57, 1506.

Slide 4

Slide 4 text

モデルの適用範囲・適用領域のイメージ 夏は暑い • 夏であっても涼しい日はある • クーラーの効いた部屋にいれば暑くない • 北極や南極などでは夏でも寒い 炭化水素のデータで構築した水溶解度を推定するモデル • アルコールの水溶解度を正しく推定できるか︖ 3

Slide 5

Slide 5 text

モデルの適用範囲・適用領域のイメージ 4 x y : トレーニングデータ : 推定したいデータ : 回帰モデル x と y の真の関係 誤差大 誤差大 誤差大 適用範囲内 適用範囲内

Slide 6

Slide 6 text

モデルの適用範囲・適用領域 5 QSAR [1-3] QSPR [4-6] 『モデルが十分な性能を発揮できるデータ領域』 を定めよう︕ モデルの適用範囲・適用領域 (Applicability Domain, AD) モデルの適用範囲・適用領域 (Applicability Domain, AD) 予測したいデータによって、モデルの信頼性は異なる [1] R.P. Sheridan, et al., J. Chem. Inf. Comput. Sci., 44, 1912-1928 (2004) [2] I.V. Tetko, et al., Drug Discov. Today, 11, 700-707 (2006) [3] D. Horvath, et al., J. Chem. Inf. Model, 49, 1762-1776 (2009) [4] P. Bruneau, N.R. McElroy, J. Chem. Inf. Model, 46, 1379-1387(2006) [5] A. Schwaighofer, et al., J. Chem. Inf. Model, 47, 407-424 (2007) [6] Alexandre V., Igor B., J. Chem. Inf. Model, 52, 1413-1437 (2012) 適切にモデルの適用範囲を設定し、 推定するときは適用範囲内かどうか判断する必要がある

Slide 7

Slide 7 text

AD の設定 トレーニングデータの範囲 [1] トレーニングデータの中心からの距離 [2,3] データ密度 [4,5] アンサンブル学習 [6] 6 [1] H. Kaneko, et al., Comput. Chem. Eng. 35 (2011) 1135–1142. [2] S. Dimitrov, et al., J. Chem. Inf. Model. 45 (2005) 839–849. [3] I. Sushko, et al., J. Chem. Inf. Model. 50 (2010) 2094–2111. [4] I.I. Baskin, et al., Mol. Inf. 29 (2010) 581–587. [5] H. Kaneko, et al., Chemometr. Intell. Lab. Syst. 58 (2001) 109–130. [6] H. Kaneko, et al., J. Chem. Inf. Model. 54 (2014) 2469-2482.

Slide 8

Slide 8 text

トレーニングデータの範囲 モデル構築用データにおける各説明変数 X の範囲 変数間の相関が大きい場合は、凸包や主成分分析後のスコアを利用 7 x1 x2 : トレーニングデータ : 予測データ x1 x2

Slide 9

Slide 9 text

トレーニングデータの中心からの距離 モデル構築用データの平均までの距離 変数間の相関が大きい場合は、マハラノビス距離を用いる 8 x1 x2 : トレーニングデータの平均 : トレーニングデータ : 予測データ

Slide 10

Slide 10 text

データ密度 モデル構築用データが密に存在する領域が適用範囲内 9 x1 x2 : トレーニングデータ : 予測データ

Slide 11

Slide 11 text

データ密度 k最近傍法 (k-Nearest Neighbor method, k-NN) • 詳細は https://datachemeng.com/knn/ One-Class Support Vector Machine (OCSVM) • 詳細は https://datachemeng.com/ocsvm/ データ密度が⾼い AD 内 10

Slide 12

Slide 12 text

アンサンブル学習 複数個のモデルを構築し、それらによる予測値の分散(ばらつき)を用いて 適用範囲を評価 • 詳細は https://datachemeng.com/ensemblelearning/ 例えば、 • トレーニングデータのサンプル • 記述⼦ をランダムに選択して複数モデルを構築 11 データセット サブデータセット1 サブデータセット2 サブデータセット3 例) モデルを3つ構築した場合 モデル3 予測データ x モデル2 モデル1 ypred 1 ypred 2 ypred 3 ばらつき 大 なら 適用範囲外

Slide 13

Slide 13 text

モデルとの距離 (Distance to Model) 12 [1] Baskin II, Kireeva N, Varnek A.. Mol. Inf., 29, 581-587 (2010) [2] Iurii S., et al., J. Chem. Inf. Model, 50, 2094-2111 (2010) モデルの適用範囲(AD) : モデルが十分な性能を発揮できるデータ領域 ・・・ モデルは⾼い性能を発揮 ある狭いデータ範囲 広いデータ範囲 ・・・ モデルはある程度の性能を発揮 モデルとの距離が大きくなるにつれてモデルの性能(信頼性)は小さくなる モデルとの距離 (Distance to Model, DM) [1,2] の導⼊

Slide 14

Slide 14 text

回帰モデルの予測誤差(信頼性)の推定 13 新しいデータ 回帰モデル y の推定値 x1 x2 : トレーニングデータ 回帰モデルとの距離 (DM) と予測誤差との関係を定量化 [1] DM : 小さい 予測誤差: 小さい DM : 大きい 予測誤差: 大きい DM︓トレーニングデータの平均との距離 : データの平均

Slide 15

Slide 15 text

注意︕ クラス分類のとき、アンサンブル学習だけでモデルの適用範囲を 設定すると、広くなりすぎてしまいます︕ 14 [1] H. Kaneko, K. Funatsu, J. Chem. Inf. Model., 54, 2469-2482, 2014 ?? ??

Slide 16

Slide 16 text

数値シミュレーションデータで確認 2クラス分類 • 各クラス 60データ 記述⼦: 2つ クラス分類手法 • k-NN (k最近傍法) • RF (Random Forest) • SVM (Support Vector Machine) アンサンブル学習 • サンプルバギング (sample bagging, SB) ⁃ 重複を許してモデル構築用データを選択 モデルの数: 101 15 -1 0 1 2 3 4 5 -1 0 1 2 3 4 5 x 2 x 1 [1] H. Kaneko, K. Funatsu, J. Chem. Inf. Model., 54, 2469-2482, 2014

Slide 17

Slide 17 text

すべてのサブモデルで分類結果が⼀致した領域16 RF SVM k-NN -1 0 1 2 3 4 5 -1 0 1 2 3 4 5 x 2 x 1 -1 0 1 2 3 4 5 -1 0 1 2 3 4 5 x 2 x 1 -1 0 1 2 3 4 5 -1 0 1 2 3 4 5 x 2 x 1 -1 0 1 2 3 4 5 -1 0 1 2 3 4 5 x 2 x 1 k-NN & RF & SVM k-NN & RF & SVM

Slide 18

Slide 18 text

データ密度も使いましょう︕ 17 アンサンブル クラス分類モデル クラス 分類結果 新しい データ 適用範囲内 データ密度 推定モデル 適用範囲外 x1 x2 SVM -1 0 1 2 3 4 5 -1 0 1 2 3 4 5 x 2 x 1 [1] H. Kaneko, K. Funatsu, J. Chem. Inf. Model., 54, 2469-2482, 2014