モデルの適用範囲・モデルの適用領域 (Applicability Domain, AD) ～回帰モデル・クラス分類モデルを使うとき必須となる概念～

0 モデルの適用範囲モデルの適用領域 Applicability Domain (AD) 明治大学理⼯学部応用化学科データ化学⼯学研究室
⾦⼦弘昌

モデルの適用範囲 (AD) とは︖ モデルが十分な性能を発揮できるデータ領域 AD の設定方法 • トレーニングデータの範囲 • トレーニングデータの中心からの距離
• データ密度 • アンサンブル学習ベイズの定理を利用 モデルとの距離 (Distance to Model, DM) によって AD の広さを定量的にすることで、推定誤差を⾒積もることができる クラス分類でアンサンブル学習により AD を設定するときは注意する 1

どんな X の値でもモデルに⼊⼒してよいのか︖ 2 回帰モデル・クラス分類モデル y = f( X )
説明変数 (記述⼦) X 目的変数 y ⼊⼒出⼒⼊⼒してはいけない説明変数 X の値がある︕ モデルの適用範囲・適用領域 (Applicability Domain, AD) [1-3] [1] I. V. Tetko, et al., J. Chem. Inf. Model. 2008, 48, 1733. [2] D. Horvath, G. Marcou, A. Varnek, J. Chem. Inf. Model. 2009, 49, 1762. [3] H. Kaneko, M. Arakawa, K. Funatsu, AIChE J. 2011, 57, 1506.

モデルの適用範囲・適用領域のイメージ 夏は暑い • 夏であっても涼しい日はある • クーラーの効いた部屋にいれば暑くない • 北極や南極などでは夏でも寒い 炭化水素のデータで構築した水溶解度を推定するモデル •
アルコールの水溶解度を正しく推定できるか︖ 3

モデルの適用範囲・適用領域のイメージ 4 x y : トレーニングデータ : 推定したいデータ : 回帰モデル
x と y の真の関係誤差大誤差大誤差大適用範囲内適用範囲内

モデルの適用範囲・適用領域 5 QSAR [1-3] QSPR [4-6] 『モデルが十分な性能を発揮できるデータ領域』を定めよう︕ モデルの適用範囲・適用領域 (Applicability
Domain, AD) モデルの適用範囲・適用領域 (Applicability Domain, AD) 予測したいデータによって、モデルの信頼性は異なる [1] R.P. Sheridan, et al., J. Chem. Inf. Comput. Sci., 44, 1912-1928 (2004) [2] I.V. Tetko, et al., Drug Discov. Today, 11, 700-707 (2006) [3] D. Horvath, et al., J. Chem. Inf. Model, 49, 1762-1776 (2009) [4] P. Bruneau, N.R. McElroy, J. Chem. Inf. Model, 46, 1379-1387(2006) [5] A. Schwaighofer, et al., J. Chem. Inf. Model, 47, 407-424 (2007) [6] Alexandre V., Igor B., J. Chem. Inf. Model, 52, 1413-1437 (2012) 適切にモデルの適用範囲を設定し、推定するときは適用範囲内かどうか判断する必要がある

AD の設定 トレーニングデータの範囲 [1] トレーニングデータの中心からの距離 [2,3] データ密度 [4,5] アンサンブル学習 [6]
6 [1] H. Kaneko, et al., Comput. Chem. Eng. 35 (2011) 1135–1142. [2] S. Dimitrov, et al., J. Chem. Inf. Model. 45 (2005) 839–849. [3] I. Sushko, et al., J. Chem. Inf. Model. 50 (2010) 2094–2111. [4] I.I. Baskin, et al., Mol. Inf. 29 (2010) 581–587. [5] H. Kaneko, et al., Chemometr. Intell. Lab. Syst. 58 (2001) 109–130. [6] H. Kaneko, et al., J. Chem. Inf. Model. 54 (2014) 2469-2482.

トレーニングデータの範囲 モデル構築用データにおける各説明変数 X の範囲 変数間の相関が大きい場合は、凸包や主成分分析後のスコアを利用 7 x1 x2 : トレーニングデータ
: 予測データ x1 x2

トレーニングデータの中心からの距離 モデル構築用データの平均までの距離 変数間の相関が大きい場合は、マハラノビス距離を用いる 8 x1 x2 : トレーニングデータの平均 : トレーニングデータ
: 予測データ

データ密度 モデル構築用データが密に存在する領域が適用範囲内 9 x1 x2 : トレーニングデータ : 予測データ

データ密度 k最近傍法 (k-Nearest Neighbor method, k-NN) • 詳細は https://datachemeng.com/knn/ One-Class
Support Vector Machine (OCSVM) • 詳細は https://datachemeng.com/ocsvm/ データ密度が⾼い AD 内 10

アンサンブル学習 複数個のモデルを構築し、それらによる予測値の分散(ばらつき)を用いて適用範囲を評価 • 詳細は https://datachemeng.com/ensemblelearning/ 例えば、 • トレーニングデータのサンプル •
記述⼦をランダムに選択して複数モデルを構築 11 データセットサブデータセット1 サブデータセット2 サブデータセット3 例) モデルを3つ構築した場合モデル3 予測データ x モデル2 モデル1 ypred 1 ypred 2 ypred 3 ばらつき大なら適用範囲外

モデルとの距離 (Distance to Model) 12 [1] Baskin II, Kireeva N,
Varnek A.. Mol. Inf., 29, 581-587 (2010) [2] Iurii S., et al., J. Chem. Inf. Model, 50, 2094-2111 (2010) モデルの適用範囲(AD) : モデルが十分な性能を発揮できるデータ領域・・・モデルは⾼い性能を発揮ある狭いデータ範囲広いデータ範囲・・・モデルはある程度の性能を発揮モデルとの距離が大きくなるにつれてモデルの性能(信頼性)は小さくなるモデルとの距離 (Distance to Model, DM) [1,2] の導⼊

回帰モデルの予測誤差(信頼性)の推定 13 新しいデータ回帰モデル y の推定値 x1 x2 : トレーニングデータ
回帰モデルとの距離 (DM) と予測誤差との関係を定量化 [1] DM : 小さい予測誤差: 小さい DM : 大きい予測誤差: 大きい DM︓トレーニングデータの平均との距離 : データの平均

注意︕ クラス分類のとき、アンサンブル学習だけでモデルの適用範囲を設定すると、広くなりすぎてしまいます︕ 14 [1] H. Kaneko, K. Funatsu, J.
Chem. Inf. Model., 54, 2469-2482, 2014 ？？？？

数値シミュレーションデータで確認 2クラス分類 • 各クラス 60データ 記述⼦: 2つ クラス分類手法 • k-NN
(k最近傍法) • RF (Random Forest) • SVM (Support Vector Machine) アンサンブル学習 • サンプルバギング (sample bagging, SB) ⁃ 重複を許してモデル構築用データを選択 モデルの数: 101 15 -1 0 1 2 3 4 5 -1 0 1 2 3 4 5 x 2 x 1 [1] H. Kaneko, K. Funatsu, J. Chem. Inf. Model., 54, 2469-2482, 2014

すべてのサブモデルで分類結果が⼀致した領域16 RF SVM k-NN -1 0 1 2 3 4
5 -1 0 1 2 3 4 5 x 2 x 1 -1 0 1 2 3 4 5 -1 0 1 2 3 4 5 x 2 x 1 -1 0 1 2 3 4 5 -1 0 1 2 3 4 5 x 2 x 1 -1 0 1 2 3 4 5 -1 0 1 2 3 4 5 x 2 x 1 k-NN & RF & SVM k-NN & RF & SVM

データ密度も使いましょう︕ 17 アンサンブルクラス分類モデルクラス分類結果新しいデータ適用範囲内データ密度
推定モデル適用範囲外 x1 x2 SVM -1 0 1 2 3 4 5 -1 0 1 2 3 4 5 x 2 x 1 [1] H. Kaneko, K. Funatsu, J. Chem. Inf. Model., 54, 2469-2482, 2014

モデルの適用範囲・モデルの適用領域 (Applicability Domain, AD) ～回...

モデルの適用範囲・モデルの適用領域 (Applicability Domain, AD) ～回帰モデル・クラス分類モデルを使うとき必須となる概念～

Hiromasa Kaneko

More Decks by Hiromasa Kaneko

Other Decks in Technology

Featured

Transcript

0 モデルの適用範囲モデルの適用領域 Applicability Domain (AD) 明治大学理⼯学部応用化学科データ化学⼯学研究室

モデルの適用範囲 (AD) とは︖ モデルが十分な性能を発揮できるデータ領域 AD の設定方法 • トレーニングデータの範囲 • トレーニングデータの中心からの距離

どんな X の値でもモデルに⼊⼒してよいのか︖ 2 回帰モデル・クラス分類モデル y = f( X )

モデルの適用範囲・適用領域のイメージ 4 x y : トレーニングデータ : 推定したいデータ : 回帰モデル

モデルの適用範囲・適用領域 5 QSAR [1-3] QSPR [4-6] 『モデルが十分な性能を発揮できるデータ領域』を定めよう︕ モデルの適用範囲・適用領域 (Applicability

AD の設定 トレーニングデータの範囲 [1] トレーニングデータの中心からの距離 [2,3] データ密度 [4,5] アンサンブル学習 [6]

トレーニングデータの範囲 モデル構築用データにおける各説明変数 X の範囲 変数間の相関が大きい場合は、凸包や主成分分析後のスコアを利用 7 x1 x2 : トレーニングデータ

トレーニングデータの中心からの距離 モデル構築用データの平均までの距離 変数間の相関が大きい場合は、マハラノビス距離を用いる 8 x1 x2 : トレーニングデータの平均 : トレーニングデータ

データ密度 モデル構築用データが密に存在する領域が適用範囲内 9 x1 x2 : トレーニングデータ : 予測データ

データ密度 k最近傍法 (k-Nearest Neighbor method, k-NN) • 詳細は https://datachemeng.com/knn/ One-Class

アンサンブル学習 複数個のモデルを構築し、それらによる予測値の分散(ばらつき)を用いて適用範囲を評価 • 詳細は https://datachemeng.com/ensemblelearning/ 例えば、 • トレーニングデータのサンプル •

モデルとの距離 (Distance to Model) 12 [1] Baskin II, Kireeva N,

回帰モデルの予測誤差(信頼性)の推定 13 新しいデータ回帰モデル y の推定値 x1 x2 : トレーニングデータ

注意︕ クラス分類のとき、アンサンブル学習だけでモデルの適用範囲を設定すると、広くなりすぎてしまいます︕ 14 [1] H. Kaneko, K. Funatsu, J.

数値シミュレーションデータで確認 2クラス分類 • 各クラス 60データ 記述⼦: 2つ クラス分類手法 • k-NN

すべてのサブモデルで分類結果が⼀致した領域16 RF SVM k-NN -1 0 1 2 3 4

データ密度も使いましょう︕ 17 アンサンブルクラス分類モデルクラス分類結果新しいデータ適用範囲内データ密度