機械学習モデルの解釈手法-1-前提知識&基本手法-20250728

機械学習モデルの解釈手法-1-前提知識&基本手法・学部2年・中島智哉

目的実践的な機械学習モデルの解釈手法の知識を身につける。実装スキルまでは目指さず、必要になったときに適切に利用できる知識を習得する。今回は前提知識と基本的な手法、機械学習モデルの精度向上への応用例をまとめる。 .

参考書籍機械学習を解釈する技術〜予測力と説明力を両立する実践テクニック著者：森下光之助出版社：技術評論社

なぜ解釈性が必要か説明責任を果たすため（求められる）トラブルを事前に回避したり、直面したときに対処しやすいモデルの精度向上にも寄与する

精度と解釈可能性のトレードオフ予測精度と解釈性はトレードオフ現在はまず高い精度を追求し、後から解釈可能性を確保するアプローチが主流

大枠としては線形回帰モデルと同等の解釈性を目指せば良い特徴量の重要度特徴量と予測値の平均的な関係特徴量と予測値のインスタンスごとの関係インスタンスごとの予測の理由 f(X , X
) = 1 2 X (β + 1 1 β X ) 2 2

それぞれの解釈性に対応する手法今回はどんな機械学習モデルに対しても適用できる基本的な手法をまとめる。 PFI：特徴量の重要度 PD：特徴量と予測値の平均的な関係 ICE：特徴量と予測値のインスタンスごとの関係 SHAP：インスタンスごとの予測の理由 .

PFI：特徴量の重要度 Permutation Feature Importance の略重要度を知りたい特徴量のみをシャッフルして学習済モデルの予測誤差を計算するこの値のオリジナルの予測誤差に対する増加率または差分を計算し、この大きさを特徴量重要度とするすべての特徴量に対して同様の操作をし、特徴量重要度を比較する

GPFI(Grouped PFI) 特定の特徴量群を一纏めにして 1 つの特徴量とみなしてから PFI を適用する。 . 多重共線性を持つ場合多重共線性を持つ特徴量それぞれに特徴量重要度が分散してしまい、実際より重要ではないという解釈をしてしまう
それらの特徴量を 1 つのグループにまとめてからその重要度を計算する . One Hot Encording を利用している場合もともと 1 つだった特徴量を複数カラムで表しているので、まとめてから処理をしなければ適切ではない同様に 1 つのグループにまとめてからその重要度を計算する .

注意点多重共線性を持つ特徴量に対しては適切に GPFI を適用する必要がある特徴量重要度は因果関係として解釈できるとは限らない

PD：特徴量と予測値の平均的な関係 Partial Dependence の略すべてのインスタンスに対し、予測値との平均的な関係を知りたい特徴量にある同一の値を代入し予測値を求め、平均を取る代入する値を等間隔で変更しながら同様の操作を繰り返す可視化のために、予測値の平均を縦軸に、特徴量の値を横軸にとってプロットする

注意点未知の交絡因子が存在したり疑似相関している場合、またモデルがうまく学習できていない場合は因果関係を表さないあくまでも平均的な関係を表しているにすぎず、インスタンスごとで見ると振る舞いが異なる可能性がある

ICE：特徴量と予測値のインスタンスごとの関係 Individual Conditional Expectation の略 PD と同様に各インスタンスのある特徴量と予測値の関係を算出するが、それらを平均しないこちらも同様にインスタンスごとの曲線を重ねて描画し、平均では見えないインスタンスごとの関係を可視化

注意点外挿領域は信用しない調べたい特徴量とそれに影響を与える特徴量群の組み合わせがデータに含まれない領域の予測値は解釈に使えない多くのデータでは特徴量同士が複雑に絡み合っており、影響の除去は難しい現実的には解釈をそのインスタンスが実際に取っている値の近傍に限定すると危険を減らせる外れ値を含むインスタンスでは正しい解釈ができないことがある曲線が多すぎると読みづらいのでサンプリングや PD との併用が有効

SHAP：インスタンスごとの予測の理由 SHapley Additive exPlanations の略ゲーム理論の Shapley 値を予測寄与に転用各特徴量が「どれだけ予測を押し上げ／押し下げたか」を定量化局所説明と大域的集約を共通ロジックで扱えるのが強み

SHAP のアルゴリズム 1. あるインスタンスに対する、すべての特徴量が利用できない場合の予測値をベースラインとする 2. ある特徴量を予測に使える特徴量として追加した際の予測値の増分を算出 3. すべての特徴量を利用するようになるまで、未利用の特徴量を対象に 2 を繰り返す
4. すべての追加順で 2~3 を繰り返す 5. それぞれの追加順における各特徴量を追加した際の予測値の増分を平均する 6. 5 の結果をプロットするなお、特定の特徴量群が使えない状況は周辺化を用いて作る

SHAP を PFI と同じ用途で利用する方法全インスタンスの SHAP 値の絶対値を平均する SHAP 値は各インスタンスごとにある特徴量を追加したときの予測値の増分のすべての追加順での平均全インスタンスの
SHAP の絶対値を平均すれば特徴量重要度として妥当なものに

PFI との違いインスタンスごとの擬似的な特徴量重要度を、その特徴量の大小との関係とともに可視化できる PFI では寄与度が両方の符号をとる特徴量の重要度が SHAP を用いた場合より低く見積もられる

SHAP を PD と同じ用途で利用する方法縦軸に SHAP 値、横軸に特徴量値をとってプロット最も強い交互作用項を色で表すようにすれば、その項が予測値に及ぼす影響も可視化できる

SHAP の注意点計算コストが高いため、サンプリングが必要になる場面もある理論が相対的に難しく、非専門家への説明に苦労する場合がある . 個人的に考えたこと周辺化では暗黙的に特徴量の独立性を仮定しているように見えるが、実際に独立なデータはほぼ無さそう

解釈手法のモデルの精度向上への応用例誤分類インスタンスへの対応：観察や理由の考察を通して対応策を考える特異なインスタンスを発見：考察を深める特徴量選択：寄与の小さい特徴量を削除アンサンブルの設計：異なるモデルの寄与パターンを比較し補完的な組み合わせを構築

機械学習モデルの解釈手法-1-前提知識&基本手法-20250728

機械学習モデルの解釈手法-1-前提知識&基本手法-20250728

TomNJP

More Decks by TomNJP

Featured

Transcript

機械学習モデルの解釈手法-1-前提知識&基本手法・学部2年・中島智哉

参考書籍機械学習を解釈する技術〜予測力と説明力を両立する実践テクニック著者：森下光之助出版社：技術評論社

なぜ解釈性が必要か説明責任を果たすため（求められる）トラブルを事前に回避したり、直面したときに対処しやすいモデルの精度向上にも寄与する

精度と解釈可能性のトレードオフ予測精度と解釈性はトレードオフ現在はまず高い精度を追求し、後から解釈可能性を確保するアプローチが主流

大枠としては線形回帰モデルと同等の解釈性を目指せば良い特徴量の重要度特徴量と予測値の平均的な関係特徴量と予測値のインスタンスごとの関係インスタンスごとの予測の理由 f(X , X

注意点多重共線性を持つ特徴量に対しては適切に GPFI を適用する必要がある特徴量重要度は因果関係として解釈できるとは限らない

SHAP を PFI と同じ用途で利用する方法全インスタンスの SHAP 値の絶対値を平均する SHAP 値は各インスタンスごとにある特徴量を追加したときの予測値の増分のすべての追加順での平均全インスタンスの

PFI との違いインスタンスごとの擬似的な特徴量重要度を、その特徴量の大小との関係とともに可視化できる PFI では寄与度が両方の符号をとる特徴量の重要度が SHAP を用いた場合より低く見積もられる

SHAP を PD と同じ用途で利用する方法縦軸に SHAP 値、横軸に特徴量値をとってプロット最も強い交互作用項を色で表すようにすれば、その項が予測値に及ぼす影響も可視化できる