PythonでXAI入門〜AIを説明する技術

PythonでXAI入門〜AIを説明する技術〜上野彰大

上野彰大 1992年大阪府堺市生まれ・育ち東京大学大学院農学生命科学研究科卒 YOJO Technologies取締役・エンジニア責任者自己紹介 Twitter：@ueeeeniki

参考文献

• AIブームと同時に説明可能なAI（eXplainable AI = XAI）の重要性も叫ばれるようになっている XAIとはなにか？引用：Peeking Inside
the Black-Box: A Survey on Explainable Artificial Intelligence (XAI), Adadi and Berrada(2018) 論文数の増加

• 単体では説明が難しい複雑なAIモデルをあらゆる観点から後付的・外挿的に説明する技術の総称 ◦ 特定の技術やツールを指すわけではないことに注意 XAIとはなにか？学習学習の説明・評価予測予測の説明・評価

例：AutoML Tables GCPのAutoML Tablesというテーブルデータに対する機械学習モデル自動構築サービスでもExplainable AIという機能が備わっている

なぜ今AIを説明する技術（XAI）が必要とされているか

引用：野村総合研究所

人と共存するAIが引き起こした事件は多い • マイクロソフトのAI会話bot Tay 事件 • テンセントのベイビーQ事件 • Amazonの人材採用AIの差別事件 •
Google Photosのゴリラ事件 • TeslaやUberの自動運転による死亡事故 etc…..

人生を左右するような判断をAIに任せてもよいのか？引用：三菱総合研究所

人生を左右するような判断をAIに任せてもよいのか？あなたにはお金を貸せません・・・・・理由を教えてください！

AIによって人が被る被害にはいくつかのパターンがある • 社会的有害性 ◦ 固定観念がAIによって増強されることによる被害 • 経済損失 ◦ 特定のグループに属する人たちの経済的な選択肢が狭まる •
機会損失 ◦ 属するグループによって仕事・住宅・教育などへのアクセスに差が生じる • 自由の喪失 ◦ 監視、人権、言論の自由などの制約引用：責任あるＡＩ ―「ＡＩ倫理」戦略ハンドブック

人がAIの意思決定を解釈し納得できるかが重要 • AIは、学習によって必要な処理を自動で獲得する ◦ 人間が明示的なルールに基づいてシステムを組まなくて済むため、複雑な処理をすることが可能 ◦ 一方で、人間に理解できる形で処理や判断の条件・根拠を示せる保証がない • これまでのソフトウェアでは実現困難だった複雑な業務をAIに代替させることは技
術的には可能になってきたが、出力結果に公平性や倫理性が求められている ◦ ただ精度を高めれば良いわけではなく、「善い」「責任ある」判断であることが求められている

せめて納得できるような説明があればより実用的あなたにはお金を貸せません過去3年間の収入の合計が100万円ほど水準より低いからです理由を教えてください！

知識がなくてもAIを簡単に作れる時代に AutoMLの発展により、誰でもAIモデルを簡単に作れるようになってきたことで、モデルを解釈することの重要性が高まっている引用：https://www.matrixflow.net

例：AutoML Tables GCPのAutoML Tablesというテーブルデータに対する機械学習モデル自動構築サービスでもExplainable AIという機能が備わっている

人間中心のAI社会原則 (1)人間中心の原則 (2)教育・リテラシーの原則 (3)プライバシー確保の原則 (4)セキュリティ確保の原則 (5)公正競争確保の原則 (6)公平性、説明責任及び透明性の原則 (7)イノベーションの原則 AIが社会実装されていく上で求められる原則 •
G20でも承認された「人間中心（human-centered）のAI社会原則」でも、公平性（Fairenes）、説明責任（Accountability）、透明性（Transparency）の3つは重要視されている参照：内閣府統合イノベーション戦略推進会議基本理念ビジョン (AI-Readyな社会) 人間中心の AI社会原則 AI開発利用原則（個別原則・指針・ガイドライン・ルール等）

• （公平性）AI学習時に不公平を生じるのバイアスを防ぐことにより、 AIが公平なサービスを提供できるようにする必要がある ◦ 特定の属性を持つ利用者が、その属性を持つというだけで他の利用者と同水準のサービスを受けられない（例：特定の人種の人だけが融資を受けられない）というようなことを防ぐ • （説明責任）AIがなぜその判断を行ったのかの根拠を示す必要がある
◦ 人間の感覚とは異なる判断や誤りが発生した時に、何が原因で誰に責任があるのか（悪意を持った誰かによって引き起こされた可能性もある）を示さなければならない • （透明性）AIがどのようなデータで学習したか、どのような検証が行ったか、どのような基準や根拠に基づいて処理を行っているのかなどを透明性高く示す必要がある ◦ ブラックボックス化しやすいAIを、特に人の安全性に関る分野などで多くの人が安心して使うようになるためには、透明性が求められる説明可能性 AIの公平性・説明責任・透明性と説明可能性

AIが公平性・説明責任・透明性を満たすためには、下記のように説明可能である必要がある • （大局説明）AIが学習によって「どういう処理・判断の基準を獲得したか」＝「モデルの全体的な振る舞い」を説明できる • （局所説明）AIが各出力に対して「なぜそのような出力をしたのか」＝「個々の出力結果の判断理由」が説明できる AIの公平性・説明責任・透明性と説明可能性

大局XAIの例：タイタニックの乗客の生死の判別の説明乗客の社会階級性別年齢乗船料乗船した港家族の数敬称年齢あるorなし

AIの説明可能性一般的には、複雑なアルゴリズムを使ったAIは、より高度な判断をできる一方で、説明可能性は低くなる参照：XAI（説明可能な AI）そのとき人工知能はどう考えたのか？対応可能な
判断の複雑さモデルの複雑さアルゴリズムの説明可能性ディープラーニングニューラルネットワークブースティングモデル決定木線形/ロジスティック回帰ルールベースランダムフォレスト

説明可能性の高いアルゴリズム例：決定木決定木は、大局・局所説明の両方が可能 ①（大局説明）予測に重要な項目は何か ②（局所説明）各入力に対してなぜその予測を出したのか低い高い年間購入金額 > 10,000円前月購入金額
> 3,000円クーポン利用＝ありサイト訪問回数 > 5回 True False True False True False True False メルマガから購入してもらえる確率顧客リストに入っている人に春の新作のメルマガを送ったら購入してもらえるか？の予測

説明可能性の低いアルゴリズム例：ニューラルネットワーク中間層 =0.05 =0.7 =0.1 入力層出力層 0 1 9
手書き文字の識別

• 単体では説明が難しい複雑なAIモデルをあらゆる観点から後付的・外挿的に説明する技術の総称 ◦ 特定の技術やツールを指すわけではないことに注意 • 各XAIには得意・不得意があり、使い分けることが必要（後ほど詳述） ◦ 大局説明 /
局所説明のどちらか ◦ 特徴量による説明 / 判断ルールによる説明 / データを用いた説明のどれか ◦ モデル依存性を持つものもある XAIとはなにか？

大局説明・局所説明による違い • 大局的説明とは、モデル全体の振る舞い・内部の支配的な傾向を説明することを指す ◦ 例えば、予測に対する特徴量ごとの重要度を定量化したりすることができる • 局所的説明とは、個々の予測結果の判断の理由を説明することを指す ◦ 例えば、AIがその入力の特にどの部分を”見て”その出力結果を出したのかをスコア化する
ことができる

大局XAIの例：タイタニックの乗客の生死の判別の説明乗客の社会階級性別年齢乗船料乗船した港家族の数敬称年齢あるorなし

局所XAIの例：bull mastiff（犬種）の判別の説明引用：XAI（説明可能な AI）そのとき人工知能はどう考えたのか？ LIMEで最も寄与した箇所を可視化 Grad-CAMで寄与度を可視化 bull mastiffの特徴である垂れ下がった頬を ”見て” 判断していることが分かる

局所XAIの例：膜疾患の3次元画像診断の分析引用：Clinically applicable deep learning for diagnosis and referral in
retinal disease, Fauw et al.(2018)

説明方法による違い • 特徴量による説明は、どの特徴量が予測にどの程度影響しているかを定量化する ◦ 最も一般的な説明方法で、テーブルデータであればどの変数が重要か、画像データであればどの領域が重要かを示す • 判断のルールによる説明は、人間が理解できる程度のルール数で簡単に判断の根拠を示す ◦
例えば、複雑なAIモデルの判断を決定木のような単純なモデルで近似して（ Tree Surrogate）、条件分岐によって説明するようなものがある • データを用いた説明は、あるデータの予測に大きく影響した学習データを示すことで、判断の理由を明らかにする ◦ 予測に悪影響を与えた学習データを発見し、排除することが可能になる

大局 / 局所説明と説明方法による違い特徴量局所大局全体における特徴量の重要度を定量化
ルールデータそのデータのどの特徴量に特に着目して判断したか可視化大まかな判断ルールを近似 LIME Permutation Importance Tree Surrogate 個々データの判断ルールを推測判断に大きな影響を与えたデータを特定 Tree Surrogate

モデル依存性による違い • モデル依存型のXAIは、特定のモデルに特化することで、より詳細な説明ができる ◦ 例えば、ニューラルネットワークに特化した Integrated Gradientsや画像認識に特化した CAMなど、モデル特有の構造を活用した説明ができる • モデル不問型のXAIは、異なるAIモデルでも一貫して説明できるという利点がある
◦ モデルの内部構造にまで深く捉えた説明は難しい ◦ 本講義で扱うLIMEやPFIなどのXAIアルゴリズムはこちらのモデル不問型

モデル依存性の有無：bull mastiff（犬種）の判別の説明引用：XAI（説明可能な AI）そのとき人工知能はどう考えたのか？ LIMEで最も寄与した箇所を可視化 Grad-CAMで寄与度を可視化 Grad-CAMの方がより細かな分析ができている

XAIの活用方法と注意点安全危険因果関係の探索実験などを組み合わせて因果推論の手法を使うべきモデルのデバッグ事前知識と整合性が取れているか、想定外の挙動がなさそうかを確認するモデルの振る舞いの解釈・予測
XAIはあくまでモデルの一側面を捉えてるだけであることに注意して、モデルの振る舞いを解釈する • 特徴量Aが大きくなると予測値は小さくなる傾向にあると解釈・予測するなど局所説明における使い方 • 出力内容の妥当性検証 • 意図とは異なる学習の見直し・修正大局説明における使い方 • AIモデルの改善運用 • 敵対的攻撃の検証使い方の概要 • 大局説明では捉えきれない個々の出力の異質性について考察する

（局所）意図とは異なる学習の見直し • シベリアンハスキーを誤ってオオカミと分類してしまった原因を特定できる ◦ 背景の雪を見てオオカミだと判別してしまっているようだ ◦ 学習データに「雪の中のシベリアンハスキー」と「雪のない場所のオオカミ」が不足引用：https://speakerdeck.com/fatml/why-should-i-trust-you-explaining-the-predictions-of-any-classifier シベリアンハスキーをオオカミと誤判定

特定のノイズを加えることで、AIの判断を誤らせることができる（大局）敵対性攻撃の検証：敵対性攻撃とは引用：Attacking Machine Learning with Adversarial Examples 引用：Fooling automated
surveillance cameras: adversarial patches to attack person detection （テナガザル）間違って識別している人だと判定されてない

（大局）敵対性攻撃の検証引用：Understanding Black-box Predictions via Influence Functions • 左上の画像にノイズを加えて魚と学習することで、下の5つの画像の識別結果をすべて間違わせることができる
• 逆にXAIを使うことで、左上の画像が出力結果に大きな影響を与えていることが分かった

XAIの理論の概要と活用方法

Permutation Feature Importanceとその使いどころ • そのモデルにおける特徴量の重要度の可視化を行う手法 • 明らかに事前知識と異なる結果が出た場合にはモデルのデバッグに使える

Permutation Feature Importance X 1 X 0 X 2 8
-2 5 4 7 4 -1 2 1 2 4 6 X 1 X 0 X 2 2 -2 4 8 5 7 4 -1 1 2 4 6 X 0 の値をシャッフル予測精度の比較予測精度を計算予測精度を計算

Leave One Covariate Out Feature Importance X 1 X 0
X 2 8 -2 5 4 7 4 -1 2 1 2 4 6 X 1 X 0 X 2 2 7 4 -1 1 2 4 6 X 0 を除外予測精度の比較予測精度を計算予測精度を計算 8 -2 5 4

PFとLOCOFIの比較 LOCOFIは特徴量の数だけモデルを作成し直して計算する手法でPFの方がオススメ • LOCOFIの特徴量重要度の計算には時間がかかる ◦ 複雑なモデルになればモデルの作成のしなおしだけで膨大な時間がかかる • LOCOFIは本当に特徴量重要度を知りたいモデルとは別のモデルを作成して重要度の評価に使っている ◦
「全特徴量を使ったモデル」と「ある特徴量以外を使ったモデル」を比較しているので、「全特徴量を使ったモデル」が特定の特徴量をどのくらい重要視しているかとは厳密には異なる

Partial Dependenceとは • 特徴量と予測値の関係性を明らかにするための手法 ◦ 特定の特徴量を動かした時に予測値がどのように変化するかを知ることができる • モデルをデバッグするのに使える ◦ 事前知識と違う結果（例：気温の高いときよりも低いときの方が炭酸飲料が売れる）が出
るときは、モデルが間違っている可能性があると考察する • 特徴量と予測値の関係から何かしらのアクションにつなげる ◦ 例：売上と正の関係があるものは増やし、負の関係があるものは減らすことで、売上の増加を促す ◦ PDで分かるのは、因果関係ではないので、必ずしも意図した結果にはならないことに注意

Partial Dependece 8 7 1 -2 4 2 5 -1
6 4 2 4 X 1 X 0 X 2 8 7 1 8 4 2 8 -1 6 8 2 4 X 1 X 0 X 2 -2 7 1 -2 4 2 -2 -1 6 -2 2 4 X 1 X 0 X 2 5 7 1 5 4 2 5 -1 6 5 2 4 X 1 X 0 X 2 X 0 = 8のときの予測測値の平均 X 0 = -2のときの予測測値の平均 X 0 = 5のときの予測測値の平均

• まずはPFIでモデルに大きな影響を与える特徴量を特定し、PDでその特徴量と予測値の関係を見る ◦ 例えば、TV CMがどのくらい視聴されているかを予測するモデルを構築しているとする ▪ PFIで時間帯が非常に重要だと分かった ▪ PDでCMの打つ時間を24時間内で動かして、時間帯がCMの視聴数の影響を確認す
る ▪ 例えば、ゴールデンタイムのCMはよく見られていて、早朝に放送された CMはあまり見られていないという傾向が見てとれる • （線形回帰のような）グラフにして簡単に可視化できるようなモデルであれば必要ないが、複雑なモデルの特徴量と予測値の関係を可視化できることに意味がある PDの分析の流れ

PDによる可視化

PDの問題点とICE（Individual Conditional Expectation） • 特徴量と予測値の関係は、（当然）インスタンスごとに異なるにも関わらず、平均を見てしまうとインスタンスごとの異質性などを見逃してしまう ◦ PDで可視化した特徴量が、他の特徴量と交互作用があるということなどは平均をとっても分からない •
ICEとは、各インスタンスについて、特徴量と予測値の関係性を明らかにするための手法 ◦ PDの平均を取る前の

Individual Conditional Expectation 8 7 1 -2 4 2 5
-1 6 4 2 4 X 1 X 0 X 2 8 7 1 8 4 2 8 -1 6 8 2 4 X 1 X 0 X 2 -2 7 1 -2 4 2 -2 -1 6 -2 2 4 X 1 X 0 X 2 5 7 1 5 4 2 5 -1 6 5 2 4 X 1 X 0 X 2 X 0 を動かしたときのインスタンス 1の予測値の変化 X 0 を動かしたときのインスタンス 2の予測値の変化

PDとICEによる可視化各線が1人の人

とを分類するのに図のような境界を学習したとすると、印は青と判定される LIME

とを分類するのに図のような境界を獲得したとすると、印は青と判定される • 未知の説明対象データ（印）が青と判定された理由を説明したければ緑の点線が引ければいい ◦ 個々のデータに対する出力結果を説明したいだけであれば、モデル全体を理解できる必要はない
LIME

LIME ① 説明対象データ（印）の近傍にデータ（✕印）を生成する ✕ ✕ ✕ ✕ ✕
✕

LIME ① 説明対象データ（印）の近傍にデータ（✕印）を生成する ② 近傍データに対する説明対象のAIモデルの予測結果を取得する ✕ ✕
✕ ✕ ✕ ✕ 青と分類される赤と分類される

LIME ① 説明対象データ（印）の近傍にデータ（✕印）を生成する ② 近傍データに対する説明対象のAIモデルの予測結果を取得する ③ その予測結果と同じ結果を導く解釈可能な（基本は
線形）モデル（- - - 線）を獲得する獲得した線形モデルの各変数の係数が、その特徴量の重要度（左図なら横軸が重要）ランダムに近傍データを発生させるので、毎回説明が変わってしまうことが弱点 ✕ ✕ ✕ ✕ ✕ ✕ 青と分類される赤と分類される

大局局所 PFI 今回ご紹介したXAI手法の整理 PD ICE LIME SHAP Tree Surrogate
Tree Surrogate

XAIのこれから

• そもそも複雑な事象についてのは判断を説明することは難しい ◦ 人間であってもなぜそう判断したのかを難しいことは多々ある ◦ 犬と猫をどう判別したのか？という一見簡単な問でさえ、人間は自分の思考の過程を説明することは難しい • XAIを使おうとも基本的には精度と説明力はトレードオフ •
XAIが提供しているのはあくまでサマリー • XAIの手法によって、モデルの説明結果が変わってしまう ◦ 本来は、モデルそのものによってのみ説明は決まって欲しい ◦ （同じ手法でさえ、LIMEのように確率的に説明が変動するものもある） XAIにも限界がある

XAIの納得感不足と知識活用 • XAIがより納得感を得られる説明を行っていくためには、分野の専門知識知識との紐付けが行われる必要がある ◦ 対象となる分野の過去の研究結果・知識体系を踏まえた質問をできればいい • XAIと紐付けるためには、専門知識が構造的に整理されている必要がある ◦ 自然言語処理の分野では、特定の分野の知識体系を構造化・可視化していくような研究
も活発 • XAI単独ではなく、他の研究開発分野と共に発展していく必要がある

AIのテストとXAI • AIは判断基準をルール化できず、入力に対して出力が事前に予測できないのでテストが難しい ◦ 敵対的攻撃のように入力の少しの違いでも出力が大きく変わってしまうようなこともありうる • 「関係性」に注目したテスト、「頑強性」に注目したテストなどいくつかのテスト手法が提案されている
• XAIがあればAIのテストができるようになるわけではないし、テストをすれば説明可能性を満たせるわけではないことに注意

まとめ • AIがより社会実装されていくために、AIは精度を求めるだけではなく、人間に取って「妥当」な判断であることが求められている • 今後、XAIやAIのテストなどの説明可能性、安全性や品質の担保などのための技術の発展が期待されている • XAIとは、単体では説明が難しい複雑なAIモデルをあらゆる観点から後付的・外挿的に説明する技術の総称
• 各XAI手法には、「説明の仕方」に得意・不得意がある

PythonでXAI入門 〜AIを説明する技術

PythonでXAI入門 〜AIを説明する技術

More Decks by ueniki

Other Decks in Technology

Featured

Transcript

PythonでXAI入門〜AIを説明する技術

PythonでXAI入門〜AIを説明する技術