ExplainableAIの概要とAmazon SageMaker Clarifyでの実装例

by Hacarus Inc.

Slide 1

Slide 1 text

ExplainableAIの概要と Amazon SageMaker Clarifyでの実装例

Slide 2

Slide 2 text

名前：宇佐見一平略歴 2017-04 新卒でメーカーに勤務 2019-03 HACARUSに転職　　　（1人目のフルタイムのデータサイエンティスト）職務内容外観検査案件の担当、社内外観検査プロダクトの開発趣味テレビゲーム、音楽鑑賞プライベートで社会人アメフトチームの分析スタッフとして活動 2 自己紹介

Slide 3

Slide 3 text

会社紹介 3

Slide 4

Slide 4 text

Mission 次世代の“はかる”をあらゆる産業へ共同開発・研究製品 ● ロボット制御のアプリ開発 ● 画像に対する異常検知ライブラリの開発 ○ 組み込み用のSDK含む ● 異常検知ライブラリをノーコードで実行できるクラウドアプリケーション開発 ● 診断/治療支援AI開発 ● 創薬工程の効率化AI開発 ● 異常検知ライブラリをノーコードで実行できるクラウドアプリケーション開発

Slide 5

Slide 5 text

HACARUS Underground ① ロケータでデータ収集 ② データ取り出し ③ データアップロード ④ AI 判定 ⑤ 掘削・工事箇所の計画策定 ⑥ 掘削・工事の実施 SaaS アプリの対象範囲現場での作業地中埋設物のデータから管を検出する

Slide 6

Slide 6 text

著者染田貴志、木虎直樹、宇佐見一平、増井隆治、田辺広樹内容データ分析の手法の一つとして注目されているスパースモデリングについて、なるべく複雑な数式は使わず、原理の説明から、実際のデータに対してどのように適用していくかまでを紹介する入門書。スパースモデリングを活用して企業の問題解決に貢献してきた株式会社HACARUSのメンバーが、 Pythonコードを交えながら解説している。本書を活用することで、スパースモデリングがどのようなところに有効で、実際にどのように使えばいいのかという勘所がつかめるようになる。出版物/和訳プロジェクト著者 Christoph Molnar 内容解釈可能な機械学習の多くの手法をまとめた書籍。無料で公開されていて、原著は英語であるが有志が各言語に翻訳を行っている。 HACARUSも解釈可能な機械学習手法に注目していたということもあり、社内輪読会のテーマとして利用していた。その時の経験を元に、HACARUSメンバーの有志が和訳を行った。

Slide 7

Slide 7 text

開発 66.7% 営業 19.0% 常勤取締役 7.1% ■開発部所属メンバー内訳 ■所属内訳 ①京都本社 ②東京R&Dセンター ③白浜サテライトオフィス ④マニラ子会社 ■拠点管理 7.1% プロダクトグループ共同開発グループ R&Dグループ 11名 13名 4名プロダクトオーナーデータサイエンティストデータサイエンティストエッジエンジニアアプリケーションエンジニアアプリケーションエンジニアデータサイエンティスト HACARUSの雰囲気を知りたい方はWantedly blogまで ↓

Slide 8

Slide 8 text

発表資料 8

Slide 9

Slide 9 text

機械学習の進化の過程 Strictly Conﬁdential - All Rights Reserved - HACARUS INC. ヒューリスティック/ルールベース if weight > 65: turn on red light if animal has long neck: classify as giraffe 線形モデル/決定木ディープラーニング/アンサンブルメタラーニング age height sex net income

Slide 10

Slide 10 text

Slide 11

Slide 11 text

Slide 12

Slide 12 text

Slide 13

Slide 13 text

Slide 14

Slide 14 text

Slide 15

Slide 15 text

Slide 16

Slide 16 text

Slide 17

Slide 17 text

ExplainableAI Explanation(説明性) 定義:人間が理解できる用語で説明または描写する能力（ Doshi-Velez and Kim ） Interpret(解釈) 定義:人間とエージェントとの間の相互作用（interaction）（辞書の定義より） →モデルをうまく理解できるようになればAIが陥る落とし穴がわかり、対策が打てる Strictly Conﬁdential - All Rights Reserved - HACARUS INC.

Slide 18

Slide 18 text

Slide 19

Slide 19 text

Slide 20

Slide 20 text

Slide 21

Slide 21 text

Slide 22

Slide 22 text

説明性の評価方法…画像に対するShapley Value • 画像分類モデルに対して、特定の部分が予測に寄与するかをShapley Valueで評価 22

Slide 23

Slide 23 text

Slide 24

Slide 24 text

Slide 25

Slide 25 text

代表的なベースライン •Uninformative baseline • 何も情報を表現していないような物。大抵Foilに相当する。 • e.g. 彼は皿を割らなかった、グレースケールのランダムな画素値を持った画像、数値の入力に対する中央値 •Informative baseline • ある事実をベースラインとして用いると、実際に観測した出力に対しての重要なexplanationを際立たせることができる。 • e.g. 「なぜ先月からクレジットのスコアが50ポイントも落ちたのか」という問いに対しては、1ヶ月前の状態をベースラインとすることが効果的であると考えられる Strictly Conﬁdential - All Rights Reserved - HACARUS INC. 25

Slide 26

Slide 26 text

Slide 27

Slide 27 text

Slide 28

Slide 28 text

説明性の使用例 ~ データリーケージの検出 •異常に精度が高い画像診断モデルの評価 • 説明性を用いるとモデルが注目している画素を強調することができる →医師が病型のある部分にアノテーションしている画像が含まれていたことがわかった →モデルは病型ではなく医師のアノテーションを学習していた Strictly Conﬁdential - All Rights Reserved - HACARUS INC. 28

Slide 29

Slide 29 text

説明性の使用例 ~ 決定者の補助 •画像診断補助AI • 診断結果のみならず、診断に寄与した画素を強調することでより医師の診断の感度が上がる • 医師、モデルそれぞれ単体よりも協力した方がより良い結果が得られる • ただし、「病型なし」というAIの診断が逆に害を及ぼすことも考慮しなくてはならない Strictly Conﬁdential - All Rights Reserved - HACARUS INC. 29

Slide 30

Slide 30 text

Slide 31

Slide 31 text

Amazon Sagemaker Clarify • Amazon Sagemakerの機能の一部。以下のようなことが行える • データの不均衡を特定する • 特定の属性にバイアスがないかどうかの確認 • モデルのバイアスを特定する • 特定の属性に偏った予測を行うようなモデルかどうかの確認 • モデルを理解する • モデルがどういった特徴量を重視するか • モデルの予測を説明する • 特定の予測に対する特徴量の寄与 31

Slide 32

Slide 32 text

Sagemaker Studio上での流れ 1. データをS3上にアップロード 2. SagemakerのEstimatorクラスでモデルを学習 a. 今回はXGBoostを使用 3. モデルをデプロイ 4. コンフィグの用意 5. レポートの生成 32

Slide 33

Slide 33 text

Bias Report • データセットに対して、学習前・学習後のバイアスを様々な指標で評価できる • 学習前バイアス • 収集したデータが偏っていたり、社会的なバイアスを反映したりすること • 学習済バイアス • バイアスのかかっていないデータであったとしても、ハイパーパラメータの選び方などによってモデルにバイアスがかかることもある 33

Slide 34

Slide 34 text

Bias Report • *Adultデータセットを利用 • ある集団において、各人の年収が50000$を超えるかどうかを予測するタスクに用いられた • 目的変数は年収が50000$を超えるかどうかの二値 →性別の列を元に、男女間でデータにバイアスがかかっていないかどうかチェック 34 *Dua Dheeru, and Eﬁ Karra Taniskidou. “UCI Machine Learning Repository”. Irvine, CA: University of California, School of Information and Computer Science (2017).

Slide 35

Slide 35 text

Bias Report • 様々な指標でデータセットにバイアスがあるかどうかを評価する 35

Slide 36

Slide 36 text

Bias Reportの指標例 • 今回のデータセットに特に高い値を持っていたものを抜粋 • Conditional Demographic Disparity in Labels (CDDL) • ある属性において、（二値分類の場合）一方のクラスに偏ったラベルがつけられているかどうか • 今回でいうと、男性の方が年収が50000$を超えるラベルを持っているインスタンスが多い • Class Imbalance (CI) • ある属性のクラスの偏り • この例ではデータセットに性別の偏りがある • Disparate (Adverse) Impact (DI) • ある属性において、一方のクラスに属した方が、もう一方のクラスに属するよりも特定の結果を予測しやすいかどうか • 男性であることにより、年収が50000$を超えると予測されやすい 36

Slide 37

Slide 37 text

Explainability Report • ShapleyValueによる予測全体に対する特徴量の寄与を示す 37

Slide 38

Slide 38 text

より詳細なレポート • 一点が一つのインスタンス • 赤いほど値が高く、青いほど低い • 右に行くほどShapley Valueが高い＝正の予測（年収が50000$を超える）に寄与 • 解釈例：教育を受けた年数が長いほど年収が50000$を超えやすい 38

Slide 39

Slide 39 text

画像分類モデルに対する実行例 • *Caltech-256 datasetを用いて画像分類モデルを学習 • ある対象を予測したとき、どの部分が予測に寄与しているかわかる • セグメンテーションはSLICを用いて行われる 39 *Dua Dheeru, and Eﬁ Karra Taniskidou. “UCI Machine Learning Repository”. Irvine, CA: University of California, School of Information and Computer Science (2017).

Slide 40

Slide 40 text

画像分類モデルに対する実行例 • ゴリラと予測してしまった • 体毛のあたりがゴリラと予測するように寄与してしまっている？ • 背景の草の値が高いのでゴリラの画像には草を多く含む？ 40

Slide 41

Slide 41 text

使ってみた感想 Pros • 基本的な使い方に沿って使うだけで綺麗な可視化結果が出る • Sagemakerに統合されているので、自分のモデルもデプロイできれば適用可能 • モニタリングもできるので、バイアスが一定以上偏ったら警告を出すこともできる Cons • SHAP(Shapley Valueの計算及び可視化のOSS)の持っている可視化機能の全てが統合されているわけではない • SagemakerのAPIの書き方に合わせないといけないので、慣れが必要 • 慣れればSagemakerのAPIとしてモデルを呼び出せるのでデプロイはしやすそう • Explainability Reportの作成に結構時間がかかる • テーブルデータ：7500程度のデータ数に対して3時間くらい • 画像データ：4件で30分くらい 41

Slide 42

Slide 42 text

42 Thank you!

Slide 43

Slide 43 text

参考文献 • Explainable AI in Industry (KDD 2019 Tutorial) • AI Explanation Whitepaper • Amazon Sagemaker Examples 43

Slide 44

Slide 44 text

実行したノートブック https://github.com/iusami/jaws-ug-20220807 44