Slide 1

Slide 1 text

ExplainableAIの概要と Amazon SageMaker Clarifyでの実装例

Slide 2

Slide 2 text

名前:宇佐見 一平 略歴 2017-04 新卒でメーカーに勤務 2019-03 HACARUSに転職    (1人目のフルタイムのデータサイエンティスト) 職務内容 外観検査案件の担当、社内外観検査プロダクトの開発 趣味 テレビゲーム、音楽鑑賞 プライベートで社会人アメフトチームの分析スタッフとして活動 2 自己紹介

Slide 3

Slide 3 text

会社紹介 3

Slide 4

Slide 4 text

Mission 次世代の“はかる”をあらゆる産業へ 共 同 開 発 ・ 研 究 製 品 ● ロボット制御のアプリ開発 ● 画像に対する異常検知ライブラリの開発 ○ 組み込み用のSDK含む ● 異常検知ライブラリをノーコードで実行でき るクラウドアプリケーション開発 ● 診断/治療支援AI開発 ● 創薬工程の効率化AI開発 ● 異常検知ライブラリをノーコー ドで実行できるクラウドアプリ ケーション開発

Slide 5

Slide 5 text

HACARUS Underground ① ロケータでデータ収集 ② データ取り出し ③ データアップロード ④ AI 判定 ⑤ 掘削・工事箇所の計画策定 ⑥ 掘削・工事の実施 SaaS アプリの対象範囲 現場での作業 地中埋設物のデータから管を検出する

Slide 6

Slide 6 text

著者 染田 貴志、木虎 直樹、宇佐見 一平、増井 隆治、田辺 広樹 内容 データ分析の手法の一つとして注目されて いるスパースモデリングについて、なるべく 複雑な数式は使わず、原理の説明から、実 際のデータに対してどのように適用していく かまでを紹介する入門書。スパースモデリン グを活用して企業の問題解決に貢献してき た株式会社HACARUSのメンバーが、 Pythonコードを交えながら解説している。本 書を活用することで、スパースモデリングが どのようなところに有効で、実際にどのよう に使えばいいのかという勘所がつかめるよ うになる。 出版物/和訳プロジェクト 著者 Christoph Molnar 内容 解釈可能な機械学習の多くの手法をまとめ た書籍。無料で公開されていて、原著は英 語であるが有志が各言語に翻訳を行ってい る。 HACARUSも解釈可能な機械学習手法に 注目していたということもあり、社内輪読会 のテーマとして利用していた。その時の経験 を元に、HACARUSメンバーの有志が和訳 を行った。

Slide 7

Slide 7 text

開発 66.7% 営業 19.0% 常勤取締役 7.1% ■開発部所属メンバー内訳 ■所属内訳 ①京都本社 ②東京R&Dセンター ③白浜サテライトオフィス ④マニラ子会社 ■拠点 管理 7.1% プロダクトグループ 共同開発グループ R&Dグループ 11名 13名 4名 プロダクトオーナー データサイエンティスト データサイエンティスト エッジエンジニア アプリケーションエンジニア アプリケーションエンジニア データサイエンティスト HACARUSの雰囲気を知りたい方はWantedly blogまで ↓

Slide 8

Slide 8 text

発表資料 8

Slide 9

Slide 9 text

機械学習の進化の過程 Strictly Confidential - All Rights Reserved - HACARUS INC. ヒューリスティック/ルールベース if weight > 65: turn on red light if animal has long neck: classify as giraffe 線形モデル/決定木 ディープラーニング/アンサンブル メタラーニング age height sex net income

Slide 10

Slide 10 text

複雑な非線形モデルの利用によるパラダイムシフト Strictly Confidential - All Rights Reserved - HACARUS INC. 10 自動運転、創薬などの 様々な領域での活躍 画像、音声、テキストな ど複数種のデータを扱 える 最適化されたGPU、TPU の登場

Slide 11

Slide 11 text

線形と非線形 Strictly Confidential - All Rights Reserved - HACARUS INC. 11

Slide 12

Slide 12 text

モデルの複雑化の引き起こす問題 Strictly Confidential - All Rights Reserved - HACARUS INC. 12 コントロールの難しさ 透明性の欠如 望ましくないデータの性 質の増幅

Slide 13

Slide 13 text

13 Strictly Confidential - All Rights Reserved - HACARUS INC. 問題の事例

Slide 14

Slide 14 text

14 Strictly Confidential - All Rights Reserved - HACARUS INC. なぜ?

Slide 15

Slide 15 text

15 Strictly Confidential - All Rights Reserved - HACARUS INC. Explainable AI (説明可能AI)

Slide 16

Slide 16 text

ExplainableAI •米国のDARPAの研究が発端の概念で、モデルの予測が人間に理解可能であり、十分信頼 に足る技術、またはそれに関する研究のことを指す Strictly Confidential - All Rights Reserved - HACARUS INC.

Slide 17

Slide 17 text

ExplainableAI Explanation(説明性) 定義:人間が理解できる用語で説明または描写する能力 ( Doshi-Velez and Kim ) Interpret(解釈) 定義:人間とエージェントとの間の相互作用(interaction) (辞書の定義より) →モデルをうまく理解できるようになればAIが陥る落とし穴がわかり、対策が打てる Strictly Confidential - All Rights Reserved - HACARUS INC.

Slide 18

Slide 18 text

説明性が求められる事象 •異常なイベントや想定外のイベントが発生した場合 →もしコストとなるならば抑えたい →事象を理解するために説明性が必要 Strictly Confidential - All Rights Reserved - HACARUS INC. 18

Slide 19

Slide 19 text

説明性が求められる事象の構造 Strictly Confidential - All Rights Reserved - HACARUS INC. 19 彼はお皿を割った Fact 彼は焦っていた Explanation Foil 彼はお皿を割らずに運んだ 彼は焦っていなかった Explanation

Slide 20

Slide 20 text

説明可能AIを達成するアプローチ •アプローチ①…そもそも解釈できるモデルを使用する •アプローチ②…複雑なAIモデルに後から説明性を付け加える Strictly Confidential - All Rights Reserved - HACARUS INC. 20

Slide 21

Slide 21 text

説明性の評価方法…Shapley Value •機械学習に用いた特徴の予測に対する貢献度を評価する Strictly Confidential - All Rights Reserved - HACARUS INC. 21

Slide 22

Slide 22 text

説明性の評価方法…画像に対するShapley Value • 画像分類モデルに対して、特定の部分が予測に寄与するかをShapley Valueで評価 22

Slide 23

Slide 23 text

説明性の評価方法…Integrated Gradients Strictly Confidential - All Rights Reserved - HACARUS INC. 23 https://www.tensorflow.org/tutorials/interpretability/integrated_gradients

Slide 24

Slide 24 text

評価におけるベースライン •先のスライドのA,B,Cを従業員と考え、貢献度に応じて報酬を考えるとする →基本は空集合{}をベースラインと考える •Aが先に働いていて、その後にB,Cが働き始めたら? →{A}がベースラインであるべき Strictly Confidential - All Rights Reserved - HACARUS INC. 24

Slide 25

Slide 25 text

代表的なベースライン •Uninformative baseline • 何も情報を表現していないような物。大抵Foilに相当する。 • e.g. 彼は皿を割らなかった、グレースケールのランダムな画素値を持った画像、数値の入力に対する中 央値 •Informative baseline • ある事実をベースラインとして用いると、実際に観測した出力に対しての重要なexplanationを際立たせ ることができる。 • e.g. 「なぜ先月からクレジットのスコアが50ポイントも落ちたのか」という問いに対しては、1ヶ月前の状 態をベースラインとすることが効果的であると考えられる Strictly Confidential - All Rights Reserved - HACARUS INC. 25

Slide 26

Slide 26 text

説明性の限界 •与えられた結果はモデルの動作全体を表すものでは無い • あくまで近似したモデルの動作を理解することしかできない •特徴量同士の関係性を見ることもできない Strictly Confidential - All Rights Reserved - HACARUS INC. 26

Slide 27

Slide 27 text

説明性の使用例 ~データリーケージの検出 •X線検査画像からいくつかの疾患を発見する画像診断モデル作成 • テスト結果では非常に良い精度を得られた Strictly Confidential - All Rights Reserved - HACARUS INC. 27

Slide 28

Slide 28 text

説明性の使用例 ~ データリーケージの検出 •異常に精度が高い画像診断モデルの評価 • 説明性を用いるとモデルが注目している画素を強調することができる →医師が病型のある部分にアノテーションしている画像が含まれていたことがわかった →モデルは病型ではなく医師のアノテーションを学習していた Strictly Confidential - All Rights Reserved - HACARUS INC. 28

Slide 29

Slide 29 text

説明性の使用例 ~ 決定者の補助 •画像診断補助AI • 診断結果のみならず、診断に寄与した画素を強調することでより医師の診断の感度が上がる • 医師、モデルそれぞれ単体よりも協力した方がより良い結果が得られる • ただし、「病型なし」というAIの診断が逆に害を及ぼすことも考慮しなくてはならない Strictly Confidential - All Rights Reserved - HACARUS INC. 29

Slide 30

Slide 30 text

ここまでのまとめ •説明可能AIは高精度で複雑なAIが増加する中で求められるようになった •Shapley Valueなどの指標でAIに説明性を持たせることができる •説明性には限界がある •説明可能AIは既存のAIを取り替えるものではなくあくまでツールである Strictly Confidential - All Rights Reserved - HACARUS INC. 30

Slide 31

Slide 31 text

Amazon Sagemaker Clarify • Amazon Sagemakerの機能の一部。以下のようなことが行える • データの不均衡を特定する • 特定の属性にバイアスがないかどうかの確認 • モデルのバイアスを特定する • 特定の属性に偏った予測を行うようなモデルかどうかの確認 • モデルを理解する • モデルがどういった特徴量を重視するか • モデルの予測を説明する • 特定の予測に対する特徴量の寄与 31

Slide 32

Slide 32 text

Sagemaker Studio上での流れ 1. データをS3上にアップロード 2. SagemakerのEstimatorクラスでモデルを学習 a. 今回はXGBoostを使用 3. モデルをデプロイ 4. コンフィグの用意 5. レポートの生成 32

Slide 33

Slide 33 text

Bias Report • データセットに対して、学習前・学習後のバイアスを様々な指標で評価できる • 学習前バイアス • 収集したデータが偏っていたり、社会的なバイアスを反映したりすること • 学習済バイアス • バイアスのかかっていないデータであったとしても、ハイパーパラメータの選び方などによってモデルにバイアスが かかることもある 33

Slide 34

Slide 34 text

Bias Report • *Adultデータセットを利用 • ある集団において、各人の年収が50000$を超えるかどうかを予測するタスクに用いられた • 目的変数は年収が50000$を超えるかどうかの二値 →性別の列を元に、男女間でデータにバイアスがかかっていないかどうかチェック 34 *Dua Dheeru, and Efi Karra Taniskidou. “UCI Machine Learning Repository”. Irvine, CA: University of California, School of Information and Computer Science (2017).

Slide 35

Slide 35 text

Bias Report • 様々な指標でデータセットにバイアスがあるかどうかを評価する 35

Slide 36

Slide 36 text

Bias Reportの指標例 • 今回のデータセットに特に高い値を持っていたものを抜粋 • Conditional Demographic Disparity in Labels (CDDL) • ある属性において、(二値分類の場合)一方のクラスに偏ったラベルがつけられているかどうか • 今回でいうと、男性の方が年収が50000$を超えるラベルを持っているインスタンスが多い • Class Imbalance (CI) • ある属性のクラスの偏り • この例ではデータセットに性別の偏りがある • Disparate (Adverse) Impact (DI) • ある属性において、一方のクラスに属した方が、もう一方のクラスに属するよりも特定の結果を予測 しやすいかどうか • 男性であることにより、年収が50000$を超えると予測されやすい 36

Slide 37

Slide 37 text

Explainability Report • ShapleyValueによる予測全体に対する特徴量の寄与を示す 37

Slide 38

Slide 38 text

より詳細なレポート • 一点が一つのインスタンス • 赤いほど値が高く、青いほど低い • 右に行くほどShapley Valueが高い=正の予測(年収が50000$を超える)に寄与 • 解釈例:教育を受けた年数が長いほど年収が50000$を超えやすい 38

Slide 39

Slide 39 text

画像分類モデルに対する実行例 • *Caltech-256 datasetを用いて画像分類モデルを学習 • ある対象を予測したとき、どの部分が予測に寄与しているかわかる • セグメンテーションはSLICを用いて行われる 39 *Dua Dheeru, and Efi Karra Taniskidou. “UCI Machine Learning Repository”. Irvine, CA: University of California, School of Information and Computer Science (2017).

Slide 40

Slide 40 text

画像分類モデルに対する実行例 • ゴリラと予測してしまった • 体毛のあたりがゴリラと予測するように寄与してしまっている? • 背景の草の値が高いのでゴリラの画像には草を多く含む? 40

Slide 41

Slide 41 text

使ってみた感想 Pros • 基本的な使い方に沿って使うだけで綺麗な可視化結果が出る • Sagemakerに統合されているので、自分のモデルもデプロイできれば適用可能 • モニタリングもできるので、バイアスが一定以上偏ったら警告を出すこともできる Cons • SHAP(Shapley Valueの計算及び可視化のOSS)の持っている可視化機能の全てが統合 されているわけではない • SagemakerのAPIの書き方に合わせないといけないので、慣れが必要 • 慣れればSagemakerのAPIとしてモデルを呼び出せるのでデプロイはしやすそう • Explainability Reportの作成に結構時間がかかる • テーブルデータ:7500程度のデータ数に対して3時間くらい • 画像データ:4件で30分くらい 41

Slide 42

Slide 42 text

42 Thank you!

Slide 43

Slide 43 text

参考文献 • Explainable AI in Industry (KDD 2019 Tutorial) • AI Explanation Whitepaper • Amazon Sagemaker Examples 43

Slide 44

Slide 44 text

実行したノートブック https://github.com/iusami/jaws-ug-20220807 44