Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ExplainableAIの概要とAmazon SageMaker Clarifyでの実装例

ExplainableAIの概要とAmazon SageMaker Clarifyでの実装例

JAWS-UG京都【京都駅前会場/オンライン】オフラインでre:Boot! 最新のAIを本気で学ぼう(https://jawsugosaka.doorkeeper.jp/events/139879) での発表資料です

Hacarus Inc.

August 07, 2022
Tweet

More Decks by Hacarus Inc.

Other Decks in Programming

Transcript

  1. ExplainableAIの概要と Amazon SageMaker Clarifyでの実装例

  2. 名前:宇佐見 一平 略歴 2017-04 新卒でメーカーに勤務 2019-03 HACARUSに転職    (1人目のフルタイムのデータサイエンティスト) 職務内容 外観検査案件の担当、社内外観検査プロダクトの開発

    趣味 テレビゲーム、音楽鑑賞 プライベートで社会人アメフトチームの分析スタッフとして活動 2 自己紹介
  3. 会社紹介 3

  4. Mission 次世代の“はかる”をあらゆる産業へ 共 同 開 発 ・ 研 究 製

    品 • ロボット制御のアプリ開発 • 画像に対する異常検知ライブラリの開発 ◦ 組み込み用のSDK含む • 異常検知ライブラリをノーコードで実行でき るクラウドアプリケーション開発 • 診断/治療支援AI開発 • 創薬工程の効率化AI開発 • 異常検知ライブラリをノーコー ドで実行できるクラウドアプリ ケーション開発
  5. HACARUS Underground ① ロケータでデータ収集 ② データ取り出し ③ データアップロード ④ AI

    判定 ⑤ 掘削・工事箇所の計画策定 ⑥ 掘削・工事の実施 SaaS アプリの対象範囲 現場での作業 地中埋設物のデータから管を検出する
  6. 著者 染田 貴志、木虎 直樹、宇佐見 一平、増井 隆治、田辺 広樹 内容 データ分析の手法の一つとして注目されて いるスパースモデリングについて、なるべく

    複雑な数式は使わず、原理の説明から、実 際のデータに対してどのように適用していく かまでを紹介する入門書。スパースモデリン グを活用して企業の問題解決に貢献してき た株式会社HACARUSのメンバーが、 Pythonコードを交えながら解説している。本 書を活用することで、スパースモデリングが どのようなところに有効で、実際にどのよう に使えばいいのかという勘所がつかめるよ うになる。 出版物/和訳プロジェクト 著者 Christoph Molnar 内容 解釈可能な機械学習の多くの手法をまとめ た書籍。無料で公開されていて、原著は英 語であるが有志が各言語に翻訳を行ってい る。 HACARUSも解釈可能な機械学習手法に 注目していたということもあり、社内輪読会 のテーマとして利用していた。その時の経験 を元に、HACARUSメンバーの有志が和訳 を行った。
  7. 開発 66.7% 営業 19.0% 常勤取締役 7.1% ▪開発部所属メンバー内訳 ▪所属内訳 ①京都本社 ②東京R&Dセンター

    ③白浜サテライトオフィス ④マニラ子会社 ▪拠点 管理 7.1% プロダクトグループ 共同開発グループ R&Dグループ 11名 13名 4名 プロダクトオーナー データサイエンティスト データサイエンティスト エッジエンジニア アプリケーションエンジニア アプリケーションエンジニア データサイエンティスト HACARUSの雰囲気を知りたい方はWantedly blogまで ↓
  8. 発表資料 8

  9. 機械学習の進化の過程 Strictly Confidential - All Rights Reserved - HACARUS INC.

    ヒューリスティック/ルールベース if weight > 65: turn on red light if animal has long neck: classify as giraffe 線形モデル/決定木 ディープラーニング/アンサンブル メタラーニング age height sex net income
  10. 複雑な非線形モデルの利用によるパラダイムシフト Strictly Confidential - All Rights Reserved - HACARUS INC.

    10 自動運転、創薬などの 様々な領域での活躍 画像、音声、テキストな ど複数種のデータを扱 える 最適化されたGPU、TPU の登場
  11. 線形と非線形 Strictly Confidential - All Rights Reserved - HACARUS INC.

    11
  12. モデルの複雑化の引き起こす問題 Strictly Confidential - All Rights Reserved - HACARUS INC.

    12 コントロールの難しさ 透明性の欠如 望ましくないデータの性 質の増幅
  13. 13 Strictly Confidential - All Rights Reserved - HACARUS INC.

    問題の事例
  14. 14 Strictly Confidential - All Rights Reserved - HACARUS INC.

    なぜ?
  15. 15 Strictly Confidential - All Rights Reserved - HACARUS INC.

    Explainable AI (説明可能AI)
  16. ExplainableAI •米国のDARPAの研究が発端の概念で、モデルの予測が人間に理解可能であり、十分信頼 に足る技術、またはそれに関する研究のことを指す Strictly Confidential - All Rights Reserved -

    HACARUS INC.
  17. ExplainableAI Explanation(説明性) 定義:人間が理解できる用語で説明または描写する能力 ( Doshi-Velez and Kim ) Interpret(解釈) 定義:人間とエージェントとの間の相互作用(interaction)

    (辞書の定義より) →モデルをうまく理解できるようになればAIが陥る落とし穴がわかり、対策が打てる Strictly Confidential - All Rights Reserved - HACARUS INC.
  18. 説明性が求められる事象 •異常なイベントや想定外のイベントが発生した場合 →もしコストとなるならば抑えたい →事象を理解するために説明性が必要 Strictly Confidential - All Rights Reserved

    - HACARUS INC. 18
  19. 説明性が求められる事象の構造 Strictly Confidential - All Rights Reserved - HACARUS INC.

    19 彼はお皿を割った Fact 彼は焦っていた Explanation Foil 彼はお皿を割らずに運んだ 彼は焦っていなかった Explanation
  20. 説明可能AIを達成するアプローチ •アプローチ①…そもそも解釈できるモデルを使用する •アプローチ②…複雑なAIモデルに後から説明性を付け加える Strictly Confidential - All Rights Reserved -

    HACARUS INC. 20
  21. 説明性の評価方法…Shapley Value •機械学習に用いた特徴の予測に対する貢献度を評価する Strictly Confidential - All Rights Reserved -

    HACARUS INC. 21
  22. 説明性の評価方法…画像に対するShapley Value • 画像分類モデルに対して、特定の部分が予測に寄与するかをShapley Valueで評価 22

  23. 説明性の評価方法…Integrated Gradients Strictly Confidential - All Rights Reserved - HACARUS

    INC. 23 https://www.tensorflow.org/tutorials/interpretability/integrated_gradients
  24. 評価におけるベースライン •先のスライドのA,B,Cを従業員と考え、貢献度に応じて報酬を考えるとする →基本は空集合{}をベースラインと考える •Aが先に働いていて、その後にB,Cが働き始めたら? →{A}がベースラインであるべき Strictly Confidential - All Rights

    Reserved - HACARUS INC. 24
  25. 代表的なベースライン •Uninformative baseline • 何も情報を表現していないような物。大抵Foilに相当する。 • e.g. 彼は皿を割らなかった、グレースケールのランダムな画素値を持った画像、数値の入力に対する中 央値 •Informative

    baseline • ある事実をベースラインとして用いると、実際に観測した出力に対しての重要なexplanationを際立たせ ることができる。 • e.g. 「なぜ先月からクレジットのスコアが50ポイントも落ちたのか」という問いに対しては、1ヶ月前の状 態をベースラインとすることが効果的であると考えられる Strictly Confidential - All Rights Reserved - HACARUS INC. 25
  26. 説明性の限界 •与えられた結果はモデルの動作全体を表すものでは無い • あくまで近似したモデルの動作を理解することしかできない •特徴量同士の関係性を見ることもできない Strictly Confidential - All Rights

    Reserved - HACARUS INC. 26
  27. 説明性の使用例 ~データリーケージの検出 •X線検査画像からいくつかの疾患を発見する画像診断モデル作成 • テスト結果では非常に良い精度を得られた Strictly Confidential - All Rights

    Reserved - HACARUS INC. 27
  28. 説明性の使用例 ~ データリーケージの検出 •異常に精度が高い画像診断モデルの評価 • 説明性を用いるとモデルが注目している画素を強調することができる →医師が病型のある部分にアノテーションしている画像が含まれていたことがわかった →モデルは病型ではなく医師のアノテーションを学習していた Strictly Confidential

    - All Rights Reserved - HACARUS INC. 28
  29. 説明性の使用例 ~ 決定者の補助 •画像診断補助AI • 診断結果のみならず、診断に寄与した画素を強調することでより医師の診断の感度が上がる • 医師、モデルそれぞれ単体よりも協力した方がより良い結果が得られる • ただし、「病型なし」というAIの診断が逆に害を及ぼすことも考慮しなくてはならない

    Strictly Confidential - All Rights Reserved - HACARUS INC. 29
  30. ここまでのまとめ •説明可能AIは高精度で複雑なAIが増加する中で求められるようになった •Shapley Valueなどの指標でAIに説明性を持たせることができる •説明性には限界がある •説明可能AIは既存のAIを取り替えるものではなくあくまでツールである Strictly Confidential - All

    Rights Reserved - HACARUS INC. 30
  31. Amazon Sagemaker Clarify • Amazon Sagemakerの機能の一部。以下のようなことが行える • データの不均衡を特定する • 特定の属性にバイアスがないかどうかの確認

    • モデルのバイアスを特定する • 特定の属性に偏った予測を行うようなモデルかどうかの確認 • モデルを理解する • モデルがどういった特徴量を重視するか • モデルの予測を説明する • 特定の予測に対する特徴量の寄与 31
  32. Sagemaker Studio上での流れ 1. データをS3上にアップロード 2. SagemakerのEstimatorクラスでモデルを学習 a. 今回はXGBoostを使用 3. モデルをデプロイ

    4. コンフィグの用意 5. レポートの生成 32
  33. Bias Report • データセットに対して、学習前・学習後のバイアスを様々な指標で評価できる • 学習前バイアス • 収集したデータが偏っていたり、社会的なバイアスを反映したりすること • 学習済バイアス

    • バイアスのかかっていないデータであったとしても、ハイパーパラメータの選び方などによってモデルにバイアスが かかることもある 33
  34. Bias Report • *Adultデータセットを利用 • ある集団において、各人の年収が50000$を超えるかどうかを予測するタスクに用いられた • 目的変数は年収が50000$を超えるかどうかの二値 →性別の列を元に、男女間でデータにバイアスがかかっていないかどうかチェック 34

    *Dua Dheeru, and Efi Karra Taniskidou. “UCI Machine Learning Repository”. Irvine, CA: University of California, School of Information and Computer Science (2017).
  35. Bias Report • 様々な指標でデータセットにバイアスがあるかどうかを評価する 35

  36. Bias Reportの指標例 • 今回のデータセットに特に高い値を持っていたものを抜粋 • Conditional Demographic Disparity in Labels

    (CDDL) • ある属性において、(二値分類の場合)一方のクラスに偏ったラベルがつけられているかどうか • 今回でいうと、男性の方が年収が50000$を超えるラベルを持っているインスタンスが多い • Class Imbalance (CI) • ある属性のクラスの偏り • この例ではデータセットに性別の偏りがある • Disparate (Adverse) Impact (DI) • ある属性において、一方のクラスに属した方が、もう一方のクラスに属するよりも特定の結果を予測 しやすいかどうか • 男性であることにより、年収が50000$を超えると予測されやすい 36
  37. Explainability Report • ShapleyValueによる予測全体に対する特徴量の寄与を示す 37

  38. より詳細なレポート • 一点が一つのインスタンス • 赤いほど値が高く、青いほど低い • 右に行くほどShapley Valueが高い=正の予測(年収が50000$を超える)に寄与 • 解釈例:教育を受けた年数が長いほど年収が50000$を超えやすい

    38
  39. 画像分類モデルに対する実行例 • *Caltech-256 datasetを用いて画像分類モデルを学習 • ある対象を予測したとき、どの部分が予測に寄与しているかわかる • セグメンテーションはSLICを用いて行われる 39 *Dua

    Dheeru, and Efi Karra Taniskidou. “UCI Machine Learning Repository”. Irvine, CA: University of California, School of Information and Computer Science (2017).
  40. 画像分類モデルに対する実行例 • ゴリラと予測してしまった • 体毛のあたりがゴリラと予測するように寄与してしまっている? • 背景の草の値が高いのでゴリラの画像には草を多く含む? 40

  41. 使ってみた感想 Pros • 基本的な使い方に沿って使うだけで綺麗な可視化結果が出る • Sagemakerに統合されているので、自分のモデルもデプロイできれば適用可能 • モニタリングもできるので、バイアスが一定以上偏ったら警告を出すこともできる Cons •

    SHAP(Shapley Valueの計算及び可視化のOSS)の持っている可視化機能の全てが統合 されているわけではない • SagemakerのAPIの書き方に合わせないといけないので、慣れが必要 • 慣れればSagemakerのAPIとしてモデルを呼び出せるのでデプロイはしやすそう • Explainability Reportの作成に結構時間がかかる • テーブルデータ:7500程度のデータ数に対して3時間くらい • 画像データ:4件で30分くらい 41
  42. 42 Thank you!

  43. 参考文献 • Explainable AI in Industry (KDD 2019 Tutorial) •

    AI Explanation Whitepaper • Amazon Sagemaker Examples 43
  44. 実行したノートブック https://github.com/iusami/jaws-ug-20220807 44