Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ExplainableAIの概要とAmazon SageMaker Clarifyでの実装例

ExplainableAIの概要とAmazon SageMaker Clarifyでの実装例

JAWS-UG京都【京都駅前会場/オンライン】オフラインでre:Boot! 最新のAIを本気で学ぼう(https://jawsugosaka.doorkeeper.jp/events/139879) での発表資料です

Hacarus Inc.

August 07, 2022
Tweet

More Decks by Hacarus Inc.

Other Decks in Programming

Transcript

  1. Mission 次世代の“はかる”をあらゆる産業へ 共 同 開 発 ・ 研 究 製

    品 • ロボット制御のアプリ開発 • 画像に対する異常検知ライブラリの開発 ◦ 組み込み用のSDK含む • 異常検知ライブラリをノーコードで実行でき るクラウドアプリケーション開発 • 診断/治療支援AI開発 • 創薬工程の効率化AI開発 • 異常検知ライブラリをノーコー ドで実行できるクラウドアプリ ケーション開発
  2. HACARUS Underground ① ロケータでデータ収集 ② データ取り出し ③ データアップロード ④ AI

    判定 ⑤ 掘削・工事箇所の計画策定 ⑥ 掘削・工事の実施 SaaS アプリの対象範囲 現場での作業 地中埋設物のデータから管を検出する
  3. 著者 染田 貴志、木虎 直樹、宇佐見 一平、増井 隆治、田辺 広樹 内容 データ分析の手法の一つとして注目されて いるスパースモデリングについて、なるべく

    複雑な数式は使わず、原理の説明から、実 際のデータに対してどのように適用していく かまでを紹介する入門書。スパースモデリン グを活用して企業の問題解決に貢献してき た株式会社HACARUSのメンバーが、 Pythonコードを交えながら解説している。本 書を活用することで、スパースモデリングが どのようなところに有効で、実際にどのよう に使えばいいのかという勘所がつかめるよ うになる。 出版物/和訳プロジェクト 著者 Christoph Molnar 内容 解釈可能な機械学習の多くの手法をまとめ た書籍。無料で公開されていて、原著は英 語であるが有志が各言語に翻訳を行ってい る。 HACARUSも解釈可能な機械学習手法に 注目していたということもあり、社内輪読会 のテーマとして利用していた。その時の経験 を元に、HACARUSメンバーの有志が和訳 を行った。
  4. 開発 66.7% 営業 19.0% 常勤取締役 7.1% ▪開発部所属メンバー内訳 ▪所属内訳 ①京都本社 ②東京R&Dセンター

    ③白浜サテライトオフィス ④マニラ子会社 ▪拠点 管理 7.1% プロダクトグループ 共同開発グループ R&Dグループ 11名 13名 4名 プロダクトオーナー データサイエンティスト データサイエンティスト エッジエンジニア アプリケーションエンジニア アプリケーションエンジニア データサイエンティスト HACARUSの雰囲気を知りたい方はWantedly blogまで ↓
  5. 機械学習の進化の過程 Strictly Confidential - All Rights Reserved - HACARUS INC.

    ヒューリスティック/ルールベース if weight > 65: turn on red light if animal has long neck: classify as giraffe 線形モデル/決定木 ディープラーニング/アンサンブル メタラーニング age height sex net income
  6. 複雑な非線形モデルの利用によるパラダイムシフト Strictly Confidential - All Rights Reserved - HACARUS INC.

    10 自動運転、創薬などの 様々な領域での活躍 画像、音声、テキストな ど複数種のデータを扱 える 最適化されたGPU、TPU の登場
  7. モデルの複雑化の引き起こす問題 Strictly Confidential - All Rights Reserved - HACARUS INC.

    12 コントロールの難しさ 透明性の欠如 望ましくないデータの性 質の増幅
  8. ExplainableAI Explanation(説明性) 定義:人間が理解できる用語で説明または描写する能力 ( Doshi-Velez and Kim ) Interpret(解釈) 定義:人間とエージェントとの間の相互作用(interaction)

    (辞書の定義より) →モデルをうまく理解できるようになればAIが陥る落とし穴がわかり、対策が打てる Strictly Confidential - All Rights Reserved - HACARUS INC.
  9. 説明性が求められる事象の構造 Strictly Confidential - All Rights Reserved - HACARUS INC.

    19 彼はお皿を割った Fact 彼は焦っていた Explanation Foil 彼はお皿を割らずに運んだ 彼は焦っていなかった Explanation
  10. 説明性の評価方法…Integrated Gradients Strictly Confidential - All Rights Reserved - HACARUS

    INC. 23 https://www.tensorflow.org/tutorials/interpretability/integrated_gradients
  11. 代表的なベースライン •Uninformative baseline • 何も情報を表現していないような物。大抵Foilに相当する。 • e.g. 彼は皿を割らなかった、グレースケールのランダムな画素値を持った画像、数値の入力に対する中 央値 •Informative

    baseline • ある事実をベースラインとして用いると、実際に観測した出力に対しての重要なexplanationを際立たせ ることができる。 • e.g. 「なぜ先月からクレジットのスコアが50ポイントも落ちたのか」という問いに対しては、1ヶ月前の状 態をベースラインとすることが効果的であると考えられる Strictly Confidential - All Rights Reserved - HACARUS INC. 25
  12. Amazon Sagemaker Clarify • Amazon Sagemakerの機能の一部。以下のようなことが行える • データの不均衡を特定する • 特定の属性にバイアスがないかどうかの確認

    • モデルのバイアスを特定する • 特定の属性に偏った予測を行うようなモデルかどうかの確認 • モデルを理解する • モデルがどういった特徴量を重視するか • モデルの予測を説明する • 特定の予測に対する特徴量の寄与 31
  13. Bias Report • データセットに対して、学習前・学習後のバイアスを様々な指標で評価できる • 学習前バイアス • 収集したデータが偏っていたり、社会的なバイアスを反映したりすること • 学習済バイアス

    • バイアスのかかっていないデータであったとしても、ハイパーパラメータの選び方などによってモデルにバイアスが かかることもある 33
  14. Bias Reportの指標例 • 今回のデータセットに特に高い値を持っていたものを抜粋 • Conditional Demographic Disparity in Labels

    (CDDL) • ある属性において、(二値分類の場合)一方のクラスに偏ったラベルがつけられているかどうか • 今回でいうと、男性の方が年収が50000$を超えるラベルを持っているインスタンスが多い • Class Imbalance (CI) • ある属性のクラスの偏り • この例ではデータセットに性別の偏りがある • Disparate (Adverse) Impact (DI) • ある属性において、一方のクラスに属した方が、もう一方のクラスに属するよりも特定の結果を予測 しやすいかどうか • 男性であることにより、年収が50000$を超えると予測されやすい 36
  15. 使ってみた感想 Pros • 基本的な使い方に沿って使うだけで綺麗な可視化結果が出る • Sagemakerに統合されているので、自分のモデルもデプロイできれば適用可能 • モニタリングもできるので、バイアスが一定以上偏ったら警告を出すこともできる Cons •

    SHAP(Shapley Valueの計算及び可視化のOSS)の持っている可視化機能の全てが統合 されているわけではない • SagemakerのAPIの書き方に合わせないといけないので、慣れが必要 • 慣れればSagemakerのAPIとしてモデルを呼び出せるのでデプロイはしやすそう • Explainability Reportの作成に結構時間がかかる • テーブルデータ:7500程度のデータ数に対して3時間くらい • 画像データ:4件で30分くらい 41
  16. 参考文献 • Explainable AI in Industry (KDD 2019 Tutorial) •

    AI Explanation Whitepaper • Amazon Sagemaker Examples 43