Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AI基礎講座 第9話 AIとプライバシー、信頼性

AI基礎講座 第9話 AIとプライバシー、信頼性

株式会社Ridge-i内の2019年度インターンシッププログラムで行った基礎講座。

第9話は、AIとプライバシー、信頼性について。第8話で紹介したようなデータ量の問題がないとしても、そもそもデータの所有者がそのデータを公開したいのか、そしてそのデータを学習した結果を信用できるのかは別問題。詳しい人はGradCAM [Selvaraju+, ICCV 2017] やSHAP [Lundberg+Lee, NIPS 2017] などをご存じでしょうが、それらに繋がっていく話です。

対応する動画が https://youtu.be/04CW_d4i5Nk にアップロードされておりますので、ご興味があればご覧ください。

Be0f86176276318b4b9775d795278f7e?s=128

Yoshitaka Ushiku

May 04, 2020
Tweet

Transcript

  1. Ridge-i インターンシッププログラム 人工知能・機械学習(AI/ML)基礎講座 第9話 AIとプライバシー、信頼性 Chief Research Officer 牛久 祥孝

  2. 1.3.2. 機械学習のその他の展開(つづき)

  3. データを集めれば機械学習できるというけれど… • そのデータ、提供できますか • 個人情報とパーソナルデータ – 氏名や性別だけでなく、財産や職種、SNSアカウントや履歴まで – 例:AOLが検索エンジンのログを研究目的として公開 →

    検索に用いた単語から、匿名化されたはずのユーザが特定 されてしまった
  4. プライバシー保護と機械学習 • 仮名化・匿名化 – パーソナルデータの集合に対して、どのデータがどの個人の情報なのかが分からないように する処理 – 例:氏名をランダムなIDに変換(仮名化)、職業を曖昧な表記に変換(匿名化) • 差分プライバシー

    – 悪意のある攻撃者が個人情報を確定する行為への対処 – 例:あるデータベースにおいて「ある特定の条件」 を満たす人がAさん1人しかいないとする。 これを知っている攻撃者に「全員の平均年収」「ある特定の条件に当てはまらない人々の平 均年収」を教えてしまうと、Aさんの年収がばれてしまう。 – こうした平均などの統計情報に対して適切なノイズを混ぜ、プライバシー情報を確定されな いようにするような技術 • 秘密計算 – プライバシー情報をお互いに共有せずとも、平均などの統計情報を計算できる技術 – 得られた統計情報を公開する場合は、差分プライバシーとの組合せが必要
  5. 機械学習がブラックボックスでも信頼できますか? 最近のニュース:AmazonのAI採用中止 • 2014: 履歴書審査AI開発開始 • 2015: 欠陥の発見 逆に履歴書に「女性」に関係する単語、例えば 「女性チェス部の部長」といった経歴が記され

    ていると評価が下がる傾向が出てきた。関係者 によると、ある2つの女子大の卒業生もそれだ けで評価を落とされた。 [ロイター, 2018年10月14日 より引用] • 2017: 開発チーム解散 • 2018: 報道される [http://static.blogos.com/media/img/105619/free_m.jpg]
  6. 説明性のある機械学習 機械学習の結果として予測・認識するだけでなく、その判断 根拠も示す技術 • ある特定の入力に対する予測の根拠を示すアプローチ – LIME (Local Interpretable Model-agnostic

    Explanations) [Ribeiro+, KDD 2016] – 複雑な識別面を入力(右図太字)周辺だけ線形近似 – どの特徴量から今の予測に繋がったかを説明 • 予測を行えるが複雑でブラックボックスなモデル全体を、 可読性の高いモデルで表現するアプローチ – Born Again Trees [Breiman+Shang, 1996] – 複雑な識別器をシンプルな決定木で近似する