Upgrade to Pro — share decks privately, control downloads, hide ads and more …

190821 AI実践でつまずきやすいテーブルデータとの付き合い方 佐々木さん

190821 AI実践でつまずきやすいテーブルデータとの付き合い方 佐々木さん

RPACommunity

August 21, 2019
Tweet

More Decks by RPACommunity

Other Decks in Technology

Transcript

  1. Copyright © 2004-2019 Macnica Networks Corp. All Rights Reserved. Copyright

    © 2004-2019 Macnica Networks Corp. All Rights Reserved. AI実践でつまずきやすいテーブルデータとの付き 合い方 ~深層生成モデルで欠測データをどう補う?~ 21 Aug 2019 マクニカネットワークス株式会社 第4技術統括部 AIソリューション部 第2課 佐々木 宏
  2. Copyright © 2004-2019 Macnica Networks Corp. All Rights Reserved. Drawn

    by AI https://obvious-art.com/edmond-de-belamy.html より引用
  3. Copyright © 2004-2019 Macnica Networks Corp. All Rights Reserved. 私のAI歴

    時期 トピック 昭和62年 第二次AIブームの頃、当時の勤務先社長の「これからはAIの時代だ」という発言に触発 されAIに興味を持ち始める。 平成28年 社内チャレンジプロジェクトが公募される。「AIリサーチ」で応募し採用され活動を始 める。 平成29年 チャレンジプロジェクトの一環でテクニカルサポートのAI活用を検討。PoCやるも、実 運用フェーズに乗らず。 平成30年4月~ データサイエンス業務を開始 平成30年6月 JDLA G検定合格 平成30年9月 JDLA E資格取得 平成30年10月~ 平成31年3月 東京大学松尾研究室の Deep Learning 基礎講座受講、修了 現在 AIソリューション部にて Customer Engagement フェーズを担当し活動中
  4. Copyright © 2004-2019 Macnica Networks Corp. All Rights Reserved. 1

    2 3 4 4 Agenda テーブルデータと欠測値 深層生成モデル VAE VAEによるテーブルデータ欠測値補完 まとめ
  5. Copyright © 2004-2019 Macnica Networks Corp. All Rights Reserved. テーブルデータ

    6 ビジネス現場ではテーブルデータが多く存在する 年齢 性別 住所 年収 一昨年度 購買額 昨年度 購買額 顧客ランク 41 男性 神奈川県 800 21.5 22.2 Silver 59 女性 北海道 1200 3.1 14.1 Bronze 63 女性 東京都 1400 17.9 31.3 Gold 38 男性 鹿児島県 700 6.2 2.1 Normal 26 女性 大阪府 400 3.7 1.1 Normal 53 女性 愛媛県 1100 11.7 27.4 Gold
  6. Copyright © 2004-2019 Macnica Networks Corp. All Rights Reserved. テーブルデータで扱うデータの種類は様々

    7 様々な種類のデータが一つのテーブルにまとまっている 年齢 性別 住所 年収 一昨年度 購買額 昨年度 購買額 顧客ランク 41 男性 神奈川県 800 21.5 22.2 Silver 59 女性 北海道 1200 3.1 14.1 Bronze 63 女性 東京都 1400 17.9 31.3 Gold 38 男性 鹿児島県 700 6.2 2.1 Normal 26 女性 大阪府 400 3.7 1.1 Normal 53 女性 愛媛県 1100 11.7 27.4 Gold 1刻みのカ ウント データ 2カテゴリ のデータ 47カテゴ リのデータ 正の数値 順序 カテゴリ
  7. Copyright © 2004-2019 Macnica Networks Corp. All Rights Reserved. 多くの場合欠測値が存在する

    8 全てのデータが揃っている事は稀 欠測値が多く存在する不完全データはそのままの活用が難しい 欠測値がある行や列は使わない?それとも補完して使う? 年齢 性別 住所 年収 一昨年度 購買額 昨年度 購買額 顧客ランク 41 男性 ??? 800 21.5 22.2 Silver 59 ??? 北海道 ??? 3.1 14.1 Bronze ??? 女性 東京都 1400 ??? 31.3 ??? 38 ??? ??? 700 6.2 2.1 ??? ??? 女性 大阪府 ??? 3.7 ??? Normal ??? 女性 愛媛県 1100 ??? 27.4 Gold
  8. Copyright © 2004-2019 Macnica Networks Corp. All Rights Reserved. 補完

    9 尤もらしいデータを補完する事はできるのだろうか? 年齢 性別 住所 年収 一昨年度 購買額 昨年度 購買額 顧客ランク 41 男性 神奈川県 800 21.5 22.2 Silver 59 女性 北海道 1200 3.1 14.1 Bronze 63 女性 東京都 1400 17.9 31.3 Gold 38 男性 鹿児島県 700 6.2 2.1 Normal 26 女性 大阪府 400 3.7 1.1 Normal 53 女性 愛媛県 1100 11.7 27.4 Gold この問いが本日の主題になります
  9. Copyright © 2004-2019 Macnica Networks Corp. All Rights Reserved. 補完

    10 尤もらしいデータを補完する事はできるのだろうか? 年齢 性別 住所 年収 一昨年度 購買額 昨年度 購買額 顧客ランク 41 男性 神奈川県 800 21.5 22.2 Silver 59 女性 北海道 1200 3.1 14.1 Bronze 63 女性 東京都 1400 17.9 31.3 Gold 38 男性 鹿児島県 700 6.2 2.1 Normal 26 女性 大阪府 400 3.7 1.1 Normal 53 女性 愛媛県 1100 11.7 27.4 Gold Deep Learning を使った補完を考えます
  10. Copyright © 2004-2019 Macnica Networks Corp. All Rights Reserved. 欠測値の種類

    11 MCAR(Missing completely at random) 他の変数に依存しない完全にランダムな欠測 MAR(Missing at random) 観測されているデータに依存したランダムな欠測 例)女性は体重の入力が少ない(女性に依存している) MNAR(Missing not at random) 欠測しているデータそのものに依存しているランダムな欠測 例)体重が重い人は入力が少ない(体重そのものに依存している) 本日の対象 適用できる可能性 あり(未検証)
  11. Copyright © 2004-2019 Macnica Networks Corp. All Rights Reserved. 識別モデル

    13 識別モデルは識別する事にのみフォーカスしている(識別モデル) 識別モデルでは、 データがどのよう なものであるかに は興味が無い
  12. Copyright © 2004-2019 Macnica Networks Corp. All Rights Reserved. 生成モデル

    14 生成モデルは対象のデータ分布をモデル化する教師無し学習 対象は何らかの確率 分布からサンプリン グされたものと仮定 して、似ているもの を生成する。 (; ) モデルパラメータ
  13. Copyright © 2004-2019 Macnica Networks Corp. All Rights Reserved. 画像の生成

    15 画像を何らかのデータ分布から生成できないか? 深層生成モデルで生成できます! (; )
  14. Copyright © 2004-2019 Macnica Networks Corp. All Rights Reserved. 深層生成モデルの例

    16 推論ネットワーク 生成ネットワーク 潜在空間 DNNやCNNを用 いて入力よりも低 次元に写像し、生 成のための潜在的 な分布候補を得る DNNやCNNを用 いて、潜在空間 から元の画像の ような画像を生 成する
  15. Copyright © 2004-2019 Macnica Networks Corp. All Rights Reserved. 深層生成モデルの例

    17 推論ネットワーク 生成ネットワーク 潜在 空間 潜在空間は適当な次元のガ ウス分布であると仮定し、 サンプリングし生成する 入力データの 確率分布に近 いデータを出 力する 観測されている値だけ でエンコード(推論) し潜在空間に写像する 平均 分散
  16. Copyright © 2004-2019 Macnica Networks Corp. All Rights Reserved. 深層生成モデルの例

    18 Deep Learning を使って、仮定した確率分布から対象 を生成するので「深層生成モデル」と呼ばれる 推論ネットワーク 生成ネットワーク 潜在 空間 平均 分散
  17. Copyright © 2004-2019 Macnica Networks Corp. All Rights Reserved. Variational

    Autoencoder (VAE) 19 特にこの深層生成モデルの事を Variational Auto Encoder (VAE) と呼びます 推論ネットワーク 生成ネットワーク 潜在 空間 平均 分散
  18. Copyright © 2004-2019 Macnica Networks Corp. All Rights Reserved. VAEの可能性

    20 未知のデータ生成 潜在空間を移動 欠測値補完、ノイズ除去 異常検知 潜在空間をSource imageのからTarget image まで変化させた時の出力イメージ アニメーションの ような変化になる
  19. Copyright © 2004-2019 Macnica Networks Corp. All Rights Reserved. VAEの可能性

    21 潜在空間を移動させ多様体生成 https://arxiv.org/abs/1312.6114v10 Diederik P.Kingma, Max Welling “Auto-Encoding variational Bayes” より引用
  20. Copyright © 2004-2019 Macnica Networks Corp. All Rights Reserved. VAEの可能性

    22 ラベル情報を付加し推論した潜在空間からラベル付きで生成をする と、ラベルに関連した出力を生成できる(Conditional VAE) 推論 ネットワーク 生成 ネットワーク 潜在 空間 平均 分散 ラベル
  21. Copyright © 2004-2019 Macnica Networks Corp. All Rights Reserved. Conditional

    VAE 23 ラベル付けにより雰囲気も合せて生成できる テスト データ テスト データ https://arxiv.org/abs/1406.5298v2 Kingma, Rezende, Mohamed, Welling “Semi-Supervised Learning with Deep Generative Models” より引用
  22. Copyright © 2004-2019 Macnica Networks Corp. All Rights Reserved. 画像データは連続値

    25 推論ネットワーク 生成ネットワーク 画像データはピクセル毎に色を表現する数値で表現 数値は 0 ~ 254 を 0~1の範囲に変換した連続値 0.129 0.675 0.012 0.014 0.543 0.756 0.023 0.011 0.438 0.543 0.654 0.109 0.028 0.218 0.912 0.349 潜在 空間 平均 分散
  23. Copyright © 2004-2019 Macnica Networks Corp. All Rights Reserved. テーブルデータのタイプは様々

    26 タイプ 例 特徴 数値 実数 気温 数値が意味を持つ 正の実数 売上 数値が意味を持つ カウント 販売個数 少数は取らない 定性的データ カテゴリカル 血液型 A, B, O, AB 大小や和差に意味は無い 順序 顧客満足度 非常に良い:4 良い:3 悪い:2 非常に悪い:1 大小や和差に意味は有る
  24. Copyright © 2004-2019 Macnica Networks Corp. All Rights Reserved. 画像の生成モデル

    27 画像データは正規化した連続値のみのため、潜在空間の確率分 布をガウス分布と仮定できた 推論ネットワーク 生成ネットワーク 潜在 空間 平 均 分 散 潜在空間は適当な次元の ガウス分布であると仮定 し、デコーダの出力分布 を表現する
  25. Copyright © 2004-2019 Macnica Networks Corp. All Rights Reserved. タイプ毎に異なる確率分布を仮定?

    28 推論 生成 潜在 空間 実数 実数 推論 生成 潜在 空間 正の実数 正の実数 推論 生成 潜在 空間 カウント カウント 推論 生成 潜在 空間 カテゴリカル カテゴリカル 推論 生成 潜在 空間 順序 順序 複雑。 ネットワーク が独立してし まい、パラ メータの共有 ができない。
  26. Copyright © 2004-2019 Macnica Networks Corp. All Rights Reserved. HI-VAEの提案

    29 The Heterogeneous-Incomplete VAE (HI-VAE) Alfred Nazabal (Alan Turing Institute)らが 2018年10月に提案 https://arxiv.org/abs/1807.03653 https://github.com/probabilistic-learning/HI-VAE 様々な種類のデータを持つテーブルデータ をVAEに適用 ランダムな欠測値(MCAR)を補完 目的変数の推論にも応用可能
  27. Copyright © 2004-2019 Macnica Networks Corp. All Rights Reserved. HI-VAE

    30 推論 ネットワーク 生成 ネットワーク 潜在空間 実数 正の実数 カウント カテゴリカル 順序 実数 正の実数 カウント カテゴリカル 順序 潜在空間は混合ガウス分 布であると仮定している
  28. Copyright © 2004-2019 Macnica Networks Corp. All Rights Reserved. HI-VAE

    31 推論 潜在空間 S 潜在空間 Z 生成 生成 生成 生成 one-hot ベクトル カラム毎のDNN 推論 生成
  29. Copyright © 2004-2019 Macnica Networks Corp. All Rights Reserved. 欠測値補完確認結果①

    32 データセット UCI Machine Learning Repository, クレジットカードデフォルトデータセット https://archive.ics.uci.edu/ml/datasets/default+of+credit+card+clients # 30000 24 6 7 4 6 1 UCI Machine Learning Repository [http://archive.ics.uci.edu/ml]. Irvine, CA: University of California, School of Information and Computer Science. X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12 X13 X14 X15 X16 X17 X18 X19 X20 X21 X22 X23 Y ID LIMIT_BAL SEX EDUCATION MARRIAGE AGE PAY_0 PAY_2 PAY_3 PAY_4 PAY_5 PAY_6 BILL_AMT1 BILL_AMT2 BILL_AMT3 BILL_AMT4 BILL_AMT5 BILL_AMT6 PAY_AMT1 PAY_AMT2 PAY_AMT3 PAY_AMT4 PAY_AMT5 PAY_AMT6 default payment next month 1 20000 2 2 1 24 2 2 -1 -1 -2 -2 3913 3102 689 0 0 0 0 689 0 0 0 0 1 2 120000 2 2 2 26 -1 2 0 0 0 2 2682 1725 2682 3272 3455 3261 0 1000 1000 1000 0 2000 1 3 90000 2 2 2 34 0 0 0 0 0 0 29239 14027 13559 14331 14948 15549 1518 1500 1000 1000 1000 5000 0 4 50000 2 2 1 37 0 0 0 0 0 0 46990 48233 49291 28314 28959 29547 2000 2019 1200 1100 1069 1000 0 5 50000 1 2 1 57 -1 0 -1 0 0 0 8617 5670 35835 20940 19146 19131 2000 36681 10000 9000 689 679 0 6 50000 1 1 2 37 0 0 0 0 0 0 64400 57069 57608 19394 19619 20024 2500 1815 657 1000 1000 800 0 7 500000 1 1 2 29 0 0 0 0 0 0 367965 412023 445007 542653 483003 473944 55000 40000 38000 20239 13750 13770 0 8 100000 2 2 2 23 0 -1 -1 0 0 -1 11876 380 601 221 -159 567 380 601 0 581 1687 1542 0 9 140000 2 3 1 28 0 0 2 0 0 0 11285 14096 12108 12211 11793 3719 3329 0 432 1000 1000 1000 0 10 20000 1 3 2 35 -2 -2 -2 -2 -1 -1 0 0 0 0 13007 13912 0 0 0 13007 1122 0 0 ※欠測値は欠測率に応じてランダムに設定
  30. Copyright © 2004-2019 Macnica Networks Corp. All Rights Reserved. 欠測率10%

    33 カラム LIMIT_BAL(利用上限額) タイプ 正の実数 カラム SEX(性別) タイプ カテゴリカル カラム EDUCATION タイプ カテゴリカル
  31. Copyright © 2004-2019 Macnica Networks Corp. All Rights Reserved. 欠測率10%

    34 カラム AGE(年齢) タイプ カウント カラム PAY_2(過去支払状況) タイプ 順序 カラム default payment next month タイプ カテゴリカル
  32. Copyright © 2004-2019 Macnica Networks Corp. All Rights Reserved. 欠測率50%

    35 カラム LIMIT_BAL(利用上限額) タイプ 正の実数 カラム SEX(性別) タイプ カテゴリカル カラム EDUCATION タイプ カテゴリカル
  33. Copyright © 2004-2019 Macnica Networks Corp. All Rights Reserved. 欠測率50%

    36 カラム AGE(年齢) タイプ カウント カラム PAY_2(過去支払状況) タイプ 順序 カラム default payment next month タイプ カテゴリカル
  34. Copyright © 2004-2019 Macnica Networks Corp. All Rights Reserved. 欠測値補完確認結果②

    37 データセット UCI Machine Learning Repository, 年収予測データセット https://archive.ics.uci.edu/ml/datasets/adult # 32561 12 0 3 6 1 2 UCI Machine Learning Repository [http://archive.ics.uci.edu/ml]. Irvine, CA: University of California, School of Information and Computer Science. ※欠測値は欠測率に応じてランダムに設定 age workclass fnlwgt education-num marital-status occupation relationship race sex capital-gain capital-loss hours-per-week 39 State-gov 77516 13 Never-married Adm-clerical Not-in-family White Male 2174 0 40 50 Self-emp-not-inc 83311 13 Married-civ-spouse Exec-managerial Husband White Male 0 0 13 38 Private 215646 9 Divorced Handlers-cleaners Not-in-family White Male 0 0 40 53 Private 234721 7 Married-civ-spouse Handlers-cleaners Husband Black Male 0 0 40 28 Private 338409 13 Married-civ-spouse Prof-specialty Wife Black Female 0 0 40 37 Private 284582 14 Married-civ-spouse Exec-managerial Wife White Female 0 0 40 49 Private 160187 5 Married-spouse-absent Other-service Not-in-family Black Female 0 0 16 52 Self-emp-not-inc 209642 9 Married-civ-spouse Exec-managerial Husband White Male 0 0 45 31 Private 45781 14 Never-married Prof-specialty Not-in-family White Female 14084 0 50
  35. Copyright © 2004-2019 Macnica Networks Corp. All Rights Reserved. 欠測率10%

    38 カラム Age (年齢) タイプ カウント カラム Workclass (職業) タイプ カテゴリカル カラム fnlwgt(サンプリングの重み) タイプ 正の実数
  36. Copyright © 2004-2019 Macnica Networks Corp. All Rights Reserved. 欠測率10%

    39 カラム Education (学歴) タイプ 順序 カラム occupation(職種) タイプ カテゴリカル カラム hours-per-week (週労働時間) タイプ カウント
  37. Copyright © 2004-2019 Macnica Networks Corp. All Rights Reserved. 欠測率50%

    40 カラム Age (年齢) タイプ カウント カラム Workclass (職業) タイプ カテゴリカル カラム fnlwgt(サンプリングの重み) タイプ 正の実数
  38. Copyright © 2004-2019 Macnica Networks Corp. All Rights Reserved. 欠測率50%

    41 カラム Education (学歴) タイプ 順序 カラム occupation(職種) タイプ カテゴリカル カラム hours-per-week (週労働時間) タイプ カウント
  39. Copyright © 2004-2019 Macnica Networks Corp. All Rights Reserved. HI-VAEのビジネスへの応用①

    43 HI-VAEにて欠測値を補完した後、機械学習ツールにて目的変数を 予測する。 HI-VAE H2O Driverless AI 予測 欠測値あり データ 欠測値補完 機械学習
  40. Copyright © 2004-2019 Macnica Networks Corp. All Rights Reserved. HI-VAEのビジネスへの応用②

    44 HI-VAEにて欠測値の補完と併せて目的変数の予測も行う。 HI-VAE 予測 欠測値あり データ 欠測値補完 (目的変数予測)
  41. Copyright © 2004-2019 Macnica Networks Corp. All Rights Reserved. HI-VAEのビジネスへの応用③

    45 インバランスデータを拡張し機械学習モデル精度を向上させる HI-VAE 予測 インバランスデータ Positive 類似 データサンプリ ング Negative Positive Negative Positive H2O Driverless AI データ拡張 バランスデータ 機械学習
  42. Copyright © 2004-2019 Macnica Networks Corp. All Rights Reserved. まとめ

    46 HI-VAEは様々なデータタイプが混合しているテーブルデータの欠 測値補完の方法の一つとして検討に値する。 欠測値を補完した後、教師あり機械学習にて目的変数の推論もでき ると考えられる。 HI-VAEのみで欠測値補完と目的変数推論を同時に行う事ができる。 インバランスデータ(Positiveに対して著しくNegativeが多いデー タ)のPositiveデータ生成によって、バランスを解消してから機械 学習を行う事により推論精度への貢献が期待できる。
  43. Copyright © 2004-2019 Macnica Networks Corp. All Rights Reserved. 47

    ご清聴ありがとうございました。 ・ 本資料に記載されている会社名、商品、サービス名等は各社の登録商標または商標です。なお、本資料中では、 「™」、「®」は明記しておりません。 ・本資料は、出典元が記載されている資料、画像等を除き、弊社が著作権を有しています。 ・著作権法上認められた「私的利用のための複製」や「引用」などの場合を除き、本資料の全部または一部について、 無断で複製・転用等することを禁じます。 ・本資料は作成日現在における情報を元に作成されておりますが、その正確性、完全性を保証するものではありません。