Upgrade to Pro — share decks privately, control downloads, hide ads and more …

機械学習タスクを始める前に

B583d0943fe698dd7fc75d30d02f099f?s=47 Masa
April 10, 2019

 機械学習タスクを始める前に

プライベートの新社会人向け勉強会にて
一部修正後up
データ分析屋さんにこれからなる皆様へ

B583d0943fe698dd7fc75d30d02f099f?s=128

Masa

April 10, 2019
Tweet

More Decks by Masa

Other Decks in Business

Transcript

  1. モデル構築タスクを始める前に アサインされたら、まず確かめて Twitter @asas_mimi

  2. Who are you? 2 Nice to meet you!

  3. 3 はじめまして:Asamiです 職歴を簡単に ✓ リスク・クオンツ ✓ Excel・VBA野郎になりさがり、すぐ転職 外資コンサル ✓ 米国某コンサルファームのデータサイエンスコンサルタント

    ✓ 雰囲気、最高。またいつか帰りたいな。 某カタカナの 証券会社 某保険系 ✓ 定量評価部データサイエンスTの立ち上げメンバー。 ✓ 色々な経験を頂きました。良いメンバーに巡り会えたなと。 国家公務員 ✓ 某省(1種)に入省。犯罪・治安関係全般に従事 某保険系 ✓ 社内教育をしながら、細々とデータサイエンス活動 ✓ 好きなデータは画像・動画 • 学部時代は理論社会学専攻(Luhmann理論/OG論争らへんが好き)でした。 • 大学院で応用数学を勉強し(かじり)社会人に!
  4. 本日のテーマは 「教師あり学習」プロジェクト 4 ・・・を始める前に考えること(メモ)

  5. 本スライド内の事例っぽいものは 全て架空の出来事です 5

  6. 教師あり学習 vs. 教師なし学習 6 特徴量A 特徴量B 教師あり学習 教師なし学習 教師ラベル情報をできる だけ綺麗に分類したい

    特徴量空間内で似ているも の同士をグルーピングしたい
  7. 教師あり学習 vs. 教師なし学習 7 特徴量A 特徴量B 教師あり学習 教師なし学習 今日は基本的にこっち(教師あり学習)の話をします

  8. N L P M モデル選択で考えるべきこと 8 さあ、分析設計です。考えるべきことは2つ 表現したい現象の特殊性 何がしたいんだっけ? ビジネルの理解

    現象の理解 最適なモデル選択の検討が可能 Imbalanced data ? サンプリングしようかな 個人-集団の階層性を 表現? 階層ベイズとか使えそう Inputは画像かー e.t.c.
  9. N L P M モデル選択で考えるべきこと 9 本日ご案内するのは主に右側の一部 1. 予測精度の追求 2.

    結果の安定性 3. 解釈可能性 4. 因果効果 5. 開発のコスパ 表現したい現象の特殊性 何がしたいんだっけ? ビジネルの理解 現象の理解 結局ビジネス上のニーズと制約をしっかり理解できたモデルが良いモデル (あえてビジネスって書いたけど、本当はアカデミズムでも同じ!) 考えること こっちは各自 教科書読もう 論文読もう 勉強大事 私が
  10. 1.予測精度が命のPJの場合 10 ・・・幸運なPJですね。 なんでもやればいいと思う

  11. N L P M 1. 予測精度の追求 11 • もし、これだけを目指すのであれば、なんでもあり。 •

    例えば、Kaggle的な戦法とか Stacking x1 x2 x3 xp Ydnn Yxgbt Y サンプル1 サンプル2 サンプル3 サンプル4 サンプル5 サンプル6 サンプル7 これで学習 これで学習 X X 任意の学習器 メタ特徴量 メタ特徴量を使って、 さらに予測モデルを構築 予測モデルのピラミッド
  12. N L P M 1. 予測精度の追求 12 • 予測値が当たればなんでもいいようなタスク •

    一部のマーケティングタスク • 一部の画像処理、自然言語処理タスク • コンペ(kaggleとか) • モデルの可読性を重視するタスク • 説明責任が強いタスク • モデルメンテのリソースに不安 e.t.c.
  13. N L P M 1. 予測精度の追求 13 (悪意のない)手のひら返しに注意!! ?? プロジェクト前

    プロジェクト後 とにかく精度が 良いの作ってよ 精度重視ですね! 任せてください!! よくも意味不明なモデル作っ てくれたな。。。 (当局説明どうすんだ!) ゴメンナサイ… なんか凄いね • クライアントに、モデルの要件を丸投げするのは危険 • クライアントとデータ分析屋さんが協力してモデル要件を決めていこう
  14. 2.モデルの挙動は心配ですよね 14 ・・・複雑なモデルを選択? リリース前には覚悟が必要

  15. N L P M 2. 結果の安定性(予見可能性) 15 事例その1) Google photosのゴリラ問題

    ビジネルの理解 https://www.theguardian.com/technology/2015/jul/01/google-sorry-racist-auto-tag- photo-app
  16. N L P M 2. 結果の安定性(予見可能性) 16 ビジネルの理解 Evtimov et

    al.: Robust Physical-World Attacks on Machine Learning Models. 2017 https://arxiv.org/abs/1707.08945 「止まれ」の標識に、 ちょっとモザイクいれた ら「45m制限」と誤 認識してる 事例その2)敵対的入力(adversarial example)
  17. CACE Changing Anything Changes Everything 17 Deep Learningの難しいところ

  18. 3.モデル内容をどこまで説明? 18 ・・・規制当局への説明、 お客様への説明

  19. N L P M 3. 解釈可能性 19 • 一言にモデルの「解釈」といっても、いろいろなレベルがある •

    どのレベルの解釈性が必要?(けっこう左上が多い。。。) ▪機械学習と解釈可能性 https://speakerdeck.com/sinhrks/ji-jie-xue-xi-tojie-shi-ke-neng-xing?slide=36 • Regression Coefficents • Feature Importance ・・・ • Surrogate Models • Sensitivity Analysis ・・・ • Maximum Activation Analysis (GAN e.t.c.) • LIME • LOCO • SHAP ・・・ Model Specific Model Agnostic Global Interpretability Local Interpretability
  20. 4.そもそも予測が目的じゃない? 20 ・・・因果関係が知りたい 公務員時代はこっちがメイン

  21. N L P M 4. 因果効果 21 モデルが解釈可能 因果効果 Model

    Specific & Global Interpretability に
  22. N L P M 4. 因果効果 22 YES NO YES

    テッパン Sure Thing あまのじゃく Do-Not-Disturb NO 説得可能 Persuadable 無関心 Lost Cause 施策を受けた場合、購買する? 施 策 を 受 け な か っ た 場 合 購 買 す る ? 反事実条件 counterfactual 反事実条件 • 因果関係タスクの基本は 反事実条件 counterfactual をどう向き合うか
  23. N L P M 4. 因果効果 2 3 研究スキーム対応 統計的因果推論

    関連の話題 操作変数法/GMM:「説明変数と相関があり」かつ「誤差との相関がゼロ である」 のような変数を利用 LiNGAM:ダルモア・スキットビッチの定理の対偶を上手く利用して、因果の 向きを推定 傾向スコア:交絡因子から割り付け確率を算出。当該スコアをもとに、マッ チング等によって因果効果を推定 部分識別:パラメータを入りうるバウンドとして識別 無作為比較実験(RCT)で対応 介入群と統制群をランダムに割り当て、比較 バックドア基準:バイアスを避けるために,データが生成されている構造を しっかり捉えよう グレンジャー因果性:時系列の特性をうまく用いて因果推定
  24. 5.そのプロジェクト、 機械学習にバリューある? 24 ・・・手段の目的化? ピボットテーブルでよくない?

  25. N L P M 5. 開発の時間的制約とコスパ 25 架空ケース)架空の銀行にて 住宅ローン審査をAIを使った与信モデル で完全自動化しまーす!!

    コンサル屋さん デジタル! ディスラプト!! シンギュラリティ!!! • 過去の審査情報をモデル化 • 事務効率化を狙う 特徴量 教師データ 住宅ローン申込書 過去の審査結果 受託!!
  26. N L P M 5. 開発の時間的制約とコスパ 26 架空ケース)架空の銀行にて 住宅ローン審査をAIを使った与信モデル で完全自動化しまーす!!

    コンサル屋さん デジタル! ディスラプト!! シンギュラリティ!!! • 過去の審査情報をモデル化 • 事務効率化を狙う 審査ルールブックの存在(を発見) • 返済比率35%超なら不可 • 年収の•倍超なら不可 e.t.c. ・・・ん?? 特徴量 教師データ 住宅ローン申込書 過去の審査結果 受託!!
  27. If 文 で十分では?? Simple is best 27

  28. N L P M 5. 開発のコスパ 28 機械学習PJは(本気でやれば)高コストだし、無事着地できるかどうか、、、 特徴量 エンジニアリング

    ハイパーパラメータ チューニング モデル 軽量化/高速化 データ分析屋さんのマインドセット ≠ (ソフトウェア)エンジニアのマインドセット • これらの処理は(決められた期日内で、)とにかくギリギリまで繰り返したい • かつ、頑張ってもタスクによっては、うまくいくかどうか不明 高コスト 高リスク
  29. N L P M 5. 開発のコスパ 29 案件発見 if文で書ける if文システム

    構築 • 低コスト • 安定システム if文では、流石に無理 モデル精度と ご利益の関係は? モデル精度 100% 0% ご 利 益 ( 売 上 等 ) ④ 後期爆発型PJ ① 線形PJ ② シグモイド型PJ ③ 一定型PJ モデルが良くなればよくなるほど、 売上up! 是非やろう!! 一定レベルの精度が出たら、 利益頭打ち。 コスパ考えよう。 モデルとビジネスが繋がってない。 モデルをどう活かすか考えてから、 取り組むべき! 精度が閾値を超えないと、利 益が出ない(無価値) 到達可能かどうか要チェック ① 線形 ② シグモ イド ③ 一定 ④ 後期 爆発
  30. N L P M 5. 開発のコスパ 30 モデル精度と ご利益の関係は? モデル精度

    100% 0% ご 利 益 ( 売 上 等 ) モデル構築の フィージビリティ そもそもそんなモデル構築可能? データ分析屋さんのアセスメント 日次単位の 地震予知モデル 作ってよ! モデルのご利益OK? フィージビリティもOK? 機械学習プロジェクト スタート!!
  31. データ分析屋さんのコンサル業、 ジョブがイケてるとは限らない 始める前に、 軌道修正と期待値コントロールは大事 31