Upgrade to Pro — share decks privately, control downloads, hide ads and more …

機械学習タスクを始める前に

Masa
April 10, 2019

 機械学習タスクを始める前に

プライベートの新社会人向け勉強会にて
一部修正後up
データ分析屋さんにこれからなる皆様へ

Masa

April 10, 2019
Tweet

More Decks by Masa

Other Decks in Business

Transcript

  1. 3 はじめまして:Asamiです 職歴を簡単に ✓ リスク・クオンツ ✓ Excel・VBA野郎になりさがり、すぐ転職 外資コンサル ✓ 米国某コンサルファームのデータサイエンスコンサルタント

    ✓ 雰囲気、最高。またいつか帰りたいな。 某カタカナの 証券会社 某保険系 ✓ 定量評価部データサイエンスTの立ち上げメンバー。 ✓ 色々な経験を頂きました。良いメンバーに巡り会えたなと。 国家公務員 ✓ 某省(1種)に入省。犯罪・治安関係全般に従事 某保険系 ✓ 社内教育をしながら、細々とデータサイエンス活動 ✓ 好きなデータは画像・動画 • 学部時代は理論社会学専攻(Luhmann理論/OG論争らへんが好き)でした。 • 大学院で応用数学を勉強し(かじり)社会人に!
  2. N L P M モデル選択で考えるべきこと 8 さあ、分析設計です。考えるべきことは2つ 表現したい現象の特殊性 何がしたいんだっけ? ビジネルの理解

    現象の理解 最適なモデル選択の検討が可能 Imbalanced data ? サンプリングしようかな 個人-集団の階層性を 表現? 階層ベイズとか使えそう Inputは画像かー e.t.c.
  3. N L P M モデル選択で考えるべきこと 9 本日ご案内するのは主に右側の一部 1. 予測精度の追求 2.

    結果の安定性 3. 解釈可能性 4. 因果効果 5. 開発のコスパ 表現したい現象の特殊性 何がしたいんだっけ? ビジネルの理解 現象の理解 結局ビジネス上のニーズと制約をしっかり理解できたモデルが良いモデル (あえてビジネスって書いたけど、本当はアカデミズムでも同じ!) 考えること こっちは各自 教科書読もう 論文読もう 勉強大事 私が
  4. N L P M 1. 予測精度の追求 11 • もし、これだけを目指すのであれば、なんでもあり。 •

    例えば、Kaggle的な戦法とか Stacking x1 x2 x3 xp Ydnn Yxgbt Y サンプル1 サンプル2 サンプル3 サンプル4 サンプル5 サンプル6 サンプル7 これで学習 これで学習 X X 任意の学習器 メタ特徴量 メタ特徴量を使って、 さらに予測モデルを構築 予測モデルのピラミッド
  5. N L P M 1. 予測精度の追求 12 • 予測値が当たればなんでもいいようなタスク •

    一部のマーケティングタスク • 一部の画像処理、自然言語処理タスク • コンペ(kaggleとか) • モデルの可読性を重視するタスク • 説明責任が強いタスク • モデルメンテのリソースに不安 e.t.c.
  6. N L P M 1. 予測精度の追求 13 (悪意のない)手のひら返しに注意!! ?? プロジェクト前

    プロジェクト後 とにかく精度が 良いの作ってよ 精度重視ですね! 任せてください!! よくも意味不明なモデル作っ てくれたな。。。 (当局説明どうすんだ!) ゴメンナサイ… なんか凄いね • クライアントに、モデルの要件を丸投げするのは危険 • クライアントとデータ分析屋さんが協力してモデル要件を決めていこう
  7. N L P M 2. 結果の安定性(予見可能性) 15 事例その1) Google photosのゴリラ問題

    ビジネルの理解 https://www.theguardian.com/technology/2015/jul/01/google-sorry-racist-auto-tag- photo-app
  8. N L P M 2. 結果の安定性(予見可能性) 16 ビジネルの理解 Evtimov et

    al.: Robust Physical-World Attacks on Machine Learning Models. 2017 https://arxiv.org/abs/1707.08945 「止まれ」の標識に、 ちょっとモザイクいれた ら「45m制限」と誤 認識してる 事例その2)敵対的入力(adversarial example)
  9. N L P M 3. 解釈可能性 19 • 一言にモデルの「解釈」といっても、いろいろなレベルがある •

    どのレベルの解釈性が必要?(けっこう左上が多い。。。) ▪機械学習と解釈可能性 https://speakerdeck.com/sinhrks/ji-jie-xue-xi-tojie-shi-ke-neng-xing?slide=36 • Regression Coefficents • Feature Importance ・・・ • Surrogate Models • Sensitivity Analysis ・・・ • Maximum Activation Analysis (GAN e.t.c.) • LIME • LOCO • SHAP ・・・ Model Specific Model Agnostic Global Interpretability Local Interpretability
  10. N L P M 4. 因果効果 22 YES NO YES

    テッパン Sure Thing あまのじゃく Do-Not-Disturb NO 説得可能 Persuadable 無関心 Lost Cause 施策を受けた場合、購買する? 施 策 を 受 け な か っ た 場 合 購 買 す る ? 反事実条件 counterfactual 反事実条件 • 因果関係タスクの基本は 反事実条件 counterfactual をどう向き合うか
  11. N L P M 4. 因果効果 2 3 研究スキーム対応 統計的因果推論

    関連の話題 操作変数法/GMM:「説明変数と相関があり」かつ「誤差との相関がゼロ である」 のような変数を利用 LiNGAM:ダルモア・スキットビッチの定理の対偶を上手く利用して、因果の 向きを推定 傾向スコア:交絡因子から割り付け確率を算出。当該スコアをもとに、マッ チング等によって因果効果を推定 部分識別:パラメータを入りうるバウンドとして識別 無作為比較実験(RCT)で対応 介入群と統制群をランダムに割り当て、比較 バックドア基準:バイアスを避けるために,データが生成されている構造を しっかり捉えよう グレンジャー因果性:時系列の特性をうまく用いて因果推定
  12. N L P M 5. 開発の時間的制約とコスパ 25 架空ケース)架空の銀行にて 住宅ローン審査をAIを使った与信モデル で完全自動化しまーす!!

    コンサル屋さん デジタル! ディスラプト!! シンギュラリティ!!! • 過去の審査情報をモデル化 • 事務効率化を狙う 特徴量 教師データ 住宅ローン申込書 過去の審査結果 受託!!
  13. N L P M 5. 開発の時間的制約とコスパ 26 架空ケース)架空の銀行にて 住宅ローン審査をAIを使った与信モデル で完全自動化しまーす!!

    コンサル屋さん デジタル! ディスラプト!! シンギュラリティ!!! • 過去の審査情報をモデル化 • 事務効率化を狙う 審査ルールブックの存在(を発見) • 返済比率35%超なら不可 • 年収の•倍超なら不可 e.t.c. ・・・ん?? 特徴量 教師データ 住宅ローン申込書 過去の審査結果 受託!!
  14. N L P M 5. 開発のコスパ 28 機械学習PJは(本気でやれば)高コストだし、無事着地できるかどうか、、、 特徴量 エンジニアリング

    ハイパーパラメータ チューニング モデル 軽量化/高速化 データ分析屋さんのマインドセット ≠ (ソフトウェア)エンジニアのマインドセット • これらの処理は(決められた期日内で、)とにかくギリギリまで繰り返したい • かつ、頑張ってもタスクによっては、うまくいくかどうか不明 高コスト 高リスク
  15. N L P M 5. 開発のコスパ 29 案件発見 if文で書ける if文システム

    構築 • 低コスト • 安定システム if文では、流石に無理 モデル精度と ご利益の関係は? モデル精度 100% 0% ご 利 益 ( 売 上 等 ) ④ 後期爆発型PJ ① 線形PJ ② シグモイド型PJ ③ 一定型PJ モデルが良くなればよくなるほど、 売上up! 是非やろう!! 一定レベルの精度が出たら、 利益頭打ち。 コスパ考えよう。 モデルとビジネスが繋がってない。 モデルをどう活かすか考えてから、 取り組むべき! 精度が閾値を超えないと、利 益が出ない(無価値) 到達可能かどうか要チェック ① 線形 ② シグモ イド ③ 一定 ④ 後期 爆発
  16. N L P M 5. 開発のコスパ 30 モデル精度と ご利益の関係は? モデル精度

    100% 0% ご 利 益 ( 売 上 等 ) モデル構築の フィージビリティ そもそもそんなモデル構築可能? データ分析屋さんのアセスメント 日次単位の 地震予知モデル 作ってよ! モデルのご利益OK? フィージビリティもOK? 機械学習プロジェクト スタート!!