機械学習タスクを始める前に

モデル構築タスクを始める前にアサインされたら、まず確かめて Twitter @asas_mimi

Who are you? 2 Nice to meet you!

3 はじめまして：Asamiです職歴を簡単に ✓ リスク・クオンツ ✓ Excel・VBA野郎になりさがり、すぐ転職外資コンサル ✓ 米国某コンサルファームのデータサイエンスコンサルタント
✓ 雰囲気、最高。またいつか帰りたいな。某カタカナの証券会社某保険系 ✓ 定量評価部データサイエンスTの立ち上げメンバー。 ✓ 色々な経験を頂きました。良いメンバーに巡り会えたなと。国家公務員 ✓ 某省（１種）に入省。犯罪・治安関係全般に従事某保険系 ✓ 社内教育をしながら、細々とデータサイエンス活動 ✓ 好きなデータは画像・動画 • 学部時代は理論社会学専攻(Luhmann理論/OG論争らへんが好き)でした。 • 大学院で応用数学を勉強し（かじり）社会人に！

本日のテーマは「教師あり学習」プロジェクト 4 ・・・を始める前に考えること（メモ）

本スライド内の事例っぽいものは全て架空の出来事です 5

教師あり学習 vs. 教師なし学習 6 特徴量A 特徴量B 教師あり学習教師なし学習教師ラベル情報をできるだけ綺麗に分類したい
特徴量空間内で似ているもの同士をグルーピングしたい

教師あり学習 vs. 教師なし学習 7 特徴量A 特徴量B 教師あり学習教師なし学習今日は基本的にこっち（教師あり学習）の話をします

N L P M モデル選択で考えるべきこと 8 さあ、分析設計です。考えるべきことは２つ表現したい現象の特殊性何がしたいんだっけ？ビジネルの理解
現象の理解最適なモデル選択の検討が可能 Imbalanced data ？サンプリングしようかな個人-集団の階層性を表現？階層ベイズとか使えそう Inputは画像かー e.t.c.

N L P M モデル選択で考えるべきこと 9 本日ご案内するのは主に右側の一部 1. 予測精度の追求 2.
結果の安定性 3. 解釈可能性 4. 因果効果 5. 開発のコスパ表現したい現象の特殊性何がしたいんだっけ？ビジネルの理解現象の理解結局ビジネス上のニーズと制約をしっかり理解できたモデルが良いモデル（あえてビジネスって書いたけど、本当はアカデミズムでも同じ！）考えることこっちは各自教科書読もう論文読もう勉強大事私が

１．予測精度が命のPJの場合 10 ・・・幸運なPJですね。なんでもやればいいと思う

N L P M 1. 予測精度の追求 11 • もし、これだけを目指すのであれば、なんでもあり。 •
例えば、Kaggle的な戦法とか Stacking x1 x2 x3 xp Ydnn Yxgbt Y サンプル１サンプル２サンプル３サンプル４サンプル５サンプル６サンプル7 これで学習これで学習 X X 任意の学習器メタ特徴量メタ特徴量を使って、さらに予測モデルを構築予測モデルのピラミッド

N L P M 1. 予測精度の追求 12 • 予測値が当たればなんでもいいようなタスク •
一部のマーケティングタスク • 一部の画像処理、自然言語処理タスク • コンペ（kaggleとか） • モデルの可読性を重視するタスク • 説明責任が強いタスク • モデルメンテのリソースに不安 e.t.c.

N L P M 1. 予測精度の追求 13 （悪意のない）手のひら返しに注意！！？？プロジェクト前
プロジェクト後とにかく精度が良いの作ってよ精度重視ですね！任せてください！！よくも意味不明なモデル作ってくれたな。。。（当局説明どうすんだ！）ゴメンナサイ… なんか凄いね • クライアントに、モデルの要件を丸投げするのは危険 • クライアントとデータ分析屋さんが協力してモデル要件を決めていこう

２．モデルの挙動は心配ですよね 14 ・・・複雑なモデルを選択？リリース前には覚悟が必要

N L P M 2. 結果の安定性（予見可能性） 15 事例その１） Google photosのゴリラ問題
ビジネルの理解 https://www.theguardian.com/technology/2015/jul/01/google-sorry-racist-auto-tag- photo-app

N L P M 2. 結果の安定性（予見可能性） 16 ビジネルの理解 Evtimov et
al.: Robust Physical-World Attacks on Machine Learning Models. 2017 https://arxiv.org/abs/1707.08945 「止まれ」の標識に、ちょっとモザイクいれたら「45ｍ制限」と誤認識してる事例その２）敵対的入力(adversarial example)

CACE Changing Anything Changes Everything 17 Deep Learningの難しいところ

３．モデル内容をどこまで説明？ 18 ・・・規制当局への説明、お客様への説明

N L P M 3. 解釈可能性 19 • 一言にモデルの「解釈」といっても、いろいろなレベルがある •
どのレベルの解釈性が必要？（けっこう左上が多い。。。） ▪機械学習と解釈可能性 https://speakerdeck.com/sinhrks/ji-jie-xue-xi-tojie-shi-ke-neng-xing?slide=36 • Regression Coefficents • Feature Importance ・・・ • Surrogate Models • Sensitivity Analysis ・・・ • Maximum Activation Analysis (GAN e.t.c.) • LIME • LOCO • SHAP ・・・ Model Specific Model Agnostic Global Interpretability Local Interpretability

４．そもそも予測が目的じゃない？ 20 ・・・因果関係が知りたい公務員時代はこっちがメイン

N L P M 4. 因果効果 21 モデルが解釈可能因果効果 Model
Specific & Global Interpretability に

N L P M 4. 因果効果 22 ＹＥＳＮＯＹＥＳ
テッパン Sure Thing あまのじゃく Do-Not-Disturb ＮＯ説得可能 Persuadable 無関心 Lost Cause 施策を受けた場合、購買する？施策を受けなかった場合購買する？反事実条件 counterfactual 反事実条件 • 因果関係タスクの基本は反事実条件 counterfactual をどう向き合うか

N L P M 4. 因果効果 2 3 研究スキーム対応統計的因果推論
関連の話題操作変数法／GMM：「説明変数と相関があり」かつ「誤差との相関がゼロである」のような変数を利用 LiNGAM：ダルモア・スキットビッチの定理の対偶を上手く利用して、因果の向きを推定傾向スコア：交絡因子から割り付け確率を算出。当該スコアをもとに、マッチング等によって因果効果を推定部分識別：パラメータを入りうるバウンドとして識別無作為比較実験（RCT）で対応介入群と統制群をランダムに割り当て、比較バックドア基準：バイアスを避けるために，データが生成されている構造をしっかり捉えようグレンジャー因果性：時系列の特性をうまく用いて因果推定

５．そのプロジェクト、機械学習にバリューある？ 24 ・・・手段の目的化？ピボットテーブルでよくない？

N L P M 5. 開発の時間的制約とコスパ 25 架空ケース）架空の銀行にて住宅ローン審査をＡＩを使った与信モデルで完全自動化しまーす！！
コンサル屋さんデジタル！ディスラプト！！シンギュラリティ！！！ • 過去の審査情報をモデル化 • 事務効率化を狙う特徴量教師データ住宅ローン申込書過去の審査結果受託！！

N L P M 5. 開発の時間的制約とコスパ 26 架空ケース）架空の銀行にて住宅ローン審査をＡＩを使った与信モデルで完全自動化しまーす！！
コンサル屋さんデジタル！ディスラプト！！シンギュラリティ！！！ • 過去の審査情報をモデル化 • 事務効率化を狙う審査ルールブックの存在(を発見) • 返済比率35％超なら不可 • 年収の•倍超なら不可 e.t.c. ・・・ん？？特徴量教師データ住宅ローン申込書過去の審査結果受託！！

If 文で十分では？？ Simple is best 27

N L P M 5. 開発のコスパ 28 機械学習PJは（本気でやれば）高コストだし、無事着地できるかどうか、、、特徴量エンジニアリング
ハイパーパラメータチューニングモデル軽量化/高速化データ分析屋さんのマインドセット ≠ (ソフトウェア)エンジニアのマインドセット • これらの処理は（決められた期日内で、）とにかくギリギリまで繰り返したい • かつ、頑張ってもタスクによっては、うまくいくかどうか不明高コスト高リスク

N L P M 5. 開発のコスパ 29 案件発見 if文で書ける if文システム
構築 • 低コスト • 安定システム if文では、流石に無理モデル精度とご利益の関係は？モデル精度 100％ 0％ご利益（売上等） ④ 後期爆発型PJ ① 線形PJ ② シグモイド型PJ ③ 一定型PJ モデルが良くなればよくなるほど、売上up! 是非やろう！！一定レベルの精度が出たら、利益頭打ち。コスパ考えよう。モデルとビジネスが繋がってない。モデルをどう活かすか考えてから、取り組むべき! 精度が閾値を超えないと、利益が出ない（無価値）到達可能かどうか要チェック ① 線形 ② シグモイド ③ 一定 ④ 後期爆発

N L P M 5. 開発のコスパ 30 モデル精度とご利益の関係は？モデル精度
100％ 0％ご利益（売上等）モデル構築のフィージビリティそもそもそんなモデル構築可能？データ分析屋さんのアセスメント日次単位の地震予知モデル作ってよ！モデルのご利益OK? フィージビリティもOK? 機械学習プロジェクトスタート！！

データ分析屋さんのコンサル業、ジョブがイケてるとは限らない始める前に、軌道修正と期待値コントロールは大事 31

機械学習タスクを始める前に

機械学習タスクを始める前に

Masa

More Decks by Masa

Other Decks in Business

Featured

Transcript

モデル構築タスクを始める前にアサインされたら、まず確かめて Twitter @asas_mimi

Who are you? 2 Nice to meet you!

3 はじめまして：Asamiです職歴を簡単に ✓ リスク・クオンツ ✓ Excel・VBA野郎になりさがり、すぐ転職外資コンサル ✓ 米国某コンサルファームのデータサイエンスコンサルタント

本日のテーマは「教師あり学習」プロジェクト 4 ・・・を始める前に考えること（メモ）

本スライド内の事例っぽいものは全て架空の出来事です 5

教師あり学習 vs. 教師なし学習 6 特徴量A 特徴量B 教師あり学習教師なし学習教師ラベル情報をできるだけ綺麗に分類したい

教師あり学習 vs. 教師なし学習 7 特徴量A 特徴量B 教師あり学習教師なし学習今日は基本的にこっち（教師あり学習）の話をします

N L P M モデル選択で考えるべきこと 8 さあ、分析設計です。考えるべきことは２つ表現したい現象の特殊性何がしたいんだっけ？ビジネルの理解

N L P M モデル選択で考えるべきこと 9 本日ご案内するのは主に右側の一部 1. 予測精度の追求 2.

１．予測精度が命のPJの場合 10 ・・・幸運なPJですね。なんでもやればいいと思う

N L P M 1. 予測精度の追求 11 • もし、これだけを目指すのであれば、なんでもあり。 •

N L P M 1. 予測精度の追求 12 • 予測値が当たればなんでもいいようなタスク •

N L P M 1. 予測精度の追求 13 （悪意のない）手のひら返しに注意！！？？プロジェクト前

２．モデルの挙動は心配ですよね 14 ・・・複雑なモデルを選択？リリース前には覚悟が必要

N L P M 2. 結果の安定性（予見可能性） 15 事例その１） Google photosのゴリラ問題

N L P M 2. 結果の安定性（予見可能性） 16 ビジネルの理解 Evtimov et

CACE Changing Anything Changes Everything 17 Deep Learningの難しいところ

３．モデル内容をどこまで説明？ 18 ・・・規制当局への説明、お客様への説明

N L P M 3. 解釈可能性 19 • 一言にモデルの「解釈」といっても、いろいろなレベルがある •

４．そもそも予測が目的じゃない？ 20 ・・・因果関係が知りたい公務員時代はこっちがメイン

N L P M 4. 因果効果 21 モデルが解釈可能因果効果 Model

N L P M 4. 因果効果 22 ＹＥＳＮＯＹＥＳ

N L P M 4. 因果効果 2 3 研究スキーム対応統計的因果推論

５．そのプロジェクト、機械学習にバリューある？ 24 ・・・手段の目的化？ピボットテーブルでよくない？

N L P M 5. 開発の時間的制約とコスパ 25 架空ケース）架空の銀行にて住宅ローン審査をＡＩを使った与信モデルで完全自動化しまーす！！

N L P M 5. 開発の時間的制約とコスパ 26 架空ケース）架空の銀行にて住宅ローン審査をＡＩを使った与信モデルで完全自動化しまーす！！

If 文で十分では？？ Simple is best 27

N L P M 5. 開発のコスパ 28 機械学習PJは（本気でやれば）高コストだし、無事着地できるかどうか、、、特徴量エンジニアリング

N L P M 5. 開発のコスパ 29 案件発見 if文で書ける if文システム

N L P M 5. 開発のコスパ 30 モデル精度とご利益の関係は？モデル精度

データ分析屋さんのコンサル業、ジョブがイケてるとは限らない始める前に、軌道修正と期待値コントロールは大事 31