意思決定につなげるデータサイエンティストであるために / To be a data scientist who can make decisions

89d1ae72e8683e44c744f4cab8d99f39?s=47 BrainPad
October 24, 2019

意思決定につなげるデータサイエンティストであるために / To be a data scientist who can make decisions

アナリティクスサービス部 副部長の井上さんが白金鉱業 Meetup Vol.11で発表されたスライドです。
https://brainpad-meetup.connpass.com/event/147332/

89d1ae72e8683e44c744f4cab8d99f39?s=128

BrainPad

October 24, 2019
Tweet

Transcript

  1. 意思決定につなげる データサイエンティストであるために 白金鉱業 Meetup Vol.11 2019/10/24 Kei Inoue

  2. なぜ、使われない分析が生まれるのか?

  3. 分析が意思決定に使われないのは データサイエンティストの仕事で悲しいことのひとつ

  4. 数理 モデリング 意思決定 デザイン 意思決定につなげる仕事をする

  5. 自己紹介 井上 佳 (Kei Inoue) データサイエンティストの苦労がチョットワカル • 株式会社ブレインパッド • データサイエンティスト部署の副部長(受託分析

    90名弱) 略歴 • 自動車会社で数理を使った業務カイゼン担当 • ブレインパッドで受託分析プロジェクトマネジャー ※本発表は個人の見解で、所属する組織の公式見解ではありません 1章が無料で読めます https://note.mu/morikita/n/n4fdfc62cec29
  6. データサイエンティストは意思決定の支援者 • 意思決定とは、目標を達成するための方策を選択肢から選ぶこと • 意思決定に至る方法はデータ以外にもある データ サイエンティスト 実行者 意思決定者 意思決定に基づく

    指示 データ分析による 知見・洞察の提供
  7. 意思決定の支援は色々なところでつまづく 途中で終わるプロジェクト 積まれるレポート 使われないシステム AIで何をすべきかわからない 延々と精度不足で先へ進まない ユーザーが使ってくれない 思ったほど成果がでない モデル運用が大変 活用される分析結果

  8. 失敗の一因は、意思決定サイクルをまわせていないこと よくある原因 • AIなら何かいい結果が出せるだろう(目的の曖昧さ) • それを予測しても意味がない(アウトプットの設計不備) • 深層学習を使いたい(手段の目的化) • 使えない、意味がわからない(ユーザーの非協力)

    • 今あるデータが使えるはずだ(データがない、低品質) • ROIがでない、業務インパクトが出てない(精度の不足) • PoCができれば本番もいけるはず(スコープ調整の不足) • 担当者の推進力がない(プロジェクトマネジメントの不足) • ツールを使えば誰でもできるはずだ(体制、スキル不足) 意思決定プロセスを 曖昧にしたまま進めがち 状況に適応した 意思決定サイクルが まわせていない その他、 プロジェクト進行の問題
  9. 2種類の意思決定に対して答える必要がある 1.実現したい意思決定そのもの • その製品は不良品か? • どのくらい商品を発注すべきか? • 顧客に対してどんな施策を打つべきか? 2.メタ意思決定 •

    AIを意思決定に組み込むべきか? • どのようなAI/数理的な枠組みが妥当か? • そのデータ分析の結果は信頼してよいか? PoCで暗黙的に求められるもの 1について答えを出す過程で2を証明する
  10. 意思決定の支援にはデータサイエンスだけでは限界がある 意思決定 の質 定型・くりかえし 可逆・検証容易 類似の状況下での判断 アクションが多様 唯一の状況・1回の判断 不可逆・検証困難 データ

    の状況 データが十分にある データと経験が一致する データが一部しかない ノイズ、欠損がある 多変量・非線形・非定常・分散大 データがない データ化できない 正解の定義が困難 難易度 意思決定の自動化が可能 (機械学習エンジニアの領域) AIに対する期待、ニーズが高いが それだけでは戦えない (データサイエンティストの領域) アート・ビジョンの世界 (起業家の領域) 不良品検知 商品企画 在庫管理 事業戦略 マーケ施策 レコメンデーション CRM 自動運転 配送計画 要素作業 戦略立案
  11. 数理 モデリング 意思決定 デザイン 意思決定につなげる仕事をする

  12. 数理 モデリング 意思決定 デザイン 2つの軸で仕事をシフトする 1.意思決定プロセスをつなげる 2.感性品質を 高める

  13. 数理 モデリング 意思決定 デザイン 2つの軸で仕事をシフトする 1.意思決定プロセスをつなげる 2.感性品質を 高める

  14. 意思決定フレームワークOODAで考える Observe 観察 Orient 状況判断 Decide 意思決定 Act 行動

  15. 自動車の運転におけるOODAの例 Observe 観察 Orient 状況判断 Decide 意思決定 Act 行動 •

    時速20m/sで走っている • 右折箇所まで40mある • 対向車が見える • 2秒後右折箇所に到達する • そのまま右折すると対向車と衝突しそう • 加速していくより減速したほうが安全 • 減速して対向車をやり過ごして右折 • ブレーキを踏む
  16. OODAに対応する分析タスク Observe 観察 Orient 状況判断 Decide 意思決定 Act 行動 変数xの理解

    関数f(x)の構築 適用・最適化 argmax g(x) 変数の操作 数理的 解釈 データアセスメント 基礎集計 特徴量作成 予測モデル構築 制約条件の設定 シミュレーション ハイパラ・閾値の決定 予測・最適化 (部分問題) データ タスク
  17. OODAに対応する分析タスク Observe 観察 Orient 状況判断 Decide 意思決定 Act 行動 変数xの理解

    関数f(x)の構築 適用・最適化 argmax g(x) 変数の操作 数理的 解釈 データアセスメント 基礎集計 特徴量作成 予測モデル構築 制約条件の設定 シミュレーション ハイパラ・閾値の決定 予測・最適化 (部分問題) データ タスク すべてを数理的につなげて構築できると美しいが、 現実はそうではない
  18. データアセスメント 基礎集計 特徴量作成 予測モデル構築 制約条件の設定 シミュレーション ハイパラ・閾値の決定 予測・最適化 (部分問題) データ

    タスク ドメイン知識・ 非データの収集、理解 情報の統合 現実的方策の列挙 影響の把握 意思決定基準設定 意思決定 (部分問題) 非データ タスク 非データタスク含めて意思決定サイクルを回す Observe 観察 Orient 状況判断 Decide 意思決定 Act 行動 意思決定による行動までつなげてサイクルをまわしていくことが重要
  19. データアセスメント 基礎集計 特徴量作成 予測モデル構築 制約条件の設定 シミュレーション ハイパラ・閾値の決定 予測・最適化 (部分問題) データ

    タスク ドメイン知識・ 非データの収集、理解 情報の統合 現実的方策の列挙 影響の把握 意思決定基準設定 意思決定 (部分問題) 非データ タスク 集計だけでも十分貢献できるパターン Observe 観察 Orient 状況判断 Decide 意思決定 Act 行動 • 状況判断に足るモデルがデータ不足によりできないが、 人間で情報の統合がうまくいって貢献できる
  20. ハイパラ・閾値の決定 予測・最適化 データアセスメント 基礎集計 特徴量作成 予測モデル構築 制約条件の設定 シミュレーション (部分問題) ドメイン知識・

    非データの収集、理解 情報の統合 現実的方策の列挙 影響の把握 意思決定基準設定 意思決定 (部分問題) データ タスク 非データ タスク 「肌感と違うんだけど・・・」パターン Observe 観察 Orient 状況判断 Decide 意思決定 Act 行動 • 意思決定者に対していきなり最適化結果だけを見せてしまう • データ/非データの観察・状況判断を意思決定者と並走していく
  21. データアセスメント 基礎集計 特徴量作成 予測モデル構築 制約条件の設定 シミュレーション ハイパラ・閾値の決定 予測・最適化 (部分問題) ドメイン知識・

    非データの収集、理解 情報の統合 現実的方策の列挙 影響の把握 意思決定基準設定 意思決定 (部分問題) データ タスク 非データ タスク 「面白かったよ、で何が言えるの?」パターン Observe 観察 Orient 状況判断 Decide 意思決定 Act 行動 • 状況判断につながらない集計や予測タスク • 目的が曖昧なままの作業化、作りっぱなしで方策につなげられない
  22. 目的に沿った状況判断を行う 精度が高いし、 需要予測に基づいて生産すれば 在庫・欠品がゼロになる! • オペレーション改善=精度向上の罠 • なぜ余剰、欠品が起きるか?を見出すべき 精度が低くても、予測値をそのまま 使うことだけが方策ではない

    • 管理不能な要素(天気/休日)と 管理可能な要素(価格/広告/…)のダイナミズム • 価格を変えるか? • 多めに生産して雨天施策を実施するか? • 生産リードタイムを短縮するか?
  23. 「とりあえず施策案出してよ」パターン・「AIやりたいんだ」パターン Observe 観察 Orient 状況判断 Decide 意思決定 Act 行動 前提・目的

    • 行動の結果が評価されておらず、サイクルがまわっていない • 目的自体の修正が必要(ダブルループ学習)
  24. データアセスメント 基礎集計 特徴量作成 予測モデル構築 制約条件の設定 シミュレーション ハイパラ・閾値の決定 予測・最適化 (部分問題) ドメイン知識・

    非データの収集、理解 情報の統合 現実的方策の列挙 影響の把握 意思決定基準設定 意思決定 (部分問題) データ タスク 非データ タスク 「精度向上しないと使えないよ」パターン Observe 観察 Orient 状況判断 Decide 意思決定 Act 行動 • 精度とビジネスインパクトの関係をイメージできていないまま 精度向上を求められる
  25. モデル精度への投資と実際の効果を考えたQCDマネジメント 精度 時間 精度 効果 精度と効果が直結 (オペレーション直結) 精度に対して効果が逓減 (オペレーションで吸収) 効果が不連続

    (人員削減など、方策の制約) 精度はすぐ頭打ち(Kaggleも同じ) ブレークスルーなしに時間をかけるのは望み薄 モデル精度だけでなくトータルのビジネスインパクトのイメージを考える
  26. 数理 モデリング 意思決定 デザイン 2つの軸で仕事をシフトする 1.意思決定プロセスをつなげる 2.感性品質を 高める

  27. 製造業における品質の考え 製造品質 できばえの品質 ばらつき・不良がない(公差±x%以内) 設計品質 ねらいの品質 スペックが高い(高馬力、低燃費) 感性品質 使用者が感じる品質(UX) かっこいい、気持ちいい、高級、安心

    昔は製造品質でも差別化要素となったが、今は感性品質の時代
  28. 意思決定支援の品質とめざすべきところ 製造品質 再現性 再現性 汎化性 バグなし 設計品質 評価可能性 解決可能性 意思決定の意義

    訓練データの精度 問題設定のよさ 感性品質 説明可能性(わかりやすいか) 負担感(楽か) 納得感(代案が検討されたか) 信頼感(議論が尽くされたか) 意思決定者に対して、感性品質を高めるアウトプットを作る データタスクの品質 意思決定の品質 ユーザーに対する品質 AutoML の台頭 重要性 が増す
  29. モデルの説明性ではない、データサイエンティストのものがたり(UX) 『人は物語る動物である』 「当たり前の結果」・「肌感と違う」 という言葉の根底に、 ものがたり(ナラティブ)への欲求がある ディープラーニングは数式で表現される ホワイトボックス 関数(相関)から物語(因果)を語る

  30. 意思決定にはエネルギーがいる。それを助ける(UI) 単純作業的な意思決定の自動化は 受け入れられやすい。辛いから 少しでもわかりやすい可視化 アクションに紐づく指標化・ラベル化 不良品確率 [0.6] ランクB 取り除いて 検品してください

  31. データ分析を通じたUX・UI・IAデザイン 意思決定支援の品質をUXまで含めてトータルで設計する 欠損・ノイズ モデル誤差 論理的誤謬 認知バイアス 数理 論理 認知 データ

    ドメイン知識 ・非データ データ サイエンティスト 意思決定者
  32. データで紡ぎ、ココロ動かす、楽しいデータ分析のためのまとめ • 意思決定プロセス全体をつなげ、サイクルをまわす • 非データタスクも意思決定者と並走する • 情報の統合/現実的方策の列挙/影響の把握/意思決定基準の設定 • 行動の結果を次の観察フェーズや、前提・目的にフィードバックする •

    設計・製造品質だけでなく、感性品質を高める • わかりやすいものがたり • 楽になる仕掛けづくり(可視化・指標化・ラベル化)
  33. 数理 モデリング 意思決定 デザイン チームで解決するか、今後のキャリアとするか 意思決定プロセスをつなげる 感性品質を 高める データ サイエンス

    デザイン デシジョン サイエンス
  34. おわり