Upgrade to Pro — share decks privately, control downloads, hide ads and more …

無駄分析を避ける為にデータサイエンティストに求められる能力

ninohira
September 03, 2020
11k

 無駄分析を避ける為にデータサイエンティストに求められる能力

Bonfire Data Analyst #3 登壇資料
https://yj-meetup.connpass.com/event/184700/

ninohira

September 03, 2020
Tweet

Transcript

  1. ແବ෼ੳΛආ͚Δҝʹ
    σʔλαΠΤϯςΟετʹٻΊΒΕΔೳྗ

    View Slide

  2. The capabilities required for data scientist to avoid wasted analysis
    資料は公開済み
    2 / 35
    SpeakerDeckのリンク

    View Slide

  3. The capabilities required for data scientist to avoid wasted analysis
    免責事項
    3 / 35
    - 本登壇は個⼈の⾒解であり、所属する組織の公式⾒解ではありません
    - アナリストの⽅が多いことは承知していますが、データサイエンティスト寄りの話をします
    - なんとなく、何かを予測するMLシステムを作るPJTを思い浮かべて本資料を作成しています
    - 本当は細かな要素について20min話したいところですが、抽象度の⾼い話になっている点はご容
    赦ください(課題定義と検証のループの話だけを20minするか悩みました)
    - かなり釈迦に説法な話になっているかもですが、温かい⽬で聞いてくだされば幸いです
    - 本編よりも寄り道のスライド⽅が皆様のためになるかもしれません

    View Slide

  4. The capabilities required for data scientist to avoid wasted analysis
    まとめ
    4 / 35
    Q
    無駄分析を避ける為に データサイエンティストに求められる能⼒とは︖
    A
    ・本気で考え、実⾏する能⼒
    ・⽇々の⾃⼰研鑽

    View Slide

  5. The capabilities required for data scientist to avoid wasted analysis
    ⾃⼰紹介
    5 / 35
    仁ノ平 将⼈ Masato Ninohira (@nino_pira)
    早稲⽥⼤学 創造理⼯学研究科 経営システム⼯学専攻
    共同研究先のマーケティングデータ × データサイエンス
    データサイエンティスト@BrainPad 2018年新卒
    深層強化学習 / NLP / 統計的因果推論 / 画像異常検知
    シスムテム化を⾒据えた需要予測モデルのPoCと業務要件整理
    (昨年11⽉頃の画像案件以降は⼩規模案件のPM)
    (サイエンス寄りの案件が主戦場)
    Data Gateway Talk 主催
    ブログ:下町データサイエンティストの⽇常
    B’zファン
    フットサル
    仕事
    学⽣
    趣味

    View Slide

  6. The capabilities required for data scientist to avoid wasted analysis
    会社の活動の宣伝
    6 / 35
    私も運営の⼀⼈です。

    View Slide

  7. The capabilities required for data scientist to avoid wasted analysis
    ⽬次
    7 / 35
    1. 無駄分析が⽣じる原因の整理
    2. 分解された要素の深掘り
    3. それぞれに求められる能⼒をタグ付け
    4. 抽象度を⾼める
    5. まとめ

    View Slide

  8. The capabilities required for data scientist to avoid wasted analysis 8 / 35
    1. 無駄分析が⽣じる原因の整理

    View Slide

  9. The capabilities required for data scientist to avoid wasted analysis
    無駄分析が⽣じる原因
    9 / 35
    無駄分析が⽣じるてしまう原因は、使われる為の課題をクリアしていないからです。
    現状
    分析が
    使われる
    未来
    使われる為の
    課題
    as is と to beの話

    View Slide

  10. The capabilities required for data scientist to avoid wasted analysis
    使われるた為の課題を分解
    10 / 35
    課題定義
    課題をクリア
    できるかの検証
    運⽤
    テスト
    正確には未来を保持する保守運⽤も検討
    使われる為の
    課題
    ステークホルダーの納得
    = ×

    View Slide

  11. The capabilities required for data scientist to avoid wasted analysis 11 / 35
    2. 分解された要素の深掘り

    View Slide

  12. The capabilities required for data scientist to avoid wasted analysis
    課題定義
    12 / 35
    分析⽅法 / スケジュール
    何を持って良いとするかの評価指標の設計は⾮常に重要
    ・(特にMLシステム構築では)
    ・どのデータに対し
    ・どのような評価指標を⽤いるか
    ・(使いやすさも⼤切)
    分析設計
    適切な評価指標設計(重要)
    ステークホルダーが望んでいる理想像を丁寧に把握し整理
    要はどんな未来を⽬指すかを⾔語化
    サブタスク︓ユースケースの整理
    ・5W1Hで考えると便利
    ・PJTの成果物を誰が、いつ、どこで、どのように使う︖
    受け⾝だけじゃない。分析官からの提案も重要(腕の⾒せ所)
    要望・期待値の把握
    課題・あるべき姿のドキュメント化
    1
    2
    # タスク ポイント
    ステークホルダーの要望・期待値を把握し、あるべき姿のドキュメント化を⾏います。
    あるべき姿になるまでに満たすべき評価指標の設計及び、分析設計を⾏います。






    View Slide

  13. The capabilities required for data scientist to avoid wasted analysis
    課題定義を固めるのに全⼒を注ぎ何も始まらないPJT
    寄り道︓課題定義を最初にきっちり決めておくのが理想だが・・・・
    13 / 35
    最初に完璧な課題定義を決めきるのが理想だが、難しいというのも現実。
    また往々にしてPJTを進⾏しながら明らかになることもあります。ビジネスを推し進めるという意味ではある程度
    ふわっとした定義の元で検証を始めていき徐々に課題をupdateしていく覚悟も必要。
    定義が曖昧でもキックオフしたPJT
    やってみる
    ちょっと
    分かる
    ・・・
    やってみる
    成果物
    NULL






    View Slide

  14. The capabilities required for data scientist to avoid wasted analysis 14 / 35
    前ページの話にも関連しますが、最初から完璧を⽬指すと得てしてPJTは破綻する傾向があります。
    最近広まりつつある(︖)Human in the Loopの考え⽅を選択肢に持っておくことも重要です。
    (個⼈的に最近で⼀番好きな)メルカリの事例(slide, youtube)
    寄り道︓Human in the Loop





    View Slide

  15. The capabilities required for data scientist to avoid wasted analysis
    課題をクリアできるかの検証
    15 / 35
    課題をクリアするための分析設計をもとにした実装を⾏い、評価を⾏います。
    Tipsとしては、中間成果物が出来次第、ステークホルダーに成果報告をしフィードバックを得ることで期待値調整を
    ⾏え、⼿戻りが⽣じることを最⼩限に防げます。
    分析設計 実装
    Tips
    プロトタイプを早めに作りステークホルダーからFBを貰う
    →期待値調整・⼿戻り回避(特に画⾯作る系の話・やってみないと精度がわからない系のMLタスク)
    私の業務はFBを元にこのループを回すことが多い
    (特にMLでは精度によりビジネス適⽤可能範囲が変わるため)
    評価










    View Slide

  16. The capabilities required for data scientist to avoid wasted analysis
    運⽤テスト
    16 / 35
    設計・開発
    ユーザ受⼊
    テスト
    パイロット
    稼働
    本番稼働
    運⽤テストを⾏います。
    往々にして、検証では顕在化しなかった罠が潜んでいるのでパイロット稼働は⾮常に重要です。
    Tips
    往々にして罠が潜んでおります
    パイロット稼働を丁寧に⾏い罠を⼀つ⼀つ取り除くこと
    が⼤切です。
    例:
    ・ パイロット版を運⽤した際に謎の外れ値の出現
    ・データ定義の変更
    ・(MLあるある)急に精度落ちる
    ←の資料に詳細が記載されている






    View Slide

  17. The capabilities required for data scientist to avoid wasted analysis
    寄り道︓機械学習を「社会実装」するということ / Social Implementation of Machine Learning
    17 / 35
    各フェーズごとに無駄分析になって誘導してしまう罠について網羅的に⽰されている資料
    MLシステムを作る⼈にはMUST READな資料
    speaker deckリンク

    View Slide

  18. The capabilities required for data scientist to avoid wasted analysis
    ステークホルダーの納得
    18 / 35
    素晴らしい分析PJT であっても、ステークホルダーの納得を得られなければデリバーできません。ステークホルダー
    も⾃分の仲間にしてしまうことを⽬標にすると良いでしょう。また、往々にしてステークホルダーは我々にプロと
    しての意⾒を求めていることを頭に⼊れておくと良いでしょう。
    ステークホルダー
    納得
    素晴らしいPJT
    Tips
    ステークホルダーは我々に、プロの視点からの分析結果についての説明(例: リソース⾒積もり、結果への考察、
    PJTがどうあるべきか) を求めていることが多いです。プロとして正しい内容(not 嘘)を⾃信を持った回答を⼼掛
    けましょう
    求められている内容に
    適した情報
    (結構下⼿な⼈が多い)


    View Slide

  19. The capabilities required for data scientist to avoid wasted analysis 19 / 35
    3. それぞれに求められる能⼒をタグ付け
    ※突然お気持ち感が出始めます

    View Slide

  20. The capabilities required for data scientist to avoid wasted analysis
    課題定義
    20 / 35
    分析⽅法 / スケジュール
    何を持って良いとするかの評価指標の設計は⾮常に重要
    ・(特にMLシステム構築では)
    ・どのデータに対し
    ・どのような評価指標を⽤いるか
    ・(使いやすさも⼤切)
    分析設計
    適切な評価指標設計(重要)
    ステークホルダーが望んでいる理想像を丁寧に把握し整理
    要はどんな未来を⽬指すかを⾔語化
    サブタスク︓ユースケースの整理
    ・5W1Hで考えると便利
    ・PJTの成果物を誰が、いつ、どこで、どのように使う︖
    受け⾝だけじゃない。分析官からの提案も重要(腕の⾒せ所)
    要望・期待値の把握
    課題・あるべき姿のドキュメント化
    1
    2
    # タスク ポイント
    ステークホルダーの要望・期待値を把握し、あるべき姿のドキュメント化を⾏います。
    あるべき姿になるまでに満たすべき評価指標の設計及び、分析設計を⾏います。






    View Slide

  21. The capabilities required for data scientist to avoid wasted analysis
    課題定義
    21 / 35
    分析⽅法 / スケジュール
    何を持って良いとするかの評価指標の設計は⾮常に重要
    ・(特にMLシステム構築では)
    ・どのデータに対し
    ・どのような評価指標を⽤いるか
    ・(使いやすさも⼤切)
    分析設計
    適切な評価指標設計(重要)
    ステークホルダーが望んでいる理想像を丁寧に把握し整理
    要はどんな未来を⽬指すかを⾔語化
    サブタスク︓ユースケースの整理
    ・5W1Hで考えると便利
    ・PJTの成果物を誰が、いつ、どこで、どのように使う︖
    受け⾝だけじゃない。分析官からの提案も重要(腕の⾒せ所)
    要望・期待値の把握
    課題・あるべき姿のドキュメント化
    1
    2
    # タスク ポイント
    ステークホルダーの要望・期待値を把握し、あるべき姿のドキュメント化を⾏います。
    あるべき姿になるまでに満たすべき評価指標の設計及び、分析設計を⾏います。






    広い意味でのビジネスコミニュケーション能⼒
    (ヒアリング能⼒・ドキュメント能⼒・課題整理⼒ etc)
    関連事例が頭に⼊っているか
    サイエンス・エンジニア能⼒

    View Slide

  22. The capabilities required for data scientist to avoid wasted analysis
    課題をクリアできるかの検証
    22 / 35
    課題をクリアするための分析設計をもとにした実装を⾏い、評価を⾏います。
    Tipsとしては、中間成果物が出来次第、ステークホルダーに成果報告をしフィードバックを得ることで期待値調整を
    ⾏え、⼿戻りが⽣じることを最⼩限に防げます。
    分析設計 実装
    Tips
    プロトタイプを早めに作りステークホルダーからFBを貰う
    →期待値調整・⼿戻り回避(特に画⾯作る系の話・やってみないと精度がわからない系のMLタスク)
    私の業務はFBを元にこのループを回すことが多い
    (特にMLでは精度によりビジネス適⽤可能範囲が変わるため)
    評価










    View Slide

  23. The capabilities required for data scientist to avoid wasted analysis
    課題をクリアできるかの検証
    23 / 35
    課題をクリアするための分析設計をもとにした実装を⾏い、評価を⾏います。
    Tipsとしては、中間成果物が出来次第、ステークホルダーに成果報告をしフィードバックを得ることで期待値調整を
    ⾏え、⼿戻りが⽣じることを最⼩限に防げます。
    分析設計 実装
    Tips
    プロトタイプを早めに作りステークホルダーからFBを貰う
    →期待値調整・⼿戻り回避(特に画⾯作る系の話・やってみないと精度がわからない系のMLタスク)
    私の業務はFBを元にこのループを回すことが多い
    (特にMLでは精度によりビジネス適⽤可能範囲が変わるため)
    評価










    サイエンス・エンジニア能⼒
    サイエンス・エンジニア能⼒
    広い意味でのビジネスコミニュケーション能⼒
    (ヒアリング能⼒・ドキュメント能⼒・課題整理⼒ etc)

    View Slide

  24. The capabilities required for data scientist to avoid wasted analysis
    運⽤テスト
    24 / 35
    設計・開発
    ユーザ受⼊
    テスト
    パイロット
    稼働
    本番稼働
    運⽤テストを⾏います。
    往々にして、検証では顕在化しなかった罠が潜んでいるのでパイロット稼働は⾮常に重要です。
    Tips
    往々にして罠が潜んでおります
    パイロット稼働を丁寧に⾏い罠を⼀つ⼀つ取り除くこと
    が⼤切です。
    例:
    ・ パイロット版を運⽤した際に謎の外れ値の出現
    ・データ定義の変更
    ・(MLあるある)急に精度落ちる
    ←の資料に詳細が記載されている






    View Slide

  25. The capabilities required for data scientist to avoid wasted analysis
    運⽤テスト
    25 / 35
    設計・開発
    ユーザ受⼊
    テスト
    パイロット
    稼働
    本番稼働
    運⽤テストを⾏います。
    往々にして、検証では顕在化しなかった罠が潜んでいるのでパイロット稼働は⾮常に重要です。
    Tips
    往々にして罠が潜んでおります
    パイロット稼働を丁寧に⾏い罠を⼀つ⼀つ取り除くこと
    が⼤切です。
    例:
    ・ パイロット版を運⽤した際に謎の外れ値の出現
    ・データ定義の変更
    ・(MLあるある)急に精度落ちる
    ←の資料に詳細が記載されている






    サイエンス・エンジニア能⼒
    関連事例が頭に⼊っているか
    サイエンス・エンジニア能⼒

    View Slide

  26. The capabilities required for data scientist to avoid wasted analysis
    ステークホルダーの納得
    26 / 35
    素晴らしい分析PJT であっても、ステークホルダーの納得を得られなければデリバーできません。ステークホルダー
    も⾃分の仲間にしてしまうことを⽬標にすると良いでしょう。また、往々にしてステークホルダーは我々にプロと
    しての意⾒を求めていることを頭に⼊れておくと良いでしょう。
    ステークホルダー
    納得
    素晴らしいPJT
    Tips
    ステークホルダーは我々に、プロの視点からの分析結果についての説明(例: リソース⾒積もり、結果への考察、
    PJTがどうあるべきか) を求めていることが多いです。プロとして正しい内容(not 嘘)を⾃信を持った回答を⼼掛
    けましょう
    求められている内容に
    適した情報
    (結構下⼿な⼈が多い)


    View Slide

  27. The capabilities required for data scientist to avoid wasted analysis
    ステークホルダーの納得
    27 / 35
    素晴らしい分析PJT であっても、ステークホルダーの納得を得られなければデリバーできません。ステークホルダー
    も⾃分の仲間にしてしまうことを⽬標にすると良いでしょう。また、往々にしてステークホルダーは我々にプロと
    しての意⾒を求めていることを頭に⼊れておくと良いでしょう。
    ステークホルダー
    納得
    素晴らしいPJT
    Tips
    ステークホルダーは我々に、プロの視点からの分析結果についての説明(例: リソース⾒積もり、結果への考察、
    PJTがどうあるべきか) を求めていることが多いです。プロとして正しい内容(not 嘘)を⾃信を持った回答を⼼掛
    けましょう
    求められている内容に
    適した情報
    (結構下⼿な⼈が多い)


    広い意味でのビジネスコミニュケーション能⼒
    (ヒアリング能⼒・ドキュメント能⼒・課題整理⼒ etc)

    View Slide

  28. The capabilities required for data scientist to avoid wasted analysis 28 / 35
    4. 抽象度を⾼める
    ※お気持ち感が加速します

    View Slide

  29. The capabilities required for data scientist to avoid wasted analysis
    抽象度を⾼める
    29 / 35
    広い意味でのビジネスコミニュケーション能⼒
    サイエンス・エンジニア能⼒
    関連事例が頭に⼊っているか
    求められる能⼒ 抽象度を⾼める

    View Slide

  30. The capabilities required for data scientist to avoid wasted analysis
    抽象度を⾼める
    30 / 35
    広い意味でのビジネスコミニュケーション能⼒
    サイエンス・エンジニア能⼒
    関連事例が頭に⼊っているか
    求められる能⼒ 抽象度を⾼める
    本気で考え、実⾏する能⼒
    ⽇々の⾃⼰研鑽

    View Slide

  31. The capabilities required for data scientist to avoid wasted analysis
    本気で考え、実⾏する能⼒
    31 / 35
    ぶっちゃけ⾃分が語るのは恐れ多いので控えさせていただきます。できるコンサルの話を聞きたいです。。。。
    分析がビジネスにどう貢献できるかを明確にするためのあれこれを考え実施することが重要です。
    元も⼦もないですが、そもそもPJTに対しいかに本気で取り組んでいるかの熱意が⼀番重要だと思っています(⼩並)
    ステークホルダー
    は何が達成できれ
    ば嬉しいか
    課題整理
    誰の了承が必要か
    どんな
    ドキュメントが
    求められているか
    ファシリ
    テーション⼒
    期待値調整
    ビジネスと分析の
    関係の整理
    ロジカルな
    ストーリー
    ビジネスにどう貢献できるかを明確にするためには・・・
    予算確保

    View Slide

  32. The capabilities required for data scientist to avoid wasted analysis
    ⽇々の⾃⼰研鑽
    32 / 35
    常にアンテナを張り、関連事例やサイエンス・エンジニア能⼒などの技術事例をキャッチアップすることは重要です。
    私個⼈はツイッター経由で諸々のキャチアップ
    内部情報
    過去PJTの事例は宝
    外部の情報
    諸々のニュース

    View Slide

  33. The capabilities required for data scientist to avoid wasted analysis
    寄り道︓それぞれの能⼒は独⽴ではない
    33 / 35
    本気で考え、実⾏する能⼒
    ⽇々の⾃⼰研鑽
    それぞれの能⼒は独⽴ではありません。それぞれの能⼒が相互効果を持っております。

    View Slide

  34. The capabilities required for data scientist to avoid wasted analysis 34 / 35
    5. まとめ

    View Slide

  35. The capabilities required for data scientist to avoid wasted analysis
    まとめ
    35 / 35
    Q
    無駄分析を避ける為に データサイエンティストに求められる能⼒とは︖
    A
    ・本気で考え、実⾏する能⼒
    ・⽇々の⾃⼰研鑽
    Thank you !!

    View Slide