Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
無駄分析を避ける為にデータサイエンティストに求められる能力
Search
ninohira
September 03, 2020
3
12k
無駄分析を避ける為にデータサイエンティストに求められる能力
Bonfire Data Analyst #3 登壇資料
https://yj-meetup.connpass.com/event/184700/
ninohira
September 03, 2020
Tweet
Share
More Decks by ninohira
See All by ninohira
[ICML2021 論文読み会]Revisiting Rainbow: Promoting more Insightful and Inclusive Deep Reinforcement Learning Research
ninohira
0
1.4k
[論文紹介]Jukebox: A Generative Model for Music
ninohira
0
650
アーティストにとっての「愛」とは?~What is ”Love" for artist?~
ninohira
1
9.9k
Data Gateway Talk Vol.5運営資料
ninohira
1
480
今再びのRによる因果推論_Causal Interference by R_#japanr
ninohira
2
10k
因果推論の基礎とその罠 _Basic and Trap of Causal Inference_#白金鉱業
ninohira
5
12k
ドキュメンテーションのすヽめ_#MLbeginners
ninohira
1
680
Data Gateway Talk Vol.1運営資料
ninohira
1
3k
新卒が考えた理想のDS新卒研修
ninohira
1
770
Featured
See All Featured
Gamification - CAS2011
davidbonilla
80
5.1k
YesSQL, Process and Tooling at Scale
rocio
169
14k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
44
9.3k
A Tale of Four Properties
chriscoyier
157
23k
Embracing the Ebb and Flow
colly
84
4.5k
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
28
4.4k
Fantastic passwords and where to find them - at NoRuKo
philnash
50
2.9k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
247
1.3M
Improving Core Web Vitals using Speculation Rules API
sergeychernyshev
0
97
Dealing with People You Can't Stand - Big Design 2015
cassininazir
365
25k
Faster Mobile Websites
deanohume
305
30k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
26
1.5k
Transcript
ແବੳΛආ͚Δҝʹ σʔλαΠΤϯςΟετʹٻΊΒΕΔೳྗ
The capabilities required for data scientist to avoid wasted analysis
資料は公開済み 2 / 35 SpeakerDeckのリンク
The capabilities required for data scientist to avoid wasted analysis
免責事項 3 / 35 - 本登壇は個⼈の⾒解であり、所属する組織の公式⾒解ではありません - アナリストの⽅が多いことは承知していますが、データサイエンティスト寄りの話をします - なんとなく、何かを予測するMLシステムを作るPJTを思い浮かべて本資料を作成しています - 本当は細かな要素について20min話したいところですが、抽象度の⾼い話になっている点はご容 赦ください(課題定義と検証のループの話だけを20minするか悩みました) - かなり釈迦に説法な話になっているかもですが、温かい⽬で聞いてくだされば幸いです - 本編よりも寄り道のスライド⽅が皆様のためになるかもしれません
The capabilities required for data scientist to avoid wasted analysis
まとめ 4 / 35 Q 無駄分析を避ける為に データサイエンティストに求められる能⼒とは︖ A ・本気で考え、実⾏する能⼒ ・⽇々の⾃⼰研鑽
The capabilities required for data scientist to avoid wasted analysis
⾃⼰紹介 5 / 35 仁ノ平 将⼈ Masato Ninohira (@nino_pira) 早稲⽥⼤学 創造理⼯学研究科 経営システム⼯学専攻 共同研究先のマーケティングデータ × データサイエンス データサイエンティスト@BrainPad 2018年新卒 深層強化学習 / NLP / 統計的因果推論 / 画像異常検知 シスムテム化を⾒据えた需要予測モデルのPoCと業務要件整理 (昨年11⽉頃の画像案件以降は⼩規模案件のPM) (サイエンス寄りの案件が主戦場) Data Gateway Talk 主催 ブログ:下町データサイエンティストの⽇常 B’zファン フットサル 仕事 学⽣ 趣味
The capabilities required for data scientist to avoid wasted analysis
会社の活動の宣伝 6 / 35 私も運営の⼀⼈です。
The capabilities required for data scientist to avoid wasted analysis
⽬次 7 / 35 1. 無駄分析が⽣じる原因の整理 2. 分解された要素の深掘り 3. それぞれに求められる能⼒をタグ付け 4. 抽象度を⾼める 5. まとめ
The capabilities required for data scientist to avoid wasted analysis
8 / 35 1. 無駄分析が⽣じる原因の整理
The capabilities required for data scientist to avoid wasted analysis
無駄分析が⽣じる原因 9 / 35 無駄分析が⽣じるてしまう原因は、使われる為の課題をクリアしていないからです。 現状 分析が 使われる 未来 使われる為の 課題 as is と to beの話
The capabilities required for data scientist to avoid wasted analysis
使われるた為の課題を分解 10 / 35 課題定義 課題をクリア できるかの検証 運⽤ テスト 正確には未来を保持する保守運⽤も検討 使われる為の 課題 ステークホルダーの納得 = ×
The capabilities required for data scientist to avoid wasted analysis
11 / 35 2. 分解された要素の深掘り
The capabilities required for data scientist to avoid wasted analysis
課題定義 12 / 35 分析⽅法 / スケジュール 何を持って良いとするかの評価指標の設計は⾮常に重要 ・(特にMLシステム構築では) ・どのデータに対し ・どのような評価指標を⽤いるか ・(使いやすさも⼤切) 分析設計 適切な評価指標設計(重要) ステークホルダーが望んでいる理想像を丁寧に把握し整理 要はどんな未来を⽬指すかを⾔語化 サブタスク︓ユースケースの整理 ・5W1Hで考えると便利 ・PJTの成果物を誰が、いつ、どこで、どのように使う︖ 受け⾝だけじゃない。分析官からの提案も重要(腕の⾒せ所) 要望・期待値の把握 課題・あるべき姿のドキュメント化 1 2 # タスク ポイント ステークホルダーの要望・期待値を把握し、あるべき姿のドキュメント化を⾏います。 あるべき姿になるまでに満たすべき評価指標の設計及び、分析設計を⾏います。
The capabilities required for data scientist to avoid wasted analysis
課題定義を固めるのに全⼒を注ぎ何も始まらないPJT 寄り道︓課題定義を最初にきっちり決めておくのが理想だが・・・・ 13 / 35 最初に完璧な課題定義を決めきるのが理想だが、難しいというのも現実。 また往々にしてPJTを進⾏しながら明らかになることもあります。ビジネスを推し進めるという意味ではある程度 ふわっとした定義の元で検証を始めていき徐々に課題をupdateしていく覚悟も必要。 定義が曖昧でもキックオフしたPJT やってみる ちょっと 分かる ・・・ やってみる 成果物 NULL
The capabilities required for data scientist to avoid wasted analysis
14 / 35 前ページの話にも関連しますが、最初から完璧を⽬指すと得てしてPJTは破綻する傾向があります。 最近広まりつつある(︖)Human in the Loopの考え⽅を選択肢に持っておくことも重要です。 (個⼈的に最近で⼀番好きな)メルカリの事例(slide, youtube) 寄り道︓Human in the Loop
The capabilities required for data scientist to avoid wasted analysis
課題をクリアできるかの検証 15 / 35 課題をクリアするための分析設計をもとにした実装を⾏い、評価を⾏います。 Tipsとしては、中間成果物が出来次第、ステークホルダーに成果報告をしフィードバックを得ることで期待値調整を ⾏え、⼿戻りが⽣じることを最⼩限に防げます。 分析設計 実装 Tips プロトタイプを早めに作りステークホルダーからFBを貰う →期待値調整・⼿戻り回避(特に画⾯作る系の話・やってみないと精度がわからない系のMLタスク) 私の業務はFBを元にこのループを回すことが多い (特にMLでは精度によりビジネス適⽤可能範囲が変わるため) 評価
The capabilities required for data scientist to avoid wasted analysis
運⽤テスト 16 / 35 設計・開発 ユーザ受⼊ テスト パイロット 稼働 本番稼働 運⽤テストを⾏います。 往々にして、検証では顕在化しなかった罠が潜んでいるのでパイロット稼働は⾮常に重要です。 Tips 往々にして罠が潜んでおります パイロット稼働を丁寧に⾏い罠を⼀つ⼀つ取り除くこと が⼤切です。 例: ・ パイロット版を運⽤した際に謎の外れ値の出現 ・データ定義の変更 ・(MLあるある)急に精度落ちる ←の資料に詳細が記載されている
The capabilities required for data scientist to avoid wasted analysis
寄り道︓機械学習を「社会実装」するということ / Social Implementation of Machine Learning 17 / 35 各フェーズごとに無駄分析になって誘導してしまう罠について網羅的に⽰されている資料 MLシステムを作る⼈にはMUST READな資料 speaker deckリンク
The capabilities required for data scientist to avoid wasted analysis
ステークホルダーの納得 18 / 35 素晴らしい分析PJT であっても、ステークホルダーの納得を得られなければデリバーできません。ステークホルダー も⾃分の仲間にしてしまうことを⽬標にすると良いでしょう。また、往々にしてステークホルダーは我々にプロと しての意⾒を求めていることを頭に⼊れておくと良いでしょう。 ステークホルダー 納得 素晴らしいPJT Tips ステークホルダーは我々に、プロの視点からの分析結果についての説明(例: リソース⾒積もり、結果への考察、 PJTがどうあるべきか) を求めていることが多いです。プロとして正しい内容(not 嘘)を⾃信を持った回答を⼼掛 けましょう 求められている内容に 適した情報 (結構下⼿な⼈が多い)
The capabilities required for data scientist to avoid wasted analysis
19 / 35 3. それぞれに求められる能⼒をタグ付け ※突然お気持ち感が出始めます
The capabilities required for data scientist to avoid wasted analysis
課題定義 20 / 35 分析⽅法 / スケジュール 何を持って良いとするかの評価指標の設計は⾮常に重要 ・(特にMLシステム構築では) ・どのデータに対し ・どのような評価指標を⽤いるか ・(使いやすさも⼤切) 分析設計 適切な評価指標設計(重要) ステークホルダーが望んでいる理想像を丁寧に把握し整理 要はどんな未来を⽬指すかを⾔語化 サブタスク︓ユースケースの整理 ・5W1Hで考えると便利 ・PJTの成果物を誰が、いつ、どこで、どのように使う︖ 受け⾝だけじゃない。分析官からの提案も重要(腕の⾒せ所) 要望・期待値の把握 課題・あるべき姿のドキュメント化 1 2 # タスク ポイント ステークホルダーの要望・期待値を把握し、あるべき姿のドキュメント化を⾏います。 あるべき姿になるまでに満たすべき評価指標の設計及び、分析設計を⾏います。
The capabilities required for data scientist to avoid wasted analysis
課題定義 21 / 35 分析⽅法 / スケジュール 何を持って良いとするかの評価指標の設計は⾮常に重要 ・(特にMLシステム構築では) ・どのデータに対し ・どのような評価指標を⽤いるか ・(使いやすさも⼤切) 分析設計 適切な評価指標設計(重要) ステークホルダーが望んでいる理想像を丁寧に把握し整理 要はどんな未来を⽬指すかを⾔語化 サブタスク︓ユースケースの整理 ・5W1Hで考えると便利 ・PJTの成果物を誰が、いつ、どこで、どのように使う︖ 受け⾝だけじゃない。分析官からの提案も重要(腕の⾒せ所) 要望・期待値の把握 課題・あるべき姿のドキュメント化 1 2 # タスク ポイント ステークホルダーの要望・期待値を把握し、あるべき姿のドキュメント化を⾏います。 あるべき姿になるまでに満たすべき評価指標の設計及び、分析設計を⾏います。 広い意味でのビジネスコミニュケーション能⼒ (ヒアリング能⼒・ドキュメント能⼒・課題整理⼒ etc) 関連事例が頭に⼊っているか サイエンス・エンジニア能⼒
The capabilities required for data scientist to avoid wasted analysis
課題をクリアできるかの検証 22 / 35 課題をクリアするための分析設計をもとにした実装を⾏い、評価を⾏います。 Tipsとしては、中間成果物が出来次第、ステークホルダーに成果報告をしフィードバックを得ることで期待値調整を ⾏え、⼿戻りが⽣じることを最⼩限に防げます。 分析設計 実装 Tips プロトタイプを早めに作りステークホルダーからFBを貰う →期待値調整・⼿戻り回避(特に画⾯作る系の話・やってみないと精度がわからない系のMLタスク) 私の業務はFBを元にこのループを回すことが多い (特にMLでは精度によりビジネス適⽤可能範囲が変わるため) 評価
The capabilities required for data scientist to avoid wasted analysis
課題をクリアできるかの検証 23 / 35 課題をクリアするための分析設計をもとにした実装を⾏い、評価を⾏います。 Tipsとしては、中間成果物が出来次第、ステークホルダーに成果報告をしフィードバックを得ることで期待値調整を ⾏え、⼿戻りが⽣じることを最⼩限に防げます。 分析設計 実装 Tips プロトタイプを早めに作りステークホルダーからFBを貰う →期待値調整・⼿戻り回避(特に画⾯作る系の話・やってみないと精度がわからない系のMLタスク) 私の業務はFBを元にこのループを回すことが多い (特にMLでは精度によりビジネス適⽤可能範囲が変わるため) 評価 サイエンス・エンジニア能⼒ サイエンス・エンジニア能⼒ 広い意味でのビジネスコミニュケーション能⼒ (ヒアリング能⼒・ドキュメント能⼒・課題整理⼒ etc)
The capabilities required for data scientist to avoid wasted analysis
運⽤テスト 24 / 35 設計・開発 ユーザ受⼊ テスト パイロット 稼働 本番稼働 運⽤テストを⾏います。 往々にして、検証では顕在化しなかった罠が潜んでいるのでパイロット稼働は⾮常に重要です。 Tips 往々にして罠が潜んでおります パイロット稼働を丁寧に⾏い罠を⼀つ⼀つ取り除くこと が⼤切です。 例: ・ パイロット版を運⽤した際に謎の外れ値の出現 ・データ定義の変更 ・(MLあるある)急に精度落ちる ←の資料に詳細が記載されている
The capabilities required for data scientist to avoid wasted analysis
運⽤テスト 25 / 35 設計・開発 ユーザ受⼊ テスト パイロット 稼働 本番稼働 運⽤テストを⾏います。 往々にして、検証では顕在化しなかった罠が潜んでいるのでパイロット稼働は⾮常に重要です。 Tips 往々にして罠が潜んでおります パイロット稼働を丁寧に⾏い罠を⼀つ⼀つ取り除くこと が⼤切です。 例: ・ パイロット版を運⽤した際に謎の外れ値の出現 ・データ定義の変更 ・(MLあるある)急に精度落ちる ←の資料に詳細が記載されている サイエンス・エンジニア能⼒ 関連事例が頭に⼊っているか サイエンス・エンジニア能⼒
The capabilities required for data scientist to avoid wasted analysis
ステークホルダーの納得 26 / 35 素晴らしい分析PJT であっても、ステークホルダーの納得を得られなければデリバーできません。ステークホルダー も⾃分の仲間にしてしまうことを⽬標にすると良いでしょう。また、往々にしてステークホルダーは我々にプロと しての意⾒を求めていることを頭に⼊れておくと良いでしょう。 ステークホルダー 納得 素晴らしいPJT Tips ステークホルダーは我々に、プロの視点からの分析結果についての説明(例: リソース⾒積もり、結果への考察、 PJTがどうあるべきか) を求めていることが多いです。プロとして正しい内容(not 嘘)を⾃信を持った回答を⼼掛 けましょう 求められている内容に 適した情報 (結構下⼿な⼈が多い)
The capabilities required for data scientist to avoid wasted analysis
ステークホルダーの納得 27 / 35 素晴らしい分析PJT であっても、ステークホルダーの納得を得られなければデリバーできません。ステークホルダー も⾃分の仲間にしてしまうことを⽬標にすると良いでしょう。また、往々にしてステークホルダーは我々にプロと しての意⾒を求めていることを頭に⼊れておくと良いでしょう。 ステークホルダー 納得 素晴らしいPJT Tips ステークホルダーは我々に、プロの視点からの分析結果についての説明(例: リソース⾒積もり、結果への考察、 PJTがどうあるべきか) を求めていることが多いです。プロとして正しい内容(not 嘘)を⾃信を持った回答を⼼掛 けましょう 求められている内容に 適した情報 (結構下⼿な⼈が多い) 広い意味でのビジネスコミニュケーション能⼒ (ヒアリング能⼒・ドキュメント能⼒・課題整理⼒ etc)
The capabilities required for data scientist to avoid wasted analysis
28 / 35 4. 抽象度を⾼める ※お気持ち感が加速します
The capabilities required for data scientist to avoid wasted analysis
抽象度を⾼める 29 / 35 広い意味でのビジネスコミニュケーション能⼒ サイエンス・エンジニア能⼒ 関連事例が頭に⼊っているか 求められる能⼒ 抽象度を⾼める
The capabilities required for data scientist to avoid wasted analysis
抽象度を⾼める 30 / 35 広い意味でのビジネスコミニュケーション能⼒ サイエンス・エンジニア能⼒ 関連事例が頭に⼊っているか 求められる能⼒ 抽象度を⾼める 本気で考え、実⾏する能⼒ ⽇々の⾃⼰研鑽
The capabilities required for data scientist to avoid wasted analysis
本気で考え、実⾏する能⼒ 31 / 35 ぶっちゃけ⾃分が語るのは恐れ多いので控えさせていただきます。できるコンサルの話を聞きたいです。。。。 分析がビジネスにどう貢献できるかを明確にするためのあれこれを考え実施することが重要です。 元も⼦もないですが、そもそもPJTに対しいかに本気で取り組んでいるかの熱意が⼀番重要だと思っています(⼩並) ステークホルダー は何が達成できれ ば嬉しいか 課題整理 誰の了承が必要か どんな ドキュメントが 求められているか ファシリ テーション⼒ 期待値調整 ビジネスと分析の 関係の整理 ロジカルな ストーリー ビジネスにどう貢献できるかを明確にするためには・・・ 予算確保
The capabilities required for data scientist to avoid wasted analysis
⽇々の⾃⼰研鑽 32 / 35 常にアンテナを張り、関連事例やサイエンス・エンジニア能⼒などの技術事例をキャッチアップすることは重要です。 私個⼈はツイッター経由で諸々のキャチアップ 内部情報 過去PJTの事例は宝 外部の情報 諸々のニュース
The capabilities required for data scientist to avoid wasted analysis
寄り道︓それぞれの能⼒は独⽴ではない 33 / 35 本気で考え、実⾏する能⼒ ⽇々の⾃⼰研鑽 それぞれの能⼒は独⽴ではありません。それぞれの能⼒が相互効果を持っております。
The capabilities required for data scientist to avoid wasted analysis
34 / 35 5. まとめ
The capabilities required for data scientist to avoid wasted analysis
まとめ 35 / 35 Q 無駄分析を避ける為に データサイエンティストに求められる能⼒とは︖ A ・本気で考え、実⾏する能⼒ ・⽇々の⾃⼰研鑽 Thank you !!