Slide 1

Slide 1 text

XP に取り組む データサイエンティストが思うこと 2023/03/28 田中 賢治

Slide 2

Slide 2 text

自己紹介 田中 賢治 ● 2021/03 Uzabase 入社(3社目) ● データサイエンスを始めたきっかけ: 2社目で悪質コメント分類のプロジェクト を担当した時。それまでは Rails でバック エンドの開発をやってました。 ● 趣味: 大学(UEC夜間在学中) ● 最近ハマっていること: 大量の鶏皮から鶏油を抽出すること 2

Slide 3

Slide 3 text

3 初めての技術イベント登壇です。 暖かい目で見ていただけると嬉しいです。

Slide 4

Slide 4 text

この発表で伝えたいこと 4

Slide 5

Slide 5 text

データサイエンティストに対しても XP はいいぞ! 5

Slide 6

Slide 6 text

データサイエンティストのつらみ 6

Slide 7

Slide 7 text

1. PoC死 2. データを集めるのが大変 3. プロダクトへの組み込みが大変 4. … データサイエンティストのつらみ 7

Slide 8

Slide 8 text

1. PoC死 2. データを集めるのが大変 3. プロダクトへの組み込みが大変 4. … データサイエンティストのつらみ 8 XP で解消される 話をします

Slide 9

Slide 9 text

1. PoC死 9

Slide 10

Slide 10 text

1. PoC死 10 中島 洋一 . “AI導入の失敗あるある、「 PoC死」の罠とは。” . NewsPicks . 2020/01/14 . https://newspicks.com/news/4494535/body/ “例えばよくあるのが「とりあえず作ってみよう。PoCの精度は 高ければ高いほどいいね!」とゴールが曖昧なままスタートす ることがあります。これでは、機械学習エンジニアとプラン ナー、マネージャーとで認識が違った状態でプロジェクトが進 んでしまいます。そしてPoCを作った後に、こうした認識の違い が明らかになり、炎上に近い「PoC死」を招くのです。”

Slide 11

Slide 11 text

1. PoC死 11 ゴールが曖昧なまま スタート ↓ 認識が違った状態で プロジェクトが進む ↓ PoC実装後に認識の違いが 明らかになり炎上

Slide 12

Slide 12 text

1. PoC死 12 XP があると なぜ「PoC死」しない??

Slide 13

Slide 13 text

1. PoC死 13 ストーリー 週次サイクル

Slide 14

Slide 14 text

1. PoC死 14 ゴールが曖昧なまま スタート ↓ 認識が違った状態で プロジェクトが進む ↓ PoC実装後に認識の違いが 明らかになり炎上 XP があると... 「ストーリー」でユーザーの価値 を明文化 ↓ 「週次サイクル」でゴールの認識 が揃った状態を保つ ↓ 「PoC死」しない

Slide 15

Slide 15 text

プロダクトマネー ジャーは mecab-ipadic-NEolo gd を辞書に指定した 業界推定モデルを訓 練した時のスコアを 知っている。 1. PoC死 15 ストーリー = ユーザーの価値を明文化したチケットのようなもの→ ビジ ネスサイドにも伝わる ユーザーは SPEEDA で企業情 報に新語を多く含む 企業に正しく業界が 紐づいていることを確 認できる。 実験のストーリーの例 実装のストーリーの例 NEologd を辞書にして実験 新語を扱うモデルになってる か確認 →

Slide 16

Slide 16 text

1. PoC死 16 週次サイクル → ゴールに向かってフィードバックサイクルを回す 実験 評価 フィードバック 実装 良い精度が出たら … … … … 施策のたびに実験のストーリーを書く ストーリー書く

Slide 17

Slide 17 text

1. PoC死 17 フィードバックサイクルを回して ユーザーに価値を届ける!

Slide 18

Slide 18 text

2. データを集めるのが大変 18

Slide 19

Slide 19 text

2. データを集めるのが大変 19 ● データの居場所がわからない ● アクセス権限をもらうための社内調整が大変 → チーム間連携の壁に阻まれる

Slide 20

Slide 20 text

2. データを集めるのが大変 XP はどうやって チーム間連携の壁を 超えているのか?? 20

Slide 21

Slide 21 text

全員同席 2. データを集めるのが大変 21

Slide 22

Slide 22 text

2. データを集めるのが大変 22 Product Team ソフトウェアエンジニア( SwE) データサイエンティスト( DS) サイトリライアビリティエンジニア( SRE) テストエンジニア(TE) → Gather (リモートオフィス)に全員同席

Slide 23

Slide 23 text

23

Slide 24

Slide 24 text

24 SRE SwE + TE DS SwE + TE SwE + TE SwE + TE

Slide 25

Slide 25 text

わからないことは サクッと聞いて サクッと解決! → XP のバリューを共有しているからこそできること 2. データを集めるのが大変 25

Slide 26

Slide 26 text

2. データを集めるのが大変 26 XP のバリュー 1. コミュニケーション 2. シンプリシティ 3. フィードバック 4. 勇気 5. リスペクト

Slide 27

Slide 27 text

3. プロダクトへの組み込みが大変 27

Slide 28

Slide 28 text

3. プロダクトへの組み込みが大変 28 ● プロダクトによってインフラが違う ● プロダクトによって言語が違う → スキルの壁に阻まれる

Slide 29

Slide 29 text

3. プロダクトへの組み込みが大変 29 XP はどうやって スキルの壁を 超えているのか??

Slide 30

Slide 30 text

3. プロダクトへの組み込みが大変 30 ペアプロ

Slide 31

Slide 31 text

3. プロダクトへの組み込みが大変 31 Product Team XP ソフトウェアエンジニア( SwE) データサイエンティスト( DS) サイトリライアビリティエンジニア( SRE) テストエンジニア(TE)

Slide 32

Slide 32 text

3. プロダクトへの組み込みが大変 32 Product Team XP ソフトウェアエンジニア( SwE) テストエンジニア(TE) データサイエンティスト( DS) サイトリライアビリティエンジニア( SRE) 「バリュー」「原則」「プラクティス」 の共有 ● 常時ペアプロ ● 常時 TDD ● トランクベース開発 ● 継続的デリバリー ● ストーリー ● 週次サイクル ● 四半期サイクル ● 朝会 ● ふりかえり ● …

Slide 33

Slide 33 text

3. プロダクトへの組み込みが大変 33 Product Team XP ソフトウェアエンジニア( SwE) テストエンジニア(TE) データサイエンティスト( DS) サイトリライアビリティエンジニア( SRE) 「バリュー」「原則」「プラクティス」の 共有 ● 常時ペアプロ ● 常時 TDD ● トランクベース開発 ● 継続的デリバリー ● ストーリー ● 週次サイクル ● 四半期サイクル ● 朝会 ● ふりかえり ● … → 「プラクティス」を通じた連携 → 職種を超えたペアプロ

Slide 34

Slide 34 text

3. プロダクトへの組み込みが大変 34 スキルを補完し合い 相乗効果で成果を出す!

Slide 35

Slide 35 text

まとめ 35 データサイエンティストのつらみ PoC死 データを集めるのが大変 プロダクトへの組み込みが大変 ストーリー 週次サイクル 全員同席 ペアプロ 有効なプラクティス フィードバックサイクルを回して ユーザーに価値を届ける! わからないことは サクッと聞いてサクッと解決! スキルを補完し合い 相乗効果で成果を出す! 目指すもの

Slide 36

Slide 36 text

とはいえ、、 XP で全てが解決できるわけではない 36

Slide 37

Slide 37 text

37 精度を評価 R&D 実装 プロダクトマネージャー は mecab-ipadic-NEologd を辞書に指定した業界 推定モデルを訓練した 時のスコアを知ってい る。 ユーザーは SPEEDA で企業情報に新語を多 く含む企業に正しく業界 が紐づいていることを 確認できる。 実験の実装 実験を実行し てスコアを出 力 精度が良かったら CD パイプライン - モデル訓練 - モデルリリース - API デプロイ TDD で実装 CI パイプライン - 自動テスト

Slide 38

Slide 38 text

38 精度を評価 R&D 実装 プロダクトマネージャー は mecab-ipadic-NEologd を辞書に指定した業界 推定モデルを訓練した 時のスコアを知ってい る。 ユーザーは SPEEDA で企業情報に新語を多 く含む企業に正しく業界 が紐づいていることを 確認できる。 実験の実装 実験を実行し てスコアを出 力 精度が良かったら CD パイプライン - モデル訓練 - モデルリリース - API デプロイ TDD で実装 CI パイプライン - 自動テスト

Slide 39

Slide 39 text

39 精度を評価 R&D 実装 プロダクトマネージャー は mecab-ipadic-NEologd を辞書に指定した業界 推定モデルを訓練した 時のスコアを知ってい る。 ユーザーは SPEEDA で企業情報に新語を多 く含む企業に正しく業界 が紐づいていることを 確認できる。 実験の実装 実験を実行し てスコアを出 力 精度が良かったら CD パイプライン - モデル訓練 - モデルリリース - API デプロイ TDD で実装 CI パイプライン - 自動テスト CD4ML ???