Upgrade to Pro — share decks privately, control downloads, hide ads and more …

データサイエンティストの仕事紹介 / Data Scientist Job Introduction

データサイエンティストの仕事紹介 / Data Scientist Job Introduction

2022.03.17 GMOペパボのエンジニア・データサイエンティストの『リアル』を大公開!
https://pepabo.connpass.com/event/239293/

Hiroka Zaitsu

March 17, 2022
Tweet

More Decks by Hiroka Zaitsu

Other Decks in Technology

Transcript

  1. データサイエンティストの
    仕事紹介
    財津大夏 / GMO PEPABO inc.
    2022.03.17 GMOペパボのエンジニア・データサイエンティストの『リアル』
    を大公開!
    1

    View full-size slide

  2. 2
    自己紹介
    技術部 データ基盤チーム
    2012年 入社
    ● データサイエンティスト
    ● ペパボのデータ基盤「Bigfoot」の開発/運用
    ● Bigfoot を使ったデータ分析/活用
    ● Twitter : @HirokaZaitsu
    #データ基盤 #DataOps #MLOps #Python #SQL #
    統計学 #機械学習
    財津 大夏 Hiroka Zaitsu

    View full-size slide

  3. 3
    専門性
    データサイエンス力、データエンジニアリング力をベースに
    データから価値を創出し、ビジネス課題に答えを出すプロフェッショナル
    データサイエンティスト
    データサイエンティスト協会、データサイエンティストのミッション、スキルセット、定義、スキルレベルを発表
    http://www.datascientist.or.jp/files/news/2014-12-10.pdf

    View full-size slide

  4. 4
    データサイエンティストに求められるスキルセット
    ビジネス力
    データ
    サイエンス力
    データ
    エンジニア
    リング力
    データサイエンスを意味のある形に
    使えるようにし、実装、
    運用できるようにする力
    情報処理、人工知能、
    統計学などの情報科学系の
    知恵を理解し、使う力
    背景課題を理解した上で、
    ビジネス課題を整理し、
    解決する力
    データサイエンティスト協会、データサイエンティストのミッション、スキルセット、定義、スキルレベルを発表
    http://www.datascientist.or.jp/files/news/2014-12-10.pdf より再構成

    View full-size slide

  5. 5
    データサイエンティストに求められるスキルセット
    ビジネス力
    ● ビジネスとデータの理解
    ● データ倫理の理解
    ● データ活用の
    アプローチ設計
    ● ビジネスへの実装
    etc...
    データサイエンス力
    ● 統計や機械学習に関連する
    基礎的な数学
    ● データ加工, 可視化
    ● 統計モデルや
    機械学習モデルの理解と使用
    etc...
    データエンジニアリング力
    ● データ収集, 統合システムの設
    計, 実装, 運用
    ● データセット, テーブル設計
    ● 分析パイプラインの実装
    ● 機械学習パイプラインの実装
    etc...
    一般社団法人データサイエンティスト協会 スキルチェックリスト
    https://www.datascientist.or.jp/common/docs/skillcheck_ver3.00.pdf より一部引用・再構成

    View full-size slide

  6. 6
    データ駆動の実現に向けて
    具体的な仕事内容の前に ...

    View full-size slide

  7. • 日本 CTO 協会が作成したアセスメントツール
    • DX の進捗度を自己診断できる
    • 5 つのテーマのうちの 1 つが「データ駆動」
    7
    DX Criteria とデータ駆動
    日本CTO協会 DX Criteria ver.201912
    https://github.com/cto-a/dxcriteria/blob/master/asset/image/dxcriteria201912.pdf
    データ駆動の実現に向けて
    DX Criteria の実践とその活用について | ペパボテックブログ
    https://tech.pepabo.com/2020/02/19/dx-criteria/

    View full-size slide

  8. • マーケティング自動化
    • データを元にサービスの振る舞いを変える
    • 例)ECサイトのカゴ落ちメール
    • 自動的な意思決定
    • 決定に必要な指標を計測可能・非属人的にして自動化可能にする
    • 例)統計的な判断
    • 決定後のシステム挙動の変更を自動化する
    • 例)データに基づいてテストパターンを競わせるバンディットアルゴリズム
    8
    データ駆動によって目指すもの
    データ駆動の実現に向けて

    View full-size slide

  9. 9
    提供するサービスを
    データ駆動によって
    より良くしていきたい

    View full-size slide

  10. • 実現を阻む一般的な課題
    • データを集める仕組みがない
    • そもそも保存していない
    • 保存しているけど Google Analytics, 広告ツール, データベースなどに分散している
    • 集めたデータを分析する仕組みやスキルがない
    • 分析したデータを活用する仕組みがない
    • いきなりデータ駆動にはなれないので
    ...
    10
    データ駆動になるぞ!!!
    データ駆動の実現に向けて

    View full-size slide

  11. • 各セルの要素を揃えていくことでデータ駆動を目指す
    • Bigfoot は青いセルの要素を扱いやすくしてデータ駆動化をサポート
    11
    データ駆動までの道のりを3つの段階と2つのレイヤに整理
    収集
    分析
    活用
    システム リテラシ データ駆動
    DWH
    Logger
    BI / Dashboard
    ワークフロー
    データ連携
    データ集計
    統計知識
    事業価値の理解
    統計的な判断
    機械学習基盤
    適応的改善機構
    情報推薦
    機械学習
    サービスの動的改善
    自動的な意思決定
    + =
    段階
    データ駆動の実現に向けて

    View full-size slide

  12. 12
    データ駆動を全社的に実現するために
    データサイエンティストの仕事内容
    • データの収集・分析・活用を行うためのデータ基盤 Bigfoot の開発・運用
    • Bigfoot を使ったデータ収集・分析・活用
    ➡ 解像度を上げてイメージしていただけるように直近の取り組みを具体的に紹介します

    View full-size slide

  13. • サービスの DB から Bigfoot へのパイプラインの改善
    • データエンジニアがサービスに適したバッチジョブを設計・実装
    • データサイエンティストがワークフローでの制御を設計・実装
    • DB の完全なコピーを BigQuery*1 で利用可能 ➡ 半日掛かるクエリが1秒に 🚀
    13
    取り組みの例 データ基盤の開発・運用①
    データサイエンティストの仕事内容
    *1) Google が提供するマネージドデータウェアハウスサービス。 SQL を使ってビッグデータを高速に分析できる。
    データエンジニアリング
    ビジネス

    View full-size slide

  14. • 機械学習基盤の構築
    • バラバラに実装されている既存のモデルを統合して効率的に管理可能に
    • 既存のモデルの移行を順次実施
    • ローカル環境では実施できない処理をクラウドの Jupyter 環境で実施できるようにする
    ➡ エンジニアや研究者やデータサイエンティストがモデルに集中できるように 🚀
    14
    取り組みの例 データ基盤の開発・運用②
    データサイエンティストの仕事内容
    データエンジニアリング
    データサイエンス

    View full-size slide

  15. • ワークフロー中のコンテナの扱いの改善
    • コンテナを使う処理がいくつかの GCP*1 サービスに跨っていて運用が難しかった
    ➡ コンテナ単位の処理を GKE*2 に集約してワークフローに組み込めるように 🚀
    • データ収集の仕組みの改善
    • ログ収集を GraphQL*3 を使った API に対応
    ➡ エンジニアがログ設計を意識しなくてもデータ収集できるように 🚀
    15
    取り組みの例 データ基盤の開発・運用③
    *1) Google Cloud Platform の略。前出の BigQuery を含む Google のクラウドサービス群の総称。 Bigfoot は GCP サービスを中心に構成されている。
    *2) Google Kubernetes Engine の略。コンテナ化されたアプリケーションを実行するためのマネージドサービス。 Google Cloud Platform に含まれる。
    *3) API 向けのクエリ言語。従来 Bigfoot は、これまでサービスで多く使われていた REST を使った API を前提にデータ収集を行っていた。
    データサイエンティストの仕事内容
    データエンジニアリング
    データエンジニアリング
    ビジネス

    View full-size slide

  16. • ECサービスAの商品検索機能の改善
    • 施策の評価に必要なデータの設計と収集
    • 収集したデータの集計・可視化
    • パイプライン化 ➡ いつでも最新のデータで施策を評価可能に 🚀
    • ECサービスBのユーザー行動分析
    • Bigfoot の導入から、必要なデータの設計と収集
    • 行動ログに付与する utm パラメータ*1 の設計と運用
    • DB, 広告プラットフォーム , アプリストアから同期したデータと統合・セッション化
    ➡ ユーザー行動や属性を統合して分析・ビジネスに反映可能に 🚀
    16
    取り組みの例 基盤を使ったデータ収集・分析・活用①
    データサイエンティストの仕事内容
    *1) Google Analytics で参照元を判別するために URL に付与するパラメータ。 Bigfoot も utm パラメータを使って参照元を判別している。
    ビジネス
    データエンジニアリング
    データエンジニアリング
    データサイエンス
    ビジネス データサイエンス

    View full-size slide

  17. • GitHub Enterprise のデータから全社の生産性指標を定量化、
    インタラクティブなダッシュボードで参照可能に 🚀
    17
    取り組みの例 基盤を使ったデータ収集・分析・活用②
    データサイエンティストの仕事内容
    エンジニアの活動情報から Four Keysを集計、可視化した話 | ペパボテックブログ
    エリート DevOps チームであることを Four Keys プロジェクトで確認する | Google Cloud Blog
    ビジネス データエンジニアリング
    データサイエンス

    View full-size slide

  18. • 社内向け機械学習研修
    • ペパボ研究所とデータ基盤チームで担当
    • 機械学習を当然にサービスに導入していく時代になっている
    • ビジネス理解, データサイエンス, データエンジニアリングの一通りの流れを体験
    ➡ 新卒エンジニアが全員 BigQuery で機械学習モデルが作れる状態に 🚀
    18
    取り組みの例 その他①
    データサイエンティストの仕事内容
    https://github.com/pepabo/training/blob/master/data-and-machine-learning/day5_machine_learning_hands_on.pdf

    View full-size slide

  19. • 社内外向けにブログ記事や OSS の公開, 登壇
    • データサイエンティストだけではなくペパボのパートナーとしての働き方の紹介です
    • 個人ブログやペパボテックブログ
    • 業務課題を解決するツールの OSS 化
    • zaimy/trinity: A tool to synchronize workflows (DAGs) between Codebase, Cloud Storage and
    Airflow metadata. - GitHub
    • イベントの登壇
    • GMOペパボのサービスと研究開発を支えるデータ基盤の裏側 - Speaker Deck
    ➡ 「ファンを増やすこと」「アウトプットすること」を大切に
    🚀
    19
    取り組みの例 その他②
    データサイエンティストの仕事内容

    View full-size slide

  20. • ペパボは多数のサービスを開発・運用している
    • 全サービスで「意思決定の自動化」「マーケティング自動化」に近づけていく
    • 各セグメントにデータサイエンティストを配置できるよう組織化を進める
    • 基盤チーム所属のデータサイエンティストとして
    3つのスキル領域を伸ばす
    • エッジな取り組みを各サービスで進めていく
    20
    全サービスでデータ駆動が当たり前の状況を実現する
    今後やっていくこと

    View full-size slide