Upgrade to Pro — share decks privately, control downloads, hide ads and more …

データサイエンティストの仕事紹介 / Data Scientist Job Introduction

データサイエンティストの仕事紹介 / Data Scientist Job Introduction

2022.03.17 GMOペパボのエンジニア・データサイエンティストの『リアル』を大公開!
https://pepabo.connpass.com/event/239293/

Hiroka Zaitsu

March 17, 2022
Tweet

More Decks by Hiroka Zaitsu

Other Decks in Technology

Transcript

  1. 2 自己紹介 技術部 データ基盤チーム 2012年 入社 • データサイエンティスト • ペパボのデータ基盤「Bigfoot」の開発/運用

    • Bigfoot を使ったデータ分析/活用 • Twitter : @HirokaZaitsu #データ基盤 #DataOps #MLOps #Python #SQL # 統計学 #機械学習 財津 大夏 Hiroka Zaitsu
  2. 4 データサイエンティストに求められるスキルセット ビジネス力 データ サイエンス力 データ エンジニア リング力 データサイエンスを意味のある形に 使えるようにし、実装、

    運用できるようにする力 情報処理、人工知能、 統計学などの情報科学系の 知恵を理解し、使う力 背景課題を理解した上で、 ビジネス課題を整理し、 解決する力 データサイエンティスト協会、データサイエンティストのミッション、スキルセット、定義、スキルレベルを発表 http://www.datascientist.or.jp/files/news/2014-12-10.pdf より再構成
  3. 5 データサイエンティストに求められるスキルセット ビジネス力 • ビジネスとデータの理解 • データ倫理の理解 • データ活用の アプローチ設計

    • ビジネスへの実装 etc... データサイエンス力 • 統計や機械学習に関連する 基礎的な数学 • データ加工, 可視化 • 統計モデルや 機械学習モデルの理解と使用 etc... データエンジニアリング力 • データ収集, 統合システムの設 計, 実装, 運用 • データセット, テーブル設計 • 分析パイプラインの実装 • 機械学習パイプラインの実装 etc... 一般社団法人データサイエンティスト協会 スキルチェックリスト https://www.datascientist.or.jp/common/docs/skillcheck_ver3.00.pdf より一部引用・再構成
  4. • 日本 CTO 協会が作成したアセスメントツール • DX の進捗度を自己診断できる • 5 つのテーマのうちの

    1 つが「データ駆動」 7 DX Criteria とデータ駆動 日本CTO協会 DX Criteria ver.201912 https://github.com/cto-a/dxcriteria/blob/master/asset/image/dxcriteria201912.pdf データ駆動の実現に向けて DX Criteria の実践とその活用について | ペパボテックブログ https://tech.pepabo.com/2020/02/19/dx-criteria/
  5. • マーケティング自動化 • データを元にサービスの振る舞いを変える • 例)ECサイトのカゴ落ちメール • 自動的な意思決定 • 決定に必要な指標を計測可能・非属人的にして自動化可能にする

    • 例)統計的な判断 • 決定後のシステム挙動の変更を自動化する • 例)データに基づいてテストパターンを競わせるバンディットアルゴリズム 8 データ駆動によって目指すもの データ駆動の実現に向けて
  6. • 実現を阻む一般的な課題 • データを集める仕組みがない • そもそも保存していない • 保存しているけど Google Analytics,

    広告ツール, データベースなどに分散している • 集めたデータを分析する仕組みやスキルがない • 分析したデータを活用する仕組みがない • いきなりデータ駆動にはなれないので ... 10 データ駆動になるぞ!!! データ駆動の実現に向けて
  7. • 各セルの要素を揃えていくことでデータ駆動を目指す • Bigfoot は青いセルの要素を扱いやすくしてデータ駆動化をサポート 11 データ駆動までの道のりを3つの段階と2つのレイヤに整理 収集 分析 活用

    システム リテラシ データ駆動 DWH Logger BI / Dashboard ワークフロー データ連携 データ集計 統計知識 事業価値の理解 統計的な判断 機械学習基盤 適応的改善機構 情報推薦 機械学習 サービスの動的改善 自動的な意思決定 + = 段階 データ駆動の実現に向けて
  8. • サービスの DB から Bigfoot へのパイプラインの改善 • データエンジニアがサービスに適したバッチジョブを設計・実装 • データサイエンティストがワークフローでの制御を設計・実装

    • DB の完全なコピーを BigQuery*1 で利用可能 ➡ 半日掛かるクエリが1秒に 🚀 13 取り組みの例 データ基盤の開発・運用① データサイエンティストの仕事内容 *1) Google が提供するマネージドデータウェアハウスサービス。 SQL を使ってビッグデータを高速に分析できる。 データエンジニアリング ビジネス
  9. • 機械学習基盤の構築 • バラバラに実装されている既存のモデルを統合して効率的に管理可能に • 既存のモデルの移行を順次実施 • ローカル環境では実施できない処理をクラウドの Jupyter 環境で実施できるようにする

    ➡ エンジニアや研究者やデータサイエンティストがモデルに集中できるように 🚀 14 取り組みの例 データ基盤の開発・運用② データサイエンティストの仕事内容 データエンジニアリング データサイエンス
  10. • ワークフロー中のコンテナの扱いの改善 • コンテナを使う処理がいくつかの GCP*1 サービスに跨っていて運用が難しかった ➡ コンテナ単位の処理を GKE*2 に集約してワークフローに組み込めるように

    🚀 • データ収集の仕組みの改善 • ログ収集を GraphQL*3 を使った API に対応 ➡ エンジニアがログ設計を意識しなくてもデータ収集できるように 🚀 15 取り組みの例 データ基盤の開発・運用③ *1) Google Cloud Platform の略。前出の BigQuery を含む Google のクラウドサービス群の総称。 Bigfoot は GCP サービスを中心に構成されている。 *2) Google Kubernetes Engine の略。コンテナ化されたアプリケーションを実行するためのマネージドサービス。 Google Cloud Platform に含まれる。 *3) API 向けのクエリ言語。従来 Bigfoot は、これまでサービスで多く使われていた REST を使った API を前提にデータ収集を行っていた。 データサイエンティストの仕事内容 データエンジニアリング データエンジニアリング ビジネス
  11. • ECサービスAの商品検索機能の改善 • 施策の評価に必要なデータの設計と収集 • 収集したデータの集計・可視化 • パイプライン化 ➡ いつでも最新のデータで施策を評価可能に

    🚀 • ECサービスBのユーザー行動分析 • Bigfoot の導入から、必要なデータの設計と収集 • 行動ログに付与する utm パラメータ*1 の設計と運用 • DB, 広告プラットフォーム , アプリストアから同期したデータと統合・セッション化 ➡ ユーザー行動や属性を統合して分析・ビジネスに反映可能に 🚀 16 取り組みの例 基盤を使ったデータ収集・分析・活用① データサイエンティストの仕事内容 *1) Google Analytics で参照元を判別するために URL に付与するパラメータ。 Bigfoot も utm パラメータを使って参照元を判別している。 ビジネス データエンジニアリング データエンジニアリング データサイエンス ビジネス データサイエンス
  12. • GitHub Enterprise のデータから全社の生産性指標を定量化、 インタラクティブなダッシュボードで参照可能に 🚀 17 取り組みの例 基盤を使ったデータ収集・分析・活用② データサイエンティストの仕事内容 エンジニアの活動情報から

    Four Keysを集計、可視化した話 | ペパボテックブログ エリート DevOps チームであることを Four Keys プロジェクトで確認する | Google Cloud Blog ビジネス データエンジニアリング データサイエンス
  13. • 社内向け機械学習研修 • ペパボ研究所とデータ基盤チームで担当 • 機械学習を当然にサービスに導入していく時代になっている • ビジネス理解, データサイエンス, データエンジニアリングの一通りの流れを体験

    ➡ 新卒エンジニアが全員 BigQuery で機械学習モデルが作れる状態に 🚀 18 取り組みの例 その他① データサイエンティストの仕事内容 https://github.com/pepabo/training/blob/master/data-and-machine-learning/day5_machine_learning_hands_on.pdf
  14. • 社内外向けにブログ記事や OSS の公開, 登壇 • データサイエンティストだけではなくペパボのパートナーとしての働き方の紹介です • 個人ブログやペパボテックブログ •

    業務課題を解決するツールの OSS 化 • zaimy/trinity: A tool to synchronize workflows (DAGs) between Codebase, Cloud Storage and Airflow metadata. - GitHub • イベントの登壇 • GMOペパボのサービスと研究開発を支えるデータ基盤の裏側 - Speaker Deck ➡ 「ファンを増やすこと」「アウトプットすること」を大切に 🚀 19 取り組みの例 その他② データサイエンティストの仕事内容