Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
データサイエンティストの仕事紹介 / Data Scientist Job Introduction
Search
Hiroka Zaitsu
March 17, 2022
Technology
1
530
データサイエンティストの仕事紹介 / Data Scientist Job Introduction
2022.03.17 GMOペパボのエンジニア・データサイエンティストの『リアル』を大公開!
https://pepabo.connpass.com/event/239293/
Hiroka Zaitsu
March 17, 2022
Tweet
Share
More Decks by Hiroka Zaitsu
See All by Hiroka Zaitsu
Vertex AI Matching Engine と CLIP を使って EC サービスの類似画像検索機能を作る / Development of similar image search function for EC services using Vertex AI Matching Engine and CLIP
zaimy
0
600
BigQuery の日本語データを Dataflow と Vertex AI でトピックモデリング / Topic modeling of Japanese data in BigQuery with Dataflow and Vertex AI
zaimy
1
5.2k
GMOペパボのサービスと研究開発を支えるデータ基盤の裏側 / Inside Story of Data Infrastructure Supporting GMO Pepabo's Services and R&D
zaimy
1
1.6k
正則化とロジスティック回帰/machine-learning-lecture-regularization-and-logistic-regression
zaimy
0
8.2k
ECサイトにおける閲覧履歴を用いた購買に繋がる行動の変化検出 / Change Detection in Behavior Followed by Possible Purchase Using Electronic Commerce Site Browsing History
zaimy
1
830
trinity で Cloud Composer に ワークフローを簡単デプロイ / Easy workflow deployment to Cloud Composer with trinity
zaimy
0
810
ハンドメイド作品を対象としたECサイトにおける大量生産品の検出 / Detection of Mass-produced Goods at EC Site to Trade Handmade Goods
zaimy
3
4.6k
キャリアキーノート2018 / Career Keynote 2018
zaimy
1
2.1k
ウェブサービスにおける行動ログ活用基盤を通したデータ駆動マーケティングの実践 / Practice of data driven marketing using behavior log foundation system on web service
zaimy
8
2.6k
Other Decks in Technology
See All in Technology
Lambdaと地方とコミュニティ
miu_crescent
2
370
Exadata Database Service on Dedicated Infrastructure(ExaDB-D) UI スクリーン・キャプチャ集
oracle4engineer
PRO
2
3.2k
マルチプロダクトな開発組織で 「開発生産性」に向き合うために試みたこと / Improving Multi-Product Dev Productivity
sugamasao
1
300
The Role of Developer Relations in AI Product Success.
giftojabu1
0
120
【Pycon mini 東海 2024】Google Colaboratoryで試すVLM
kazuhitotakahashi
2
490
Making your applications cross-environment - OSCG 2024 NA
salaboy
0
180
スクラムチームを立ち上げる〜チーム開発で得られたもの・得られなかったもの〜
ohnoeight
2
350
これまでの計測・開発・デプロイ方法全部見せます! / Findy ISUCON 2024-11-14
tohutohu
3
360
Security-JAWS【第35回】勉強会クラウドにおけるマルウェアやコンテンツ改ざんへの対策
4su_para
0
170
Amazon Personalizeのレコメンドシステム構築、実際何するの?〜大体10分で具体的なイメージをつかむ〜
kniino
1
100
リンクアンドモチベーション ソフトウェアエンジニア向け紹介資料 / Introduction to Link and Motivation for Software Engineers
lmi
4
300k
OCI Vault 概要
oracle4engineer
PRO
0
9.7k
Featured
See All Featured
[RailsConf 2023] Rails as a piece of cake
palkan
52
4.9k
Reflections from 52 weeks, 52 projects
jeffersonlam
346
20k
Building an army of robots
kneath
302
43k
Fontdeck: Realign not Redesign
paulrobertlloyd
82
5.2k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
280
13k
Testing 201, or: Great Expectations
jmmastey
38
7.1k
The Pragmatic Product Professional
lauravandoore
31
6.3k
Git: the NoSQL Database
bkeepers
PRO
427
64k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
109
49k
The Invisible Side of Design
smashingmag
298
50k
RailsConf 2023
tenderlove
29
900
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
356
29k
Transcript
データサイエンティストの 仕事紹介 財津大夏 / GMO PEPABO inc. 2022.03.17 GMOペパボのエンジニア・データサイエンティストの『リアル』 を大公開!
1
2 自己紹介 技術部 データ基盤チーム 2012年 入社 • データサイエンティスト • ペパボのデータ基盤「Bigfoot」の開発/運用
• Bigfoot を使ったデータ分析/活用 • Twitter : @HirokaZaitsu #データ基盤 #DataOps #MLOps #Python #SQL # 統計学 #機械学習 財津 大夏 Hiroka Zaitsu
3 専門性 データサイエンス力、データエンジニアリング力をベースに データから価値を創出し、ビジネス課題に答えを出すプロフェッショナル データサイエンティスト データサイエンティスト協会、データサイエンティストのミッション、スキルセット、定義、スキルレベルを発表 http://www.datascientist.or.jp/files/news/2014-12-10.pdf
4 データサイエンティストに求められるスキルセット ビジネス力 データ サイエンス力 データ エンジニア リング力 データサイエンスを意味のある形に 使えるようにし、実装、
運用できるようにする力 情報処理、人工知能、 統計学などの情報科学系の 知恵を理解し、使う力 背景課題を理解した上で、 ビジネス課題を整理し、 解決する力 データサイエンティスト協会、データサイエンティストのミッション、スキルセット、定義、スキルレベルを発表 http://www.datascientist.or.jp/files/news/2014-12-10.pdf より再構成
5 データサイエンティストに求められるスキルセット ビジネス力 • ビジネスとデータの理解 • データ倫理の理解 • データ活用の アプローチ設計
• ビジネスへの実装 etc... データサイエンス力 • 統計や機械学習に関連する 基礎的な数学 • データ加工, 可視化 • 統計モデルや 機械学習モデルの理解と使用 etc... データエンジニアリング力 • データ収集, 統合システムの設 計, 実装, 運用 • データセット, テーブル設計 • 分析パイプラインの実装 • 機械学習パイプラインの実装 etc... 一般社団法人データサイエンティスト協会 スキルチェックリスト https://www.datascientist.or.jp/common/docs/skillcheck_ver3.00.pdf より一部引用・再構成
6 データ駆動の実現に向けて 具体的な仕事内容の前に ...
• 日本 CTO 協会が作成したアセスメントツール • DX の進捗度を自己診断できる • 5 つのテーマのうちの
1 つが「データ駆動」 7 DX Criteria とデータ駆動 日本CTO協会 DX Criteria ver.201912 https://github.com/cto-a/dxcriteria/blob/master/asset/image/dxcriteria201912.pdf データ駆動の実現に向けて DX Criteria の実践とその活用について | ペパボテックブログ https://tech.pepabo.com/2020/02/19/dx-criteria/
• マーケティング自動化 • データを元にサービスの振る舞いを変える • 例)ECサイトのカゴ落ちメール • 自動的な意思決定 • 決定に必要な指標を計測可能・非属人的にして自動化可能にする
• 例)統計的な判断 • 決定後のシステム挙動の変更を自動化する • 例)データに基づいてテストパターンを競わせるバンディットアルゴリズム 8 データ駆動によって目指すもの データ駆動の実現に向けて
9 提供するサービスを データ駆動によって より良くしていきたい
• 実現を阻む一般的な課題 • データを集める仕組みがない • そもそも保存していない • 保存しているけど Google Analytics,
広告ツール, データベースなどに分散している • 集めたデータを分析する仕組みやスキルがない • 分析したデータを活用する仕組みがない • いきなりデータ駆動にはなれないので ... 10 データ駆動になるぞ!!! データ駆動の実現に向けて
• 各セルの要素を揃えていくことでデータ駆動を目指す • Bigfoot は青いセルの要素を扱いやすくしてデータ駆動化をサポート 11 データ駆動までの道のりを3つの段階と2つのレイヤに整理 収集 分析 活用
システム リテラシ データ駆動 DWH Logger BI / Dashboard ワークフロー データ連携 データ集計 統計知識 事業価値の理解 統計的な判断 機械学習基盤 適応的改善機構 情報推薦 機械学習 サービスの動的改善 自動的な意思決定 + = 段階 データ駆動の実現に向けて
12 データ駆動を全社的に実現するために データサイエンティストの仕事内容 • データの収集・分析・活用を行うためのデータ基盤 Bigfoot の開発・運用 • Bigfoot を使ったデータ収集・分析・活用
➡ 解像度を上げてイメージしていただけるように直近の取り組みを具体的に紹介します
• サービスの DB から Bigfoot へのパイプラインの改善 • データエンジニアがサービスに適したバッチジョブを設計・実装 • データサイエンティストがワークフローでの制御を設計・実装
• DB の完全なコピーを BigQuery*1 で利用可能 ➡ 半日掛かるクエリが1秒に 🚀 13 取り組みの例 データ基盤の開発・運用① データサイエンティストの仕事内容 *1) Google が提供するマネージドデータウェアハウスサービス。 SQL を使ってビッグデータを高速に分析できる。 データエンジニアリング ビジネス
• 機械学習基盤の構築 • バラバラに実装されている既存のモデルを統合して効率的に管理可能に • 既存のモデルの移行を順次実施 • ローカル環境では実施できない処理をクラウドの Jupyter 環境で実施できるようにする
➡ エンジニアや研究者やデータサイエンティストがモデルに集中できるように 🚀 14 取り組みの例 データ基盤の開発・運用② データサイエンティストの仕事内容 データエンジニアリング データサイエンス
• ワークフロー中のコンテナの扱いの改善 • コンテナを使う処理がいくつかの GCP*1 サービスに跨っていて運用が難しかった ➡ コンテナ単位の処理を GKE*2 に集約してワークフローに組み込めるように
🚀 • データ収集の仕組みの改善 • ログ収集を GraphQL*3 を使った API に対応 ➡ エンジニアがログ設計を意識しなくてもデータ収集できるように 🚀 15 取り組みの例 データ基盤の開発・運用③ *1) Google Cloud Platform の略。前出の BigQuery を含む Google のクラウドサービス群の総称。 Bigfoot は GCP サービスを中心に構成されている。 *2) Google Kubernetes Engine の略。コンテナ化されたアプリケーションを実行するためのマネージドサービス。 Google Cloud Platform に含まれる。 *3) API 向けのクエリ言語。従来 Bigfoot は、これまでサービスで多く使われていた REST を使った API を前提にデータ収集を行っていた。 データサイエンティストの仕事内容 データエンジニアリング データエンジニアリング ビジネス
• ECサービスAの商品検索機能の改善 • 施策の評価に必要なデータの設計と収集 • 収集したデータの集計・可視化 • パイプライン化 ➡ いつでも最新のデータで施策を評価可能に
🚀 • ECサービスBのユーザー行動分析 • Bigfoot の導入から、必要なデータの設計と収集 • 行動ログに付与する utm パラメータ*1 の設計と運用 • DB, 広告プラットフォーム , アプリストアから同期したデータと統合・セッション化 ➡ ユーザー行動や属性を統合して分析・ビジネスに反映可能に 🚀 16 取り組みの例 基盤を使ったデータ収集・分析・活用① データサイエンティストの仕事内容 *1) Google Analytics で参照元を判別するために URL に付与するパラメータ。 Bigfoot も utm パラメータを使って参照元を判別している。 ビジネス データエンジニアリング データエンジニアリング データサイエンス ビジネス データサイエンス
• GitHub Enterprise のデータから全社の生産性指標を定量化、 インタラクティブなダッシュボードで参照可能に 🚀 17 取り組みの例 基盤を使ったデータ収集・分析・活用② データサイエンティストの仕事内容 エンジニアの活動情報から
Four Keysを集計、可視化した話 | ペパボテックブログ エリート DevOps チームであることを Four Keys プロジェクトで確認する | Google Cloud Blog ビジネス データエンジニアリング データサイエンス
• 社内向け機械学習研修 • ペパボ研究所とデータ基盤チームで担当 • 機械学習を当然にサービスに導入していく時代になっている • ビジネス理解, データサイエンス, データエンジニアリングの一通りの流れを体験
➡ 新卒エンジニアが全員 BigQuery で機械学習モデルが作れる状態に 🚀 18 取り組みの例 その他① データサイエンティストの仕事内容 https://github.com/pepabo/training/blob/master/data-and-machine-learning/day5_machine_learning_hands_on.pdf
• 社内外向けにブログ記事や OSS の公開, 登壇 • データサイエンティストだけではなくペパボのパートナーとしての働き方の紹介です • 個人ブログやペパボテックブログ •
業務課題を解決するツールの OSS 化 • zaimy/trinity: A tool to synchronize workflows (DAGs) between Codebase, Cloud Storage and Airflow metadata. - GitHub • イベントの登壇 • GMOペパボのサービスと研究開発を支えるデータ基盤の裏側 - Speaker Deck ➡ 「ファンを増やすこと」「アウトプットすること」を大切に 🚀 19 取り組みの例 その他② データサイエンティストの仕事内容
• ペパボは多数のサービスを開発・運用している • 全サービスで「意思決定の自動化」「マーケティング自動化」に近づけていく • 各セグメントにデータサイエンティストを配置できるよう組織化を進める • 基盤チーム所属のデータサイエンティストとして 3つのスキル領域を伸ばす •
エッジな取り組みを各サービスで進めていく 20 全サービスでデータ駆動が当たり前の状況を実現する 今後やっていくこと