Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
データサイエンティストの仕事紹介 / Data Scientist Job Introduction
Search
Hiroka Zaitsu
March 17, 2022
Technology
1
560
データサイエンティストの仕事紹介 / Data Scientist Job Introduction
2022.03.17 GMOペパボのエンジニア・データサイエンティストの『リアル』を大公開!
https://pepabo.connpass.com/event/239293/
Hiroka Zaitsu
March 17, 2022
Tweet
Share
More Decks by Hiroka Zaitsu
See All by Hiroka Zaitsu
Vertex AI Matching Engine と CLIP を使って EC サービスの類似画像検索機能を作る / Development of similar image search function for EC services using Vertex AI Matching Engine and CLIP
zaimy
0
640
BigQuery の日本語データを Dataflow と Vertex AI でトピックモデリング / Topic modeling of Japanese data in BigQuery with Dataflow and Vertex AI
zaimy
1
5.3k
GMOペパボのサービスと研究開発を支えるデータ基盤の裏側 / Inside Story of Data Infrastructure Supporting GMO Pepabo's Services and R&D
zaimy
1
1.7k
正則化とロジスティック回帰/machine-learning-lecture-regularization-and-logistic-regression
zaimy
0
8.3k
ECサイトにおける閲覧履歴を用いた購買に繋がる行動の変化検出 / Change Detection in Behavior Followed by Possible Purchase Using Electronic Commerce Site Browsing History
zaimy
1
860
trinity で Cloud Composer に ワークフローを簡単デプロイ / Easy workflow deployment to Cloud Composer with trinity
zaimy
0
830
ハンドメイド作品を対象としたECサイトにおける大量生産品の検出 / Detection of Mass-produced Goods at EC Site to Trade Handmade Goods
zaimy
3
4.6k
キャリアキーノート2018 / Career Keynote 2018
zaimy
1
2.1k
ウェブサービスにおける行動ログ活用基盤を通したデータ駆動マーケティングの実践 / Practice of data driven marketing using behavior log foundation system on web service
zaimy
8
2.7k
Other Decks in Technology
See All in Technology
🌏丸い地球を効率的に平たくする 〜🗺️地図の幾何学とWeb地図技術〜
syotasasaki593876
0
140
CDKのコードレビューを楽にするパッケージcdk-mentorを作ってみた/cdk-mentor
tomoki10
0
180
チームが毎日小さな変化と適応を続けたら1年間でスケール可能なアジャイルチームができた話 / Building a Scalable Agile Team
kakehashi
2
210
AWSの生成AIサービス Amazon Bedrock入門!(2025年1月版)
minorun365
PRO
7
450
FODにおけるホーム画面編成のレコメンド
watarukudo
PRO
2
210
AWS re:Invent 2024 recap in 20min / JAWSUG 千葉 2025.1.14
shimy
1
100
SpiderPlus & Co. エンジニア向け会社紹介資料
spiderplus_cb
0
790
ゼロからわかる!!AWSの構成図を書いてみようワークショップ 問題&解答解説 #デッカイギ #羽田デッカイギおつ
_mossann_t
0
1.5k
Oracle Exadata Database Service(Dedicated Infrastructure):サービス概要のご紹介
oracle4engineer
PRO
0
12k
今から、 今だからこそ始める Terraform で Azure 管理 / Managing Azure with Terraform: The Perfect Time to Start
nnstt1
0
140
Alignment and Autonomy in Cybozu - 300人の開発組織でアラインメントと自律性を両立させるアジャイルな組織運営 / RSGT2025
ama_ch
1
2.3k
Evolving Architecture
rainerhahnekamp
3
250
Featured
See All Featured
The Art of Programming - Codeland 2020
erikaheidi
53
13k
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
28
4.5k
Build your cross-platform service in a week with App Engine
jlugia
229
18k
Art, The Web, and Tiny UX
lynnandtonic
298
20k
Side Projects
sachag
452
42k
Optimizing for Happiness
mojombo
376
70k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
113
50k
The Cult of Friendly URLs
andyhume
78
6.1k
Facilitating Awesome Meetings
lara
51
6.2k
GitHub's CSS Performance
jonrohan
1030
460k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
248
1.3M
Mobile First: as difficult as doing things right
swwweet
222
9k
Transcript
データサイエンティストの 仕事紹介 財津大夏 / GMO PEPABO inc. 2022.03.17 GMOペパボのエンジニア・データサイエンティストの『リアル』 を大公開!
1
2 自己紹介 技術部 データ基盤チーム 2012年 入社 • データサイエンティスト • ペパボのデータ基盤「Bigfoot」の開発/運用
• Bigfoot を使ったデータ分析/活用 • Twitter : @HirokaZaitsu #データ基盤 #DataOps #MLOps #Python #SQL # 統計学 #機械学習 財津 大夏 Hiroka Zaitsu
3 専門性 データサイエンス力、データエンジニアリング力をベースに データから価値を創出し、ビジネス課題に答えを出すプロフェッショナル データサイエンティスト データサイエンティスト協会、データサイエンティストのミッション、スキルセット、定義、スキルレベルを発表 http://www.datascientist.or.jp/files/news/2014-12-10.pdf
4 データサイエンティストに求められるスキルセット ビジネス力 データ サイエンス力 データ エンジニア リング力 データサイエンスを意味のある形に 使えるようにし、実装、
運用できるようにする力 情報処理、人工知能、 統計学などの情報科学系の 知恵を理解し、使う力 背景課題を理解した上で、 ビジネス課題を整理し、 解決する力 データサイエンティスト協会、データサイエンティストのミッション、スキルセット、定義、スキルレベルを発表 http://www.datascientist.or.jp/files/news/2014-12-10.pdf より再構成
5 データサイエンティストに求められるスキルセット ビジネス力 • ビジネスとデータの理解 • データ倫理の理解 • データ活用の アプローチ設計
• ビジネスへの実装 etc... データサイエンス力 • 統計や機械学習に関連する 基礎的な数学 • データ加工, 可視化 • 統計モデルや 機械学習モデルの理解と使用 etc... データエンジニアリング力 • データ収集, 統合システムの設 計, 実装, 運用 • データセット, テーブル設計 • 分析パイプラインの実装 • 機械学習パイプラインの実装 etc... 一般社団法人データサイエンティスト協会 スキルチェックリスト https://www.datascientist.or.jp/common/docs/skillcheck_ver3.00.pdf より一部引用・再構成
6 データ駆動の実現に向けて 具体的な仕事内容の前に ...
• 日本 CTO 協会が作成したアセスメントツール • DX の進捗度を自己診断できる • 5 つのテーマのうちの
1 つが「データ駆動」 7 DX Criteria とデータ駆動 日本CTO協会 DX Criteria ver.201912 https://github.com/cto-a/dxcriteria/blob/master/asset/image/dxcriteria201912.pdf データ駆動の実現に向けて DX Criteria の実践とその活用について | ペパボテックブログ https://tech.pepabo.com/2020/02/19/dx-criteria/
• マーケティング自動化 • データを元にサービスの振る舞いを変える • 例)ECサイトのカゴ落ちメール • 自動的な意思決定 • 決定に必要な指標を計測可能・非属人的にして自動化可能にする
• 例)統計的な判断 • 決定後のシステム挙動の変更を自動化する • 例)データに基づいてテストパターンを競わせるバンディットアルゴリズム 8 データ駆動によって目指すもの データ駆動の実現に向けて
9 提供するサービスを データ駆動によって より良くしていきたい
• 実現を阻む一般的な課題 • データを集める仕組みがない • そもそも保存していない • 保存しているけど Google Analytics,
広告ツール, データベースなどに分散している • 集めたデータを分析する仕組みやスキルがない • 分析したデータを活用する仕組みがない • いきなりデータ駆動にはなれないので ... 10 データ駆動になるぞ!!! データ駆動の実現に向けて
• 各セルの要素を揃えていくことでデータ駆動を目指す • Bigfoot は青いセルの要素を扱いやすくしてデータ駆動化をサポート 11 データ駆動までの道のりを3つの段階と2つのレイヤに整理 収集 分析 活用
システム リテラシ データ駆動 DWH Logger BI / Dashboard ワークフロー データ連携 データ集計 統計知識 事業価値の理解 統計的な判断 機械学習基盤 適応的改善機構 情報推薦 機械学習 サービスの動的改善 自動的な意思決定 + = 段階 データ駆動の実現に向けて
12 データ駆動を全社的に実現するために データサイエンティストの仕事内容 • データの収集・分析・活用を行うためのデータ基盤 Bigfoot の開発・運用 • Bigfoot を使ったデータ収集・分析・活用
➡ 解像度を上げてイメージしていただけるように直近の取り組みを具体的に紹介します
• サービスの DB から Bigfoot へのパイプラインの改善 • データエンジニアがサービスに適したバッチジョブを設計・実装 • データサイエンティストがワークフローでの制御を設計・実装
• DB の完全なコピーを BigQuery*1 で利用可能 ➡ 半日掛かるクエリが1秒に 🚀 13 取り組みの例 データ基盤の開発・運用① データサイエンティストの仕事内容 *1) Google が提供するマネージドデータウェアハウスサービス。 SQL を使ってビッグデータを高速に分析できる。 データエンジニアリング ビジネス
• 機械学習基盤の構築 • バラバラに実装されている既存のモデルを統合して効率的に管理可能に • 既存のモデルの移行を順次実施 • ローカル環境では実施できない処理をクラウドの Jupyter 環境で実施できるようにする
➡ エンジニアや研究者やデータサイエンティストがモデルに集中できるように 🚀 14 取り組みの例 データ基盤の開発・運用② データサイエンティストの仕事内容 データエンジニアリング データサイエンス
• ワークフロー中のコンテナの扱いの改善 • コンテナを使う処理がいくつかの GCP*1 サービスに跨っていて運用が難しかった ➡ コンテナ単位の処理を GKE*2 に集約してワークフローに組み込めるように
🚀 • データ収集の仕組みの改善 • ログ収集を GraphQL*3 を使った API に対応 ➡ エンジニアがログ設計を意識しなくてもデータ収集できるように 🚀 15 取り組みの例 データ基盤の開発・運用③ *1) Google Cloud Platform の略。前出の BigQuery を含む Google のクラウドサービス群の総称。 Bigfoot は GCP サービスを中心に構成されている。 *2) Google Kubernetes Engine の略。コンテナ化されたアプリケーションを実行するためのマネージドサービス。 Google Cloud Platform に含まれる。 *3) API 向けのクエリ言語。従来 Bigfoot は、これまでサービスで多く使われていた REST を使った API を前提にデータ収集を行っていた。 データサイエンティストの仕事内容 データエンジニアリング データエンジニアリング ビジネス
• ECサービスAの商品検索機能の改善 • 施策の評価に必要なデータの設計と収集 • 収集したデータの集計・可視化 • パイプライン化 ➡ いつでも最新のデータで施策を評価可能に
🚀 • ECサービスBのユーザー行動分析 • Bigfoot の導入から、必要なデータの設計と収集 • 行動ログに付与する utm パラメータ*1 の設計と運用 • DB, 広告プラットフォーム , アプリストアから同期したデータと統合・セッション化 ➡ ユーザー行動や属性を統合して分析・ビジネスに反映可能に 🚀 16 取り組みの例 基盤を使ったデータ収集・分析・活用① データサイエンティストの仕事内容 *1) Google Analytics で参照元を判別するために URL に付与するパラメータ。 Bigfoot も utm パラメータを使って参照元を判別している。 ビジネス データエンジニアリング データエンジニアリング データサイエンス ビジネス データサイエンス
• GitHub Enterprise のデータから全社の生産性指標を定量化、 インタラクティブなダッシュボードで参照可能に 🚀 17 取り組みの例 基盤を使ったデータ収集・分析・活用② データサイエンティストの仕事内容 エンジニアの活動情報から
Four Keysを集計、可視化した話 | ペパボテックブログ エリート DevOps チームであることを Four Keys プロジェクトで確認する | Google Cloud Blog ビジネス データエンジニアリング データサイエンス
• 社内向け機械学習研修 • ペパボ研究所とデータ基盤チームで担当 • 機械学習を当然にサービスに導入していく時代になっている • ビジネス理解, データサイエンス, データエンジニアリングの一通りの流れを体験
➡ 新卒エンジニアが全員 BigQuery で機械学習モデルが作れる状態に 🚀 18 取り組みの例 その他① データサイエンティストの仕事内容 https://github.com/pepabo/training/blob/master/data-and-machine-learning/day5_machine_learning_hands_on.pdf
• 社内外向けにブログ記事や OSS の公開, 登壇 • データサイエンティストだけではなくペパボのパートナーとしての働き方の紹介です • 個人ブログやペパボテックブログ •
業務課題を解決するツールの OSS 化 • zaimy/trinity: A tool to synchronize workflows (DAGs) between Codebase, Cloud Storage and Airflow metadata. - GitHub • イベントの登壇 • GMOペパボのサービスと研究開発を支えるデータ基盤の裏側 - Speaker Deck ➡ 「ファンを増やすこと」「アウトプットすること」を大切に 🚀 19 取り組みの例 その他② データサイエンティストの仕事内容
• ペパボは多数のサービスを開発・運用している • 全サービスで「意思決定の自動化」「マーケティング自動化」に近づけていく • 各セグメントにデータサイエンティストを配置できるよう組織化を進める • 基盤チーム所属のデータサイエンティストとして 3つのスキル領域を伸ばす •
エッジな取り組みを各サービスで進めていく 20 全サービスでデータ駆動が当たり前の状況を実現する 今後やっていくこと