Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
データサイエンティストの仕事紹介 / Data Scientist Job Introduction
Search
Hiroka Zaitsu
March 17, 2022
Technology
1
450
データサイエンティストの仕事紹介 / Data Scientist Job Introduction
2022.03.17 GMOペパボのエンジニア・データサイエンティストの『リアル』を大公開!
https://pepabo.connpass.com/event/239293/
Hiroka Zaitsu
March 17, 2022
Tweet
Share
More Decks by Hiroka Zaitsu
See All by Hiroka Zaitsu
Vertex AI Matching Engine と CLIP を使って EC サービスの類似画像検索機能を作る / Development of similar image search function for EC services using Vertex AI Matching Engine and CLIP
zaimy
0
450
BigQuery の日本語データを Dataflow と Vertex AI でトピックモデリング / Topic modeling of Japanese data in BigQuery with Dataflow and Vertex AI
zaimy
1
4.6k
GMOペパボのサービスと研究開発を支えるデータ基盤の裏側 / Inside Story of Data Infrastructure Supporting GMO Pepabo's Services and R&D
zaimy
1
1.2k
正則化とロジスティック回帰/machine-learning-lecture-regularization-and-logistic-regression
zaimy
0
7.4k
ECサイトにおける閲覧履歴を用いた購買に繋がる行動の変化検出 / Change Detection in Behavior Followed by Possible Purchase Using Electronic Commerce Site Browsing History
zaimy
0
750
trinity で Cloud Composer に ワークフローを簡単デプロイ / Easy workflow deployment to Cloud Composer with trinity
zaimy
0
730
ハンドメイド作品を対象としたECサイトにおける大量生産品の検出 / Detection of Mass-produced Goods at EC Site to Trade Handmade Goods
zaimy
3
4.3k
キャリアキーノート2018 / Career Keynote 2018
zaimy
1
1.9k
ウェブサービスにおける行動ログ活用基盤を通したデータ駆動マーケティングの実践 / Practice of data driven marketing using behavior log foundation system on web service
zaimy
7
2.5k
Other Decks in Technology
See All in Technology
EMとして2023年度に頑張ったこと / What we did well in FY2023 as a EM
pauli
1
170
[新卒向け研修資料] テスト文字列に「うんこ」と入れるな(2024年版)
infiniteloop_inc
4
15k
KubeCon EU 2024 Recap “Kubernetes Policy Time Machine: Where to Next?”
ryysud
0
220
Cloud Native Java with Spring Boot (CNCF Aarhus, April 2024)
thomasvitale
1
170
20分で完全に理解するGrafanaダッシュボード
hamadakoji
3
650
地理空間データ可視化・解析・活用ソリューション Pacific Spatial Solutions (PSS)
pacificspatialsolutions
0
280
Python と Snowflake はズッ友だょ!~ Snowflake の Python 関連機能をふりかえる ~
__allllllllez__
1
120
非同期推論システムによるコスト削減と信頼性向上
koki_nishihara
0
260
require(ESM)とECMAScript仕様
uhyo
3
710
反実仮想機械学習とは何か
usaito
PRO
11
4.7k
JSON攻略法.pdf
miyakemito
8
5.1k
現代CSSフレームワークの内部実装とその仕組み
poteboy
7
3.6k
Featured
See All Featured
Building Better People: How to give real-time feedback that sticks.
wjessup
355
18k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
244
20k
It's Worth the Effort
3n
180
27k
5 minutes of I Can Smell Your CMS
philhawksworth
199
19k
How to Ace a Technical Interview
jacobian
272
22k
How GitHub (no longer) Works
holman
304
140k
Unsuck your backbone
ammeep
663
57k
StorybookのUI Testing Handbookを読んだ
zakiyama
13
4.6k
The Power of CSS Pseudo Elements
geoffreycrofte
60
5k
Designing Dashboards & Data Visualisations in Web Apps
destraynor
226
51k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
221
21k
Building Your Own Lightsaber
phodgson
99
5.7k
Transcript
データサイエンティストの 仕事紹介 財津大夏 / GMO PEPABO inc. 2022.03.17 GMOペパボのエンジニア・データサイエンティストの『リアル』 を大公開!
1
2 自己紹介 技術部 データ基盤チーム 2012年 入社 • データサイエンティスト • ペパボのデータ基盤「Bigfoot」の開発/運用
• Bigfoot を使ったデータ分析/活用 • Twitter : @HirokaZaitsu #データ基盤 #DataOps #MLOps #Python #SQL # 統計学 #機械学習 財津 大夏 Hiroka Zaitsu
3 専門性 データサイエンス力、データエンジニアリング力をベースに データから価値を創出し、ビジネス課題に答えを出すプロフェッショナル データサイエンティスト データサイエンティスト協会、データサイエンティストのミッション、スキルセット、定義、スキルレベルを発表 http://www.datascientist.or.jp/files/news/2014-12-10.pdf
4 データサイエンティストに求められるスキルセット ビジネス力 データ サイエンス力 データ エンジニア リング力 データサイエンスを意味のある形に 使えるようにし、実装、
運用できるようにする力 情報処理、人工知能、 統計学などの情報科学系の 知恵を理解し、使う力 背景課題を理解した上で、 ビジネス課題を整理し、 解決する力 データサイエンティスト協会、データサイエンティストのミッション、スキルセット、定義、スキルレベルを発表 http://www.datascientist.or.jp/files/news/2014-12-10.pdf より再構成
5 データサイエンティストに求められるスキルセット ビジネス力 • ビジネスとデータの理解 • データ倫理の理解 • データ活用の アプローチ設計
• ビジネスへの実装 etc... データサイエンス力 • 統計や機械学習に関連する 基礎的な数学 • データ加工, 可視化 • 統計モデルや 機械学習モデルの理解と使用 etc... データエンジニアリング力 • データ収集, 統合システムの設 計, 実装, 運用 • データセット, テーブル設計 • 分析パイプラインの実装 • 機械学習パイプラインの実装 etc... 一般社団法人データサイエンティスト協会 スキルチェックリスト https://www.datascientist.or.jp/common/docs/skillcheck_ver3.00.pdf より一部引用・再構成
6 データ駆動の実現に向けて 具体的な仕事内容の前に ...
• 日本 CTO 協会が作成したアセスメントツール • DX の進捗度を自己診断できる • 5 つのテーマのうちの
1 つが「データ駆動」 7 DX Criteria とデータ駆動 日本CTO協会 DX Criteria ver.201912 https://github.com/cto-a/dxcriteria/blob/master/asset/image/dxcriteria201912.pdf データ駆動の実現に向けて DX Criteria の実践とその活用について | ペパボテックブログ https://tech.pepabo.com/2020/02/19/dx-criteria/
• マーケティング自動化 • データを元にサービスの振る舞いを変える • 例)ECサイトのカゴ落ちメール • 自動的な意思決定 • 決定に必要な指標を計測可能・非属人的にして自動化可能にする
• 例)統計的な判断 • 決定後のシステム挙動の変更を自動化する • 例)データに基づいてテストパターンを競わせるバンディットアルゴリズム 8 データ駆動によって目指すもの データ駆動の実現に向けて
9 提供するサービスを データ駆動によって より良くしていきたい
• 実現を阻む一般的な課題 • データを集める仕組みがない • そもそも保存していない • 保存しているけど Google Analytics,
広告ツール, データベースなどに分散している • 集めたデータを分析する仕組みやスキルがない • 分析したデータを活用する仕組みがない • いきなりデータ駆動にはなれないので ... 10 データ駆動になるぞ!!! データ駆動の実現に向けて
• 各セルの要素を揃えていくことでデータ駆動を目指す • Bigfoot は青いセルの要素を扱いやすくしてデータ駆動化をサポート 11 データ駆動までの道のりを3つの段階と2つのレイヤに整理 収集 分析 活用
システム リテラシ データ駆動 DWH Logger BI / Dashboard ワークフロー データ連携 データ集計 統計知識 事業価値の理解 統計的な判断 機械学習基盤 適応的改善機構 情報推薦 機械学習 サービスの動的改善 自動的な意思決定 + = 段階 データ駆動の実現に向けて
12 データ駆動を全社的に実現するために データサイエンティストの仕事内容 • データの収集・分析・活用を行うためのデータ基盤 Bigfoot の開発・運用 • Bigfoot を使ったデータ収集・分析・活用
➡ 解像度を上げてイメージしていただけるように直近の取り組みを具体的に紹介します
• サービスの DB から Bigfoot へのパイプラインの改善 • データエンジニアがサービスに適したバッチジョブを設計・実装 • データサイエンティストがワークフローでの制御を設計・実装
• DB の完全なコピーを BigQuery*1 で利用可能 ➡ 半日掛かるクエリが1秒に 🚀 13 取り組みの例 データ基盤の開発・運用① データサイエンティストの仕事内容 *1) Google が提供するマネージドデータウェアハウスサービス。 SQL を使ってビッグデータを高速に分析できる。 データエンジニアリング ビジネス
• 機械学習基盤の構築 • バラバラに実装されている既存のモデルを統合して効率的に管理可能に • 既存のモデルの移行を順次実施 • ローカル環境では実施できない処理をクラウドの Jupyter 環境で実施できるようにする
➡ エンジニアや研究者やデータサイエンティストがモデルに集中できるように 🚀 14 取り組みの例 データ基盤の開発・運用② データサイエンティストの仕事内容 データエンジニアリング データサイエンス
• ワークフロー中のコンテナの扱いの改善 • コンテナを使う処理がいくつかの GCP*1 サービスに跨っていて運用が難しかった ➡ コンテナ単位の処理を GKE*2 に集約してワークフローに組み込めるように
🚀 • データ収集の仕組みの改善 • ログ収集を GraphQL*3 を使った API に対応 ➡ エンジニアがログ設計を意識しなくてもデータ収集できるように 🚀 15 取り組みの例 データ基盤の開発・運用③ *1) Google Cloud Platform の略。前出の BigQuery を含む Google のクラウドサービス群の総称。 Bigfoot は GCP サービスを中心に構成されている。 *2) Google Kubernetes Engine の略。コンテナ化されたアプリケーションを実行するためのマネージドサービス。 Google Cloud Platform に含まれる。 *3) API 向けのクエリ言語。従来 Bigfoot は、これまでサービスで多く使われていた REST を使った API を前提にデータ収集を行っていた。 データサイエンティストの仕事内容 データエンジニアリング データエンジニアリング ビジネス
• ECサービスAの商品検索機能の改善 • 施策の評価に必要なデータの設計と収集 • 収集したデータの集計・可視化 • パイプライン化 ➡ いつでも最新のデータで施策を評価可能に
🚀 • ECサービスBのユーザー行動分析 • Bigfoot の導入から、必要なデータの設計と収集 • 行動ログに付与する utm パラメータ*1 の設計と運用 • DB, 広告プラットフォーム , アプリストアから同期したデータと統合・セッション化 ➡ ユーザー行動や属性を統合して分析・ビジネスに反映可能に 🚀 16 取り組みの例 基盤を使ったデータ収集・分析・活用① データサイエンティストの仕事内容 *1) Google Analytics で参照元を判別するために URL に付与するパラメータ。 Bigfoot も utm パラメータを使って参照元を判別している。 ビジネス データエンジニアリング データエンジニアリング データサイエンス ビジネス データサイエンス
• GitHub Enterprise のデータから全社の生産性指標を定量化、 インタラクティブなダッシュボードで参照可能に 🚀 17 取り組みの例 基盤を使ったデータ収集・分析・活用② データサイエンティストの仕事内容 エンジニアの活動情報から
Four Keysを集計、可視化した話 | ペパボテックブログ エリート DevOps チームであることを Four Keys プロジェクトで確認する | Google Cloud Blog ビジネス データエンジニアリング データサイエンス
• 社内向け機械学習研修 • ペパボ研究所とデータ基盤チームで担当 • 機械学習を当然にサービスに導入していく時代になっている • ビジネス理解, データサイエンス, データエンジニアリングの一通りの流れを体験
➡ 新卒エンジニアが全員 BigQuery で機械学習モデルが作れる状態に 🚀 18 取り組みの例 その他① データサイエンティストの仕事内容 https://github.com/pepabo/training/blob/master/data-and-machine-learning/day5_machine_learning_hands_on.pdf
• 社内外向けにブログ記事や OSS の公開, 登壇 • データサイエンティストだけではなくペパボのパートナーとしての働き方の紹介です • 個人ブログやペパボテックブログ •
業務課題を解決するツールの OSS 化 • zaimy/trinity: A tool to synchronize workflows (DAGs) between Codebase, Cloud Storage and Airflow metadata. - GitHub • イベントの登壇 • GMOペパボのサービスと研究開発を支えるデータ基盤の裏側 - Speaker Deck ➡ 「ファンを増やすこと」「アウトプットすること」を大切に 🚀 19 取り組みの例 その他② データサイエンティストの仕事内容
• ペパボは多数のサービスを開発・運用している • 全サービスで「意思決定の自動化」「マーケティング自動化」に近づけていく • 各セグメントにデータサイエンティストを配置できるよう組織化を進める • 基盤チーム所属のデータサイエンティストとして 3つのスキル領域を伸ばす •
エッジな取り組みを各サービスで進めていく 20 全サービスでデータ駆動が当たり前の状況を実現する 今後やっていくこと