Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
レアジョブのデータ活用の今とこれから
Search
hayata-yamamoto
August 28, 2019
Technology
0
810
レアジョブのデータ活用の今とこれから
#rarejob_medpeer で使いました。
hayata-yamamoto
August 28, 2019
Tweet
Share
More Decks by hayata-yamamoto
See All by hayata-yamamoto
困難は分割せよ。既存のサービスにナレッジベースなAI駆動開発を導入していくための一つの方略
hayata_yamamoto
0
120
知識を蓄積していくAI駆動開発
hayata_yamamoto
16
8.3k
価値提供プロセスを試行錯誤し続けてきた話
hayata_yamamoto
0
150
AppSync と仲良くなろう
hayata_yamamoto
1
220
今日から機械学習チームを始めるには
hayata_yamamoto
0
180
医療と機械学習とMRI
hayata_yamamoto
0
230
ざっくりとわかる分析
hayata_yamamoto
0
180
Make Questions to Solve Problems ~how to use science as tool~
hayata_yamamoto
0
44
Other Decks in Technology
See All in Technology
生成AIをテストプロセスに活用し"よう"としている話 #jasstnano
makky_tyuyan
0
170
In Praise of "Normal" Engineers (LDX3)
charity
2
940
ゆるSRE #11 LT
okaru
1
630
kotlin-lsp を Emacs で使えるようにしてみた / use kotlin-lsp in Emacs
nabeo
0
150
研究開発部メンバーの働き⽅ / Sansan R&D Profile
sansan33
PRO
3
17k
Introduction to Sansan for Engineers / エンジニア向け会社紹介
sansan33
PRO
5
38k
Amazon Q Developer for GitHubとAmplify Hosting でサクッとデジタル名刺を作ってみた
kmiya84377
0
3.5k
Long journey of Continuous Delivery at Mercari
hisaharu
1
210
データ戦略部門 紹介資料
sansan33
PRO
1
3.2k
Digitization部 紹介資料
sansan33
PRO
1
4.2k
Amplifyとゼロからはじめた AIコーディング 成果と展望
mkdev10
1
250
CI/CDとタスク共有で加速するVibe Coding
tnbe21
0
180
Featured
See All Featured
Adopting Sorbet at Scale
ufuk
77
9.4k
YesSQL, Process and Tooling at Scale
rocio
172
14k
Automating Front-end Workflow
addyosmani
1370
200k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
137
34k
Statistics for Hackers
jakevdp
799
220k
Building an army of robots
kneath
306
45k
Building Applications with DynamoDB
mza
95
6.4k
Reflections from 52 weeks, 52 projects
jeffersonlam
351
20k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
29
9.5k
The Art of Programming - Codeland 2020
erikaheidi
54
13k
The MySQL Ecosystem @ GitHub 2015
samlambert
251
13k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
248
1.3M
Transcript
レアジョブのデータ活用の今とこれから Hayata Yamamoto RareJob.inc
Self-intro - Name: - Hayata Yamamoto (24) - Role: -
Data Scientist @EdTech Lab - Likes: - Natural Language Processing - Data Engineering - Podcast - Recent: - Certificateをとりました
Today’s Theme データ活用の文化を維持しつつ、 より使いやすくするための分析基盤を作っている話
Agenda 1. どのようにデータは使われているか (As Is) 2. どのようにデータを使っていきたいか (To Be) 3.
どのように差分を埋めるか
どのようにデータを使っているか
Pros / Cons Pros: • エンジニアや企画職が SQLを書いて分析している • 分析結果を元に意思決定が行われる •
機械学習を用いた研究開発プロジェクトが進行中 Cons: • データウェアハウス( DWH)が形骸している • マイクロサービスのDBを横断的に利用できていない • 大規模なデータを使ったデータ分析がしにくい • データ分析に必要なドメイン知識が多い
What’s the problem? Pros: • エンジニアや企画職が SQLを書いて分析している • 分析結果を元に意思決定が行われる •
機械学習を用いた研究開発プロジェクトが進行中 Cons: • データウェアハウス( DWH)が形骸している • マイクロサービスのDBを横断的に利用できていない • 大規模なデータを使ったデータ分析がしにくい • データ分析に必要なドメイン知識が多い 技術的に問題を解決するだけで大幅にデータ活用が進むのでは? データ活用の意識がある 技術的に解決できる問題
解決法がわかっている 解決法がわかっていない 顕在化した 問題 データ分析によるプロダクト改善 データを使いやすくする データ活用の文化をつくる 潜在的な 問題 プロトタイピング
データマイニング 研究開発 (パーソナライズ、自動化など) データに関わる問題をマトリックスにまとめたもの
解決法がわかっている 解決法がわかっていない 顕在化した 問題 データ分析によるプロダクト改善 データを使いやすくする データ活用の文化をつくる 潜在的な 問題 プロトタイピング
データマイニング 研究開発 (パーソナライズ、自動化など) データ活用の文化はすでにあるのに、データが使いにくいのは大きな損失 →プロダクト改善がしにくくなってしまう
解決法がわかっている 解決法がわかっていない 顕在化した 問題 データ分析によるプロダクト改善 データを使いやすくする データ活用の文化をつくる 潜在的な 問題 プロトタイピング
データマイニング 研究開発 (パーソナライズ、自動化など) データが使いにくいと、試行錯誤の効率が非常に悪い →成果に結びつきにくくなってしまう
どのようにデータを使っていきたいか
None
None
None
要するに データ使って学習体験を向上させたい
どのように差分を埋めるか
As Is / To Be As Is • データを使って意思決定する文化を十分に活かせてない •
ノウハウやドメイン知識が属人化しがち • データへのアクセスが悪く、研究開発で試行錯誤しにくい To Be • プロダクトを通じてユーザーが英語を話せるようになる • 効率的な学習体験と新しい学習機会を提供する • それぞれの個人に合わせた学習ができるようにする
What’s the gaps? 1. データ分析する文化がある, but データが使いにくい 2. ユーザーに最適化したサービスを提供したい, but
知識が属人化しがち 3. 新しい体験を提供したい, but 研究開発の試行錯誤がしにくい データのアクセスや仕組みで解決できそう
How to solve? • BigQueryをハブにして、マイクロサービスからデータを集める ◦ データの整形やテーブルの整理をしておく • 全社で必要なデータをあらかじめ可視化しておく ◦
知見の共有、認識の統一、属人化の防止 • 集めたデータを再利用できるようにする ◦ 馴染みのあるツールや、新しいツールで使えるようにする (Redashなど) • 大規模なデータが必要な分析ロールはBQを直接叩く ◦ サーバーのスケールアウト問題からの脱却。データの再現性を確保
できる限りシンプルに
ToDo • 既存の仕組みはバッチ処理に最適化された設計になっている ◦ アプリやWebRTCなどもあるので、ストリームデータも将来的には扱いたい • AWSとGCPの使い分け、住み分け ◦ データの頻度や鮮度を求めると費用対効果を損なう懸念 •
マイクロサービスの開発とうまく並走させる ◦ 分析基盤を意識しないで済む設計にしたい • 分析基盤を一緒に作ってくれる仲間を見つける ◦ We’re Hiring!