レアジョブのデータ活用の今とこれから

Slide 1

Slide 1 text

レアジョブのデータ活用の今とこれから Hayata Yamamoto RareJob.inc

Slide 2

Slide 2 text

Self-intro - Name: - Hayata Yamamoto (24) - Role: - Data Scientist @EdTech Lab - Likes: - Natural Language Processing - Data Engineering - Podcast - Recent: - Certiﬁcateをとりました

Slide 3

Slide 3 text

Today’s Theme データ活用の文化を維持しつつ、より使いやすくするための分析基盤を作っている話

Slide 4

Slide 4 text

Agenda 1. どのようにデータは使われているか (As Is) 2. どのようにデータを使っていきたいか (To Be) 3. どのように差分を埋めるか

Slide 5

Slide 5 text

どのようにデータを使っているか

Slide 6

Slide 6 text

Pros / Cons Pros: ● エンジニアや企画職が SQLを書いて分析している ● 分析結果を元に意思決定が行われる ● 機械学習を用いた研究開発プロジェクトが進行中 Cons: ● データウェアハウス（ DWH）が形骸している ● マイクロサービスのDBを横断的に利用できていない ● 大規模なデータを使ったデータ分析がしにくい ● データ分析に必要なドメイン知識が多い

Slide 7

Slide 7 text

What’s the problem? Pros: ● エンジニアや企画職が SQLを書いて分析している ● 分析結果を元に意思決定が行われる ● 機械学習を用いた研究開発プロジェクトが進行中 Cons: ● データウェアハウス（ DWH）が形骸している ● マイクロサービスのDBを横断的に利用できていない ● 大規模なデータを使ったデータ分析がしにくい ● データ分析に必要なドメイン知識が多い技術的に問題を解決するだけで大幅にデータ活用が進むのでは？データ活用の意識がある技術的に解決できる問題

Slide 8

Slide 8 text

解決法がわかっている解決法がわかっていない顕在化した問題データ分析によるプロダクト改善データを使いやすくするデータ活用の文化をつくる潜在的な問題プロトタイピングデータマイニング研究開発（パーソナライズ、自動化など）データに関わる問題をマトリックスにまとめたもの

Slide 9

Slide 9 text

解決法がわかっている解決法がわかっていない顕在化した問題データ分析によるプロダクト改善データを使いやすくするデータ活用の文化をつくる潜在的な問題プロトタイピングデータマイニング研究開発（パーソナライズ、自動化など）データ活用の文化はすでにあるのに、データが使いにくいのは大きな損失 →プロダクト改善がしにくくなってしまう

Slide 10

Slide 10 text

解決法がわかっている解決法がわかっていない顕在化した問題データ分析によるプロダクト改善データを使いやすくするデータ活用の文化をつくる潜在的な問題プロトタイピングデータマイニング研究開発（パーソナライズ、自動化など）データが使いにくいと、試行錯誤の効率が非常に悪い →成果に結びつきにくくなってしまう

Slide 11

Slide 11 text

どのようにデータを使っていきたいか

Slide 12

Slide 12 text

No content

Slide 13

Slide 13 text

No content

Slide 14

Slide 14 text

No content

Slide 15

Slide 15 text

要するにデータ使って学習体験を向上させたい

Slide 16

Slide 16 text

どのように差分を埋めるか

Slide 17

Slide 17 text

As Is / To Be As Is ● データを使って意思決定する文化を十分に活かせてない ● ノウハウやドメイン知識が属人化しがち ● データへのアクセスが悪く、研究開発で試行錯誤しにくい To Be ● プロダクトを通じてユーザーが英語を話せるようになる ● 効率的な学習体験と新しい学習機会を提供する ● それぞれの個人に合わせた学習ができるようにする

Slide 18

Slide 18 text

What’s the gaps? 1. データ分析する文化がある, but データが使いにくい 2. ユーザーに最適化したサービスを提供したい, but 知識が属人化しがち 3. 新しい体験を提供したい, but 研究開発の試行錯誤がしにくいデータのアクセスや仕組みで解決できそう

Slide 19

Slide 19 text

How to solve? ● BigQueryをハブにして、マイクロサービスからデータを集める ○ データの整形やテーブルの整理をしておく ● 全社で必要なデータをあらかじめ可視化しておく ○ 知見の共有、認識の統一、属人化の防止 ● 集めたデータを再利用できるようにする ○ 馴染みのあるツールや、新しいツールで使えるようにする (Redashなど) ● 大規模なデータが必要な分析ロールはBQを直接叩く ○ サーバーのスケールアウト問題からの脱却。データの再現性を確保

Slide 20

Slide 20 text

できる限りシンプルに

Slide 21

Slide 21 text

ToDo ● 既存の仕組みはバッチ処理に最適化された設計になっている ○ アプリやWebRTCなどもあるので、ストリームデータも将来的には扱いたい ● AWSとGCPの使い分け、住み分け ○ データの頻度や鮮度を求めると費用対効果を損なう懸念 ● マイクロサービスの開発とうまく並走させる ○ 分析基盤を意識しないで済む設計にしたい ● 分析基盤を一緒に作ってくれる仲間を見つける ○ We’re Hiring!