Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
BigQueryで作る簡単なFeature Store
Search
Yudai Hayashi
August 23, 2024
2
220
BigQueryで作る簡単なFeature Store
AI/MLなんでもLT会での登壇資料
https://ncdc-dev.connpass.com/event/325184/
Yudai Hayashi
August 23, 2024
Tweet
Share
More Decks by Yudai Hayashi
See All by Yudai Hayashi
RustとPyTorchで作る推論サーバー
yudai00
6
2.1k
プロダクトのコードをPandasからPolarsへ書き換えた話
yudai00
8
2.4k
データサイエンティストになって得た学び
yudai00
1
120
社内での継続的な機械学習勉強会の開催のコツ
yudai00
2
640
会社訪問アプリ「Wantedly Visit」における新規ユーザーの行動量に基づいた推薦方策の選択
yudai00
0
1.4k
Polarsを活用した機械学習ジョブの高速化
yudai00
1
200
Voyagerを利用した宿画像の最近傍探索による候補生成
yudai00
1
190
推薦データ分析コンペに参加して得た知見
yudai00
2
400
論文紹介:Unbiased Delayed Feedback Label Correction for Conversion Rate Prediction
yudai00
0
300
Featured
See All Featured
Faster Mobile Websites
deanohume
305
30k
Happy Clients
brianwarren
98
6.7k
Large-scale JavaScript Application Architecture
addyosmani
510
110k
Measuring & Analyzing Core Web Vitals
bluesmoon
4
120
How STYLIGHT went responsive
nonsquared
95
5.2k
What’s in a name? Adding method to the madness
productmarketing
PRO
22
3.1k
Teambox: Starting and Learning
jrom
133
8.8k
5 minutes of I Can Smell Your CMS
philhawksworth
202
19k
Building a Scalable Design System with Sketch
lauravandoore
459
33k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
226
22k
Mobile First: as difficult as doing things right
swwweet
222
8.9k
Bootstrapping a Software Product
garrettdimon
PRO
305
110k
Transcript
© 2024 Wantedly, Inc. BigQueryで作る簡単なFeature Store AI/MLなんでもLT会 Aug. 23 2024
- Yudai Hayashi
© 2024 Wantedly, Inc. INTERNAL ONLY 自己紹介 林 悠大 • 経歴:
◦ 東京大学工学系研究科でPh.D取得 ◦ 2022年にウォンテッドリーにデータ サイエンティストとして新卒入社。 推薦システムの開発を行う • X: @python_walker • 趣味: ◦ 読書 ◦ 音楽聴くこと ◦ ウイスキー
© 2024 Wantedly, Inc. INTERNAL ONLY 今日話すこと・話さないこと 話すこと 🙆 •
機械学習ジョブでFeature Storeがあることで何が嬉しいのか • できるだけシンプルにFeature Storeを自前実装するとどうなるのか 話さないこと 🙅 • フルマネージド型のFeature Storeの使い方 • (ニア)リアルタイムの学習・推論の話
© 2024 Wantedly, Inc. INTERNAL ONLY Feature Storeがあることの嬉しさ 機械学習のタスク:特徴量からターゲットの値を予測する or
予測するモデルを作る 予め学習・予測タスクの前に必要な特徴量を計算しておいて別の場所に保持しておく → Feature Store • 特徴量の計算と学習・予測を分離することができる • 複数のモデルで共通の特徴量を使い回すことができる • …
© 2024 Wantedly, Inc. INTERNAL ONLY 今日話すFeature Storeの構成 Argo Workflows
特徴量生成ジョブ 機械学習ジョブ 機械学習ジョブ 機械学習ジョブ BigQuery データ取得/ 特徴量計算 利用 • Argo Workflows で依存管理 • BigQueryをソースとして特徴量 を計算、BigQueryに書き込む • BigQueryのテーブルから必要な 特徴量を取得してモデルを学習 ・推論
© 2024 Wantedly, Inc. INTERNAL ONLY 特徴量を作る側の実装 特徴量の計算の仕方は大雑把に分類すると そんなに種類はない •
BigQuery(BQ) → BQ • BQ → Pythonで加工 → BQ 型を何種類か用意しておけば特徴量を新た に作るコストも、管理するコストも抑えら れる
© 2024 Wantedly, Inc. INTERNAL ONLY 特徴量を使う側の実装 特徴量の数は何百にもなることが多い。それをSQLで管理するのは大変。。。 YAML Jinja
Template 特徴量をYAMLに書いておけば BigQueryのクエリに変換するシ ステムを作れる • 特徴量を一覧化することで 管理しやすく • 特徴量を入れ替えた実験も しやすくなった
© 2024 Wantedly, Inc. INTERNAL ONLY まとめ • Feature Storeを用意することによって機械学習ジョブの構成をシンプルにし、
保守・開発の効率性を上げることができる • 簡単なFeature Storeであれば自前で実装することも十分可能