Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
BigQueryで作る簡単なFeature Store
Search
Yudai Hayashi
August 23, 2024
2
330
BigQueryで作る簡単なFeature Store
AI/MLなんでもLT会での登壇資料
https://ncdc-dev.connpass.com/event/325184/
Yudai Hayashi
August 23, 2024
Tweet
Share
More Decks by Yudai Hayashi
See All by Yudai Hayashi
相互推薦システムでのPseudo Label を活用したマッチ予測精度向上の取り組み
yudai00
1
570
Wantedly Visitにおけるフリーワード検索時の推薦のオンライン化事例紹介
yudai00
1
190
RustとPyTorchで作る推論サーバー
yudai00
11
7k
プロダクトのコードをPandasからPolarsへ書き換えた話
yudai00
8
3.4k
データサイエンティストになって得た学び
yudai00
1
210
社内での継続的な機械学習勉強会の開催のコツ
yudai00
2
740
会社訪問アプリ「Wantedly Visit」における新規ユーザーの行動量に基づいた推薦方策の選択
yudai00
0
1.7k
Polarsを活用した機械学習ジョブの高速化
yudai00
1
310
Voyagerを利用した宿画像の最近傍探索による候補生成
yudai00
1
230
Featured
See All Featured
Speed Design
sergeychernyshev
28
820
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
33
2.1k
No one is an island. Learnings from fostering a developers community.
thoeni
21
3.2k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
29
2.5k
Side Projects
sachag
452
42k
Docker and Python
trallard
44
3.3k
Mobile First: as difficult as doing things right
swwweet
223
9.5k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
251
21k
The Pragmatic Product Professional
lauravandoore
32
6.4k
Build The Right Thing And Hit Your Dates
maggiecrowley
34
2.6k
What’s in a name? Adding method to the madness
productmarketing
PRO
22
3.3k
Building Applications with DynamoDB
mza
93
6.3k
Transcript
© 2024 Wantedly, Inc. BigQueryで作る簡単なFeature Store AI/MLなんでもLT会 Aug. 23 2024
- Yudai Hayashi
© 2024 Wantedly, Inc. INTERNAL ONLY 自己紹介 林 悠大 • 経歴:
◦ 東京大学工学系研究科でPh.D取得 ◦ 2022年にウォンテッドリーにデータ サイエンティストとして新卒入社。 推薦システムの開発を行う • X: @python_walker • 趣味: ◦ 読書 ◦ 音楽聴くこと ◦ ウイスキー
© 2024 Wantedly, Inc. INTERNAL ONLY 今日話すこと・話さないこと 話すこと 🙆 •
機械学習ジョブでFeature Storeがあることで何が嬉しいのか • できるだけシンプルにFeature Storeを自前実装するとどうなるのか 話さないこと 🙅 • フルマネージド型のFeature Storeの使い方 • (ニア)リアルタイムの学習・推論の話
© 2024 Wantedly, Inc. INTERNAL ONLY Feature Storeがあることの嬉しさ 機械学習のタスク:特徴量からターゲットの値を予測する or
予測するモデルを作る 予め学習・予測タスクの前に必要な特徴量を計算しておいて別の場所に保持しておく → Feature Store • 特徴量の計算と学習・予測を分離することができる • 複数のモデルで共通の特徴量を使い回すことができる • …
© 2024 Wantedly, Inc. INTERNAL ONLY 今日話すFeature Storeの構成 Argo Workflows
特徴量生成ジョブ 機械学習ジョブ 機械学習ジョブ 機械学習ジョブ BigQuery データ取得/ 特徴量計算 利用 • Argo Workflows で依存管理 • BigQueryをソースとして特徴量 を計算、BigQueryに書き込む • BigQueryのテーブルから必要な 特徴量を取得してモデルを学習 ・推論
© 2024 Wantedly, Inc. INTERNAL ONLY 特徴量を作る側の実装 特徴量の計算の仕方は大雑把に分類すると そんなに種類はない •
BigQuery(BQ) → BQ • BQ → Pythonで加工 → BQ 型を何種類か用意しておけば特徴量を新た に作るコストも、管理するコストも抑えら れる
© 2024 Wantedly, Inc. INTERNAL ONLY 特徴量を使う側の実装 特徴量の数は何百にもなることが多い。それをSQLで管理するのは大変。。。 YAML Jinja
Template 特徴量をYAMLに書いておけば BigQueryのクエリに変換するシ ステムを作れる • 特徴量を一覧化することで 管理しやすく • 特徴量を入れ替えた実験も しやすくなった
© 2024 Wantedly, Inc. INTERNAL ONLY まとめ • Feature Storeを用意することによって機械学習ジョブの構成をシンプルにし、
保守・開発の効率性を上げることができる • 簡単なFeature Storeであれば自前で実装することも十分可能