Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
dagstreamでデータ前処理の順序関係を解決する #stapy105
Search
Riku Sakamoto
June 20, 2024
Technology
0
180
dagstreamでデータ前処理の順序関係を解決する #stapy105
みんなのPython勉強会105回LT発表資料
Riku Sakamoto
June 20, 2024
Tweet
Share
More Decks by Riku Sakamoto
See All by Riku Sakamoto
論文紹介 “CKGConv: General Graph Convolution with Continuous Kernels"
riku_sakamoto
0
300
論文紹介“Infinite-Fidelity Coregionalization for Physical Simulation ”, Shibo. L. et, al
riku_sakamoto
0
420
Other Decks in Technology
See All in Technology
製造業から学んだ「本質を守り現場に合わせるアジャイル実践」
kamitokusari
0
650
Data Intelligence on Lakehouse Paradigm
scotthsieh825
0
110
Introduction to Sansan for Engineers / エンジニア向け会社紹介
sansan33
PRO
5
62k
Sansan Engineering Unit 紹介資料
sansan33
PRO
1
3.6k
名刺メーカーDevグループ 紹介資料
sansan33
PRO
0
1k
会社紹介資料 / Sansan Company Profile
sansan33
PRO
11
390k
BidiAgent と Nova 2 Sonic から考える音声 AI について
yama3133
2
160
AIと融ける人間の冒険
pujisi
0
120
「駆動」って言葉、なんかカッコイイ_Mitz
comucal
PRO
0
140
さくらのクラウドでのシークレット管理を考える/tamachi.sre#2
fujiwara3
1
150
AI との良い付き合い方を僕らは誰も知らない (WSS 2026 静岡版)
asei
1
320
コミュニティが持つ「学びと成長の場」としての作用 / RSGT2026
ama_ch
2
260
Featured
See All Featured
How Fast Is Fast Enough? [PerfNow 2025]
tammyeverts
3
420
Unlocking the hidden potential of vector embeddings in international SEO
frankvandijk
0
140
Writing Fast Ruby
sferik
630
62k
Bash Introduction
62gerente
615
210k
Docker and Python
trallard
47
3.7k
Navigating the moral maze — ethical principles for Al-driven product design
skipperchong
1
230
What's in a price? How to price your products and services
michaelherold
246
13k
Kristin Tynski - Automating Marketing Tasks With AI
techseoconnect
PRO
0
120
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
659
61k
Conquering PDFs: document understanding beyond plain text
inesmontani
PRO
4
2.2k
Why You Should Never Use an ORM
jnunemaker
PRO
61
9.7k
My Coaching Mixtape
mlcsv
0
23
Transcript
dagstreamでデータ前処理の 順序関係を解決する みんなのPython勉強会#105 坂本 陸 2024-6-20
自己紹介 坂本 陸(Sakamoto Riku) • MLエンジニア(株式会社 RICOS) • Python, C++,
C# GitHub: @riku-sakamoto Zenn: hedgeek 2
データ前処理 データ前処理 • データのサニタイズ • 特徴量の生成 • データ拡張 コーディング面での特徴 •
仕様の変更、拡張が頻繁に発生する • 処理の順序関係が重要である場合が多い データ前処理部におけるコードの品質は重要 (メンテナンスのしやすさ) データ前処理 機械学習モデル ポスト処理 機械学習システムの流れ 3
前処理コード例 問題点 • 順序関係がコメント頼みで明 確でない ◦ funcCはfuncBより前でもいい のか • フラグによる実行有無の管理
はコードの複雑化を招く • 順序関係を壊さずに並列処理 できない 4
dagstream • 処理の順序づけを明示的に行 えるPython製のライブラリ GitHub: https://github.com/ricosjp/dags tream PyPI登録済み • pip
install dagstream 5
dagstream • 描画できる(mermaid形式での出力) ◦ 順序関係が可視化され、次の機能追加に活かしやすい 6
まとめ • dagstreamは以下のことができます ◦ 前処理の順序関係を定義 ◦ 前処理間のパイプ(結果の受け渡し)を定義 ◦ 順序関係の可視化(mermaid 形式)
◦ 順序関係に沿った直列・並列実行 ◦ 部分的な順序関係の抽出 ◦ GitHub: https://github.com/ricosjp/dagstream 7
8