Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
dagstreamでデータ前処理の順序関係を解決する #stapy105
Search
Riku Sakamoto
June 20, 2024
Technology
0
190
dagstreamでデータ前処理の順序関係を解決する #stapy105
みんなのPython勉強会105回LT発表資料
Riku Sakamoto
June 20, 2024
Tweet
Share
More Decks by Riku Sakamoto
See All by Riku Sakamoto
物理量次元を持つテンソルをサポートした 深層学習ライブラリ Phlower の紹介
riku_sakamoto
0
95
論文紹介 “CKGConv: General Graph Convolution with Continuous Kernels"
riku_sakamoto
0
330
論文紹介“Infinite-Fidelity Coregionalization for Physical Simulation ”, Shibo. L. et, al
riku_sakamoto
0
440
Other Decks in Technology
See All in Technology
Change Calendarで今はOK?を仕組みにする
tommy0124
1
130
ハーネスエンジニアリング×AI適応開発
aictokamiya
1
500
JAWS DAYS 2026でAIの「もやっと」感が解消された話
smt7174
1
100
「通るまでRe-run」から卒業!落ちないテストを書く勘所
asumikam
2
820
QA組織のAI戦略とAIテスト設計システムAITASの実践
sansantech
PRO
1
220
AI時代のオンプレ-クラウドキャリアチェンジ考
yuu0w0yuu
0
570
データマネジメント戦略Night - 4社のリアルを語る会
ktatsuya
1
430
会社紹介資料 / Sansan Company Profile
sansan33
PRO
16
410k
サイボウズ 開発本部採用ピッチ / Cybozu Engineer Recruit
cybozuinsideout
PRO
10
76k
Cursor Subagentsはいいぞ
yug1224
2
110
BFCacheを活用して無限スクロールのUX を改善した話
apple_yagi
0
130
「AIエージェントで変わる開発プロセス―レビューボトルネックからの脱却」
lycorptech_jp
PRO
0
170
Featured
See All Featured
The Impact of AI in SEO - AI Overviews June 2024 Edition
aleyda
5
780
Breaking role norms: Why Content Design is so much more than writing copy - Taylor Woolridge
uxyall
0
230
WCS-LA-2024
lcolladotor
0
500
Between Models and Reality
mayunak
2
240
Reality Check: Gamification 10 Years Later
codingconduct
0
2.1k
Pawsitive SEO: Lessons from My Dog (and Many Mistakes) on Thriving as a Consultant in the Age of AI
davidcarrasco
0
93
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
12
1.5k
Principles of Awesome APIs and How to Build Them.
keavy
128
17k
Tell your own story through comics
letsgokoyo
1
870
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
122
21k
Optimising Largest Contentful Paint
csswizardry
37
3.6k
Writing Fast Ruby
sferik
630
63k
Transcript
dagstreamでデータ前処理の 順序関係を解決する みんなのPython勉強会#105 坂本 陸 2024-6-20
自己紹介 坂本 陸(Sakamoto Riku) • MLエンジニア(株式会社 RICOS) • Python, C++,
C# GitHub: @riku-sakamoto Zenn: hedgeek 2
データ前処理 データ前処理 • データのサニタイズ • 特徴量の生成 • データ拡張 コーディング面での特徴 •
仕様の変更、拡張が頻繁に発生する • 処理の順序関係が重要である場合が多い データ前処理部におけるコードの品質は重要 (メンテナンスのしやすさ) データ前処理 機械学習モデル ポスト処理 機械学習システムの流れ 3
前処理コード例 問題点 • 順序関係がコメント頼みで明 確でない ◦ funcCはfuncBより前でもいい のか • フラグによる実行有無の管理
はコードの複雑化を招く • 順序関係を壊さずに並列処理 できない 4
dagstream • 処理の順序づけを明示的に行 えるPython製のライブラリ GitHub: https://github.com/ricosjp/dags tream PyPI登録済み • pip
install dagstream 5
dagstream • 描画できる(mermaid形式での出力) ◦ 順序関係が可視化され、次の機能追加に活かしやすい 6
まとめ • dagstreamは以下のことができます ◦ 前処理の順序関係を定義 ◦ 前処理間のパイプ(結果の受け渡し)を定義 ◦ 順序関係の可視化(mermaid 形式)
◦ 順序関係に沿った直列・並列実行 ◦ 部分的な順序関係の抽出 ◦ GitHub: https://github.com/ricosjp/dagstream 7
8