Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
dagstreamでデータ前処理の順序関係を解決する #stapy105
Search
Riku Sakamoto
June 20, 2024
Technology
0
180
dagstreamでデータ前処理の順序関係を解決する #stapy105
みんなのPython勉強会105回LT発表資料
Riku Sakamoto
June 20, 2024
Tweet
Share
More Decks by Riku Sakamoto
See All by Riku Sakamoto
論文紹介 “CKGConv: General Graph Convolution with Continuous Kernels"
riku_sakamoto
0
300
論文紹介“Infinite-Fidelity Coregionalization for Physical Simulation ”, Shibo. L. et, al
riku_sakamoto
0
420
Other Decks in Technology
See All in Technology
AWSと生成AIで学ぶ!実行計画の読み解き方とSQLチューニングの実践
yakumo
2
260
Introduction to Sansan for Engineers / エンジニア向け会社紹介
sansan33
PRO
5
60k
CQRS/ESになぜアクターモデルが必要なのか
j5ik2o
0
680
AI with TiDD
shiraji
1
340
チームで安全にClaude Codeを利用するためのプラクティス / team-claude-code-practices
tomoki10
6
2.8k
複雑さを受け入れるか、拒むか? - 事業成長とともに育ったモノリスを前に私が考えたこと #RSGT2026
murabayashi
1
1.4k
製造業から学んだ「本質を守り現場に合わせるアジャイル実践」
kamitokusari
0
410
Claude Codeを使った情報整理術
knishioka
20
12k
人工知能のための哲学塾 ニューロフィロソフィ篇 第零夜 「ニューロフィロソフィとは何か?」
miyayou
0
370
技術選定、下から見るか?横から見るか?
masakiokuda
0
180
ECS_EKS以外の選択肢_ROSA入門_.pdf
masakiokuda
1
120
AI: The stuff that nobody shows you
jnunemaker
PRO
1
160
Featured
See All Featured
Git: the NoSQL Database
bkeepers
PRO
432
66k
The Spectacular Lies of Maps
axbom
PRO
1
420
Building a A Zero-Code AI SEO Workflow
portentint
PRO
0
220
The Hidden Cost of Media on the Web [PixelPalooza 2025]
tammyeverts
2
130
Avoiding the “Bad Training, Faster” Trap in the Age of AI
tmiket
0
48
Connecting the Dots Between Site Speed, User Experience & Your Business [WebExpo 2025]
tammyeverts
10
780
AI: The stuff that nobody shows you
jnunemaker
PRO
1
160
Faster Mobile Websites
deanohume
310
31k
How To Speak Unicorn (iThemes Webinar)
marktimemedia
1
360
DevOps and Value Stream Thinking: Enabling flow, efficiency and business value
helenjbeal
1
76
Measuring & Analyzing Core Web Vitals
bluesmoon
9
720
Lessons Learnt from Crawling 1000+ Websites
charlesmeaden
PRO
0
1k
Transcript
dagstreamでデータ前処理の 順序関係を解決する みんなのPython勉強会#105 坂本 陸 2024-6-20
自己紹介 坂本 陸(Sakamoto Riku) • MLエンジニア(株式会社 RICOS) • Python, C++,
C# GitHub: @riku-sakamoto Zenn: hedgeek 2
データ前処理 データ前処理 • データのサニタイズ • 特徴量の生成 • データ拡張 コーディング面での特徴 •
仕様の変更、拡張が頻繁に発生する • 処理の順序関係が重要である場合が多い データ前処理部におけるコードの品質は重要 (メンテナンスのしやすさ) データ前処理 機械学習モデル ポスト処理 機械学習システムの流れ 3
前処理コード例 問題点 • 順序関係がコメント頼みで明 確でない ◦ funcCはfuncBより前でもいい のか • フラグによる実行有無の管理
はコードの複雑化を招く • 順序関係を壊さずに並列処理 できない 4
dagstream • 処理の順序づけを明示的に行 えるPython製のライブラリ GitHub: https://github.com/ricosjp/dags tream PyPI登録済み • pip
install dagstream 5
dagstream • 描画できる(mermaid形式での出力) ◦ 順序関係が可視化され、次の機能追加に活かしやすい 6
まとめ • dagstreamは以下のことができます ◦ 前処理の順序関係を定義 ◦ 前処理間のパイプ(結果の受け渡し)を定義 ◦ 順序関係の可視化(mermaid 形式)
◦ 順序関係に沿った直列・並列実行 ◦ 部分的な順序関係の抽出 ◦ GitHub: https://github.com/ricosjp/dagstream 7
8