Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
dagstreamでデータ前処理の順序関係を解決する #stapy105
Search
Riku Sakamoto
June 20, 2024
Technology
0
180
dagstreamでデータ前処理の順序関係を解決する #stapy105
みんなのPython勉強会105回LT発表資料
Riku Sakamoto
June 20, 2024
Tweet
Share
More Decks by Riku Sakamoto
See All by Riku Sakamoto
物理量次元を持つテンソルをサポートした 深層学習ライブラリ Phlower の紹介
riku_sakamoto
0
91
論文紹介 “CKGConv: General Graph Convolution with Continuous Kernels"
riku_sakamoto
0
330
論文紹介“Infinite-Fidelity Coregionalization for Physical Simulation ”, Shibo. L. et, al
riku_sakamoto
0
440
Other Decks in Technology
See All in Technology
Digitization部 紹介資料
sansan33
PRO
1
7k
チームメンバー迷わないIaC設計
hayama17
5
4k
メタデータ同期に潜んでいた問題 〜 Cache Stampede 時の Cycle Wait を⾒つけた話
lycorptech_jp
PRO
0
150
8万デプロイ
iwamot
PRO
2
190
クラウド × シリコンの Mashup - AWS チップ開発で広がる AI 基盤の選択肢
htokoyo
2
100
Agentic Software Modernization - Back to the Roots (Zürich Agentic Coding and Architectures, März 2026)
feststelltaste
1
210
Exadata Database Service on Dedicated Infrastructure(ExaDB-D) UI スクリーン・キャプチャ集
oracle4engineer
PRO
8
7.1k
S3はフラットである –AWS公式SDKにも存在した、 署名付きURLにおけるパストラバーサル脆弱性– / JAWS DAYS 2026
flatt_security
0
580
GitLab Duo Agent Platform + Local LLMサービングで幸せになりたい
jyoshise
0
190
Yahoo!ショッピングのレコメンデーション・システムにおけるML実践の一例
lycorptech_jp
PRO
1
130
生成AIの利用とセキュリティ /gen-ai-and-security
mizutani
1
1.4k
型を書かないRuby開発への挑戦
riseshia
0
200
Featured
See All Featured
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
194
17k
Skip the Path - Find Your Career Trail
mkilby
1
72
Context Engineering - Making Every Token Count
addyosmani
9
740
Navigating the moral maze — ethical principles for Al-driven product design
skipperchong
2
280
Getting science done with accelerated Python computing platforms
jacobtomlinson
2
140
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
162
16k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
49
9.9k
Are puppies a ranking factor?
jonoalderson
1
3.1k
New Earth Scene 8
popppiees
1
1.7k
How to Align SEO within the Product Triangle To Get Buy-In & Support - #RIMC
aleyda
1
1.4k
Abbi's Birthday
coloredviolet
2
5.2k
Product Roadmaps are Hard
iamctodd
PRO
55
12k
Transcript
dagstreamでデータ前処理の 順序関係を解決する みんなのPython勉強会#105 坂本 陸 2024-6-20
自己紹介 坂本 陸(Sakamoto Riku) • MLエンジニア(株式会社 RICOS) • Python, C++,
C# GitHub: @riku-sakamoto Zenn: hedgeek 2
データ前処理 データ前処理 • データのサニタイズ • 特徴量の生成 • データ拡張 コーディング面での特徴 •
仕様の変更、拡張が頻繁に発生する • 処理の順序関係が重要である場合が多い データ前処理部におけるコードの品質は重要 (メンテナンスのしやすさ) データ前処理 機械学習モデル ポスト処理 機械学習システムの流れ 3
前処理コード例 問題点 • 順序関係がコメント頼みで明 確でない ◦ funcCはfuncBより前でもいい のか • フラグによる実行有無の管理
はコードの複雑化を招く • 順序関係を壊さずに並列処理 できない 4
dagstream • 処理の順序づけを明示的に行 えるPython製のライブラリ GitHub: https://github.com/ricosjp/dags tream PyPI登録済み • pip
install dagstream 5
dagstream • 描画できる(mermaid形式での出力) ◦ 順序関係が可視化され、次の機能追加に活かしやすい 6
まとめ • dagstreamは以下のことができます ◦ 前処理の順序関係を定義 ◦ 前処理間のパイプ(結果の受け渡し)を定義 ◦ 順序関係の可視化(mermaid 形式)
◦ 順序関係に沿った直列・並列実行 ◦ 部分的な順序関係の抽出 ◦ GitHub: https://github.com/ricosjp/dagstream 7
8