Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
dagstreamでデータ前処理の順序関係を解決する #stapy105
Search
Sponsored
·
Ship Features Fearlessly
Turn features on and off without deploys. Used by thousands of Ruby developers.
→
Riku Sakamoto
June 20, 2024
Technology
190
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
dagstreamでデータ前処理の順序関係を解決する #stapy105
みんなのPython勉強会105回LT発表資料
Riku Sakamoto
June 20, 2024
More Decks by Riku Sakamoto
See All by Riku Sakamoto
物理量次元を持つテンソルをサポートした 深層学習ライブラリ Phlower の紹介
riku_sakamoto
0
110
論文紹介 “CKGConv: General Graph Convolution with Continuous Kernels"
riku_sakamoto
0
360
論文紹介“Infinite-Fidelity Coregionalization for Physical Simulation ”, Shibo. L. et, al
riku_sakamoto
0
460
Other Decks in Technology
See All in Technology
Chainlitで作るお手軽チャットUI
ynt0485
0
260
【セミナー資料】Claude Code をセキュアに使うための考え方と設定の勘どころ / Claude Code Webinar 20260616
masahirokawahara
2
360
AmazonRoute 53ではじめてのドメイン取得!HTTPS化までの道のりを整理してみた
usanchuu
3
140
200個のGitHubリポジトリを横断調査したかった
icck
0
130
ACE-Step-1.5で見る 音楽生成AIのしくみと“破綻だけ直す”Retake機能の開発【zennfes spring 2026 登壇資料】
personabb
1
480
Oracle AI Database@Azure:サービス概要のご紹介
oracle4engineer
PRO
6
2k
AAIFに入ってみた ~内から見えるコミュニティ動向~
sato4
0
240
フィジカル版Github Onshapeの紹介
shiba_8ro
0
260
攻撃者視点で考えるDetection Engineering
cryptopeg
3
1.9k
SONiC Scale-Up Working Group から探る Scale-UpやUltraEthernet機能の実装方法
ebiken
PRO
2
350
LayerX コーポレートエンジニアリング室におけるサプライチェーンセキュリティへの取り組み / Supply Chain Security at LayerX Corporate Engineering
yuyatakeyama
2
520
失敗を資産に変えるClaude Code
shinyasaita
0
670
Featured
See All Featured
Bootstrapping a Software Product
garrettdimon
PRO
307
120k
Building the Perfect Custom Keyboard
takai
2
790
Facilitating Awesome Meetings
lara
57
7k
A better future with KSS
kneath
240
18k
SEOcharity - Dark patterns in SEO and UX: How to avoid them and build a more ethical web
sarafernandez
0
200
Between Models and Reality
mayunak
4
340
The Pragmatic Product Professional
lauravandoore
37
7.3k
Testing 201, or: Great Expectations
jmmastey
46
8.2k
[RailsConf 2023] Rails as a piece of cake
palkan
59
6.7k
Why Our Code Smells
bkeepers
PRO
340
58k
The B2B funnel & how to create a winning content strategy
katarinadahlin
PRO
1
390
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
35
3.5k
Transcript
dagstreamでデータ前処理の 順序関係を解決する みんなのPython勉強会#105 坂本 陸 2024-6-20
自己紹介 坂本 陸(Sakamoto Riku) • MLエンジニア(株式会社 RICOS) • Python, C++,
C# GitHub: @riku-sakamoto Zenn: hedgeek 2
データ前処理 データ前処理 • データのサニタイズ • 特徴量の生成 • データ拡張 コーディング面での特徴 •
仕様の変更、拡張が頻繁に発生する • 処理の順序関係が重要である場合が多い データ前処理部におけるコードの品質は重要 (メンテナンスのしやすさ) データ前処理 機械学習モデル ポスト処理 機械学習システムの流れ 3
前処理コード例 問題点 • 順序関係がコメント頼みで明 確でない ◦ funcCはfuncBより前でもいい のか • フラグによる実行有無の管理
はコードの複雑化を招く • 順序関係を壊さずに並列処理 できない 4
dagstream • 処理の順序づけを明示的に行 えるPython製のライブラリ GitHub: https://github.com/ricosjp/dags tream PyPI登録済み • pip
install dagstream 5
dagstream • 描画できる(mermaid形式での出力) ◦ 順序関係が可視化され、次の機能追加に活かしやすい 6
まとめ • dagstreamは以下のことができます ◦ 前処理の順序関係を定義 ◦ 前処理間のパイプ(結果の受け渡し)を定義 ◦ 順序関係の可視化(mermaid 形式)
◦ 順序関係に沿った直列・並列実行 ◦ 部分的な順序関係の抽出 ◦ GitHub: https://github.com/ricosjp/dagstream 7
8