Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
dagstreamでデータ前処理の順序関係を解決する #stapy105
Search
Riku Sakamoto
June 20, 2024
Technology
0
180
dagstreamでデータ前処理の順序関係を解決する #stapy105
みんなのPython勉強会105回LT発表資料
Riku Sakamoto
June 20, 2024
Tweet
Share
More Decks by Riku Sakamoto
See All by Riku Sakamoto
論文紹介 “CKGConv: General Graph Convolution with Continuous Kernels"
riku_sakamoto
0
240
論文紹介“Infinite-Fidelity Coregionalization for Physical Simulation ”, Shibo. L. et, al
riku_sakamoto
0
370
Other Decks in Technology
See All in Technology
会社もクラウドも違うけど 通じたコスト削減テクニック/Cost optimization strategies effective regardless of company or cloud provider
aeonpeople
2
360
【CEDEC2025】LLMを活用したゲーム開発支援と、生成AIの利活用を進める組織的な取り組み
cygames
PRO
1
1.6k
DatabricksのOLTPデータベース『Lakebase』に詳しくなろう!
inoutk
0
160
PdM業務における使い分け
shinshiro
0
670
ユーザー理解の爆速化とPdMの価値
kakehashi
PRO
1
110
Webの技術とガジェットで那須の子ども達にワクワクを! / IoTLT_20250720
you
PRO
0
130
地域コミュニティへの「感謝」と「恩返し」 / 20250726jawsug-tochigi
kasacchiful
0
100
データエンジニアがクラシルでやりたいことの現在地
gappy50
3
650
【CEDEC2025】大規模言語モデルを活用したゲーム内会話パートのスクリプト作成支援への取り組み
cygames
PRO
1
310
AI エンジニアの立場からみた、AI コーディング時代の開発の品質向上の取り組みと妄想
soh9834
8
580
興味の胞子を育て 業務と技術に広がる”きのこ力”
fumiyasac0921
0
290
ObsidianをLLM時代のナレッジベースに! クリッピング→Markdown→CLI連携の実践
srvhat09
7
9.7k
Featured
See All Featured
Documentation Writing (for coders)
carmenintech
72
4.9k
How to Think Like a Performance Engineer
csswizardry
25
1.8k
Building Applications with DynamoDB
mza
95
6.5k
The Cost Of JavaScript in 2023
addyosmani
51
8.6k
How GitHub (no longer) Works
holman
314
140k
Java REST API Framework Comparison - PWX 2021
mraible
31
8.7k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
126
53k
Dealing with People You Can't Stand - Big Design 2015
cassininazir
367
26k
No one is an island. Learnings from fostering a developers community.
thoeni
21
3.4k
We Have a Design System, Now What?
morganepeng
53
7.7k
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
34
5.9k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
PRO
21
1.4k
Transcript
dagstreamでデータ前処理の 順序関係を解決する みんなのPython勉強会#105 坂本 陸 2024-6-20
自己紹介 坂本 陸(Sakamoto Riku) • MLエンジニア(株式会社 RICOS) • Python, C++,
C# GitHub: @riku-sakamoto Zenn: hedgeek 2
データ前処理 データ前処理 • データのサニタイズ • 特徴量の生成 • データ拡張 コーディング面での特徴 •
仕様の変更、拡張が頻繁に発生する • 処理の順序関係が重要である場合が多い データ前処理部におけるコードの品質は重要 (メンテナンスのしやすさ) データ前処理 機械学習モデル ポスト処理 機械学習システムの流れ 3
前処理コード例 問題点 • 順序関係がコメント頼みで明 確でない ◦ funcCはfuncBより前でもいい のか • フラグによる実行有無の管理
はコードの複雑化を招く • 順序関係を壊さずに並列処理 できない 4
dagstream • 処理の順序づけを明示的に行 えるPython製のライブラリ GitHub: https://github.com/ricosjp/dags tream PyPI登録済み • pip
install dagstream 5
dagstream • 描画できる(mermaid形式での出力) ◦ 順序関係が可視化され、次の機能追加に活かしやすい 6
まとめ • dagstreamは以下のことができます ◦ 前処理の順序関係を定義 ◦ 前処理間のパイプ(結果の受け渡し)を定義 ◦ 順序関係の可視化(mermaid 形式)
◦ 順序関係に沿った直列・並列実行 ◦ 部分的な順序関係の抽出 ◦ GitHub: https://github.com/ricosjp/dagstream 7
8