Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
DVCによるデータバージョン管理
Search
Sponsored
·
Ship Features Fearlessly
Turn features on and off without deploys. Used by thousands of Ruby developers.
→
Ringa_hyj
December 31, 2024
Technology
0
220
DVCによるデータバージョン管理
Ringa_hyj
December 31, 2024
Tweet
Share
More Decks by Ringa_hyj
See All by Ringa_hyj
deeplakeによる大規模データのバージョン管理と深層学習フレームワークとの接続
ringa_hyj
0
91
Hydraを使った設定ファイル管理とoptunaプラグインでのパラメータ探索
ringa_hyj
0
190
ClearMLで行うAIプロジェクトの管理(レポート,最適化,再現,デプロイ,オーケストレーション)
ringa_hyj
0
180
Catching up with the tidymodels.[Japan.R 2021 LT]
ringa_hyj
3
860
多次元尺度法MDS
ringa_hyj
0
330
因子分析(仮)
ringa_hyj
0
180
階層、非階層クラスタリング
ringa_hyj
0
140
tidymodels紹介「モデリング過程料理で表現できる説」
ringa_hyj
0
600
深層学習をつかった画像スタイル変換の話と今までの歴史
ringa_hyj
0
460
Other Decks in Technology
See All in Technology
顧客の言葉を、そのまま信じない勇気
yamatai1212
1
360
Agile Leadership Summit Keynote 2026
m_seki
1
670
Ruby版 JSXのRuxが気になる
sansantech
PRO
0
170
AIと新時代を切り拓く。これからのSREとメルカリIBISの挑戦
0gm
2
3.1k
OWASP Top 10:2025 リリースと 少しの日本語化にまつわる裏話
okdt
PRO
3
840
仕様書駆動AI開発の実践: Issue→Skill→PRテンプレで 再現性を作る
knishioka
2
680
(技術的には)社内システムもOKなブラウザエージェントを作ってみた!
har1101
0
140
プロポーザルに込める段取り八分
shoheimitani
1
630
プロダクト成長を支える開発基盤とスケールに伴う課題
yuu26
4
1.4k
SchooでVue.js/Nuxtを技術選定している理由
yamanoku
3
190
OpenShiftでllm-dを動かそう!
jpishikawa
0
140
Amazon Bedrock Knowledge Basesチャンキング解説!
aoinoguchi
0
160
Featured
See All Featured
HU Berlin: Industrial-Strength Natural Language Processing with spaCy and Prodigy
inesmontani
PRO
0
230
The Language of Interfaces
destraynor
162
26k
<Decoding/> the Language of Devs - We Love SEO 2024
nikkihalliwell
1
130
Leveraging LLMs for student feedback in introductory data science courses - posit::conf(2025)
minecr
0
160
職位にかかわらず全員がリーダーシップを発揮するチーム作り / Building a team where everyone can demonstrate leadership regardless of position
madoxten
58
50k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
287
14k
技術選定の審美眼(2025年版) / Understanding the Spiral of Technologies 2025 edition
twada
PRO
117
110k
The AI Revolution Will Not Be Monopolized: How open-source beats economies of scale, even for LLMs
inesmontani
PRO
3
3k
Have SEOs Ruined the Internet? - User Awareness of SEO in 2025
akashhashmi
0
270
The SEO Collaboration Effect
kristinabergwall1
0
350
Unsuck your backbone
ammeep
671
58k
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
10
1.1k
Transcript
DVCの目的は・・・ 機械学習プロジェクトの再現可能性(reproducible)の確保 こんな経験はありませんか? • 過去に自分 or 他人が取り組んだ機械学習プロジェクトを再実行することになった • 実行したがナゼか当時の報告書の結果と一致しない ※原因はデータ・コード・パラメタに変更が発生したが、変更が残っていない等
紹介 1/5 はじめに
紹介 2/5 現状 • コードはgitで管理できるが、大規模なデータセットはgitでは管理が難しい(容量の制限) ➢ コードはgitで管理、データセットはローカルorクラウドストレージに保存 • データとコードの対応をバージョン管理する難しさ(ドキュメント作成の難しさ) ➢
どのコードでどのデータを使用したか、記録はドキュメント作成者の努力に依存する • チーム間でのデータ共有の難しさ(統一された保存先がない) ➢ データの保存場所だけでなく、実行フォルダへの配置方法などをドキュメントや口頭 で詳細に説明する • コード・パラメタ・データを変更した場合の性能比較が困難(結果ファイルの管理が大変) ➢ 変更の履歴、結果の比較をドキュメントとして保存 ➢ 結果ファイルをストレージへ保存 ➢ 手順に従ったとき、結果が一致するか目視でチェック 上記のようにコードとデータとそのバージョン管理にミスが発生す る状況ではプロジェクトの再現性が低下してしまいます 現状の解決策
DVCはGitと連携して動作する(特にデータ管理の)補完的なツールと してプロジェクトの実験再現性を確保するように設計されています 解決策 • 大きなデータファイルはGitの外で管理 • データやコード、モデルの重みなどに発生した差異をmd5ハッシュを使い検知 • dvc.yamlや.dvcなどのメタファイルのみをGitで追跡 •
Gitライクなコマンドでデータのバージョンを管理(add, checkout, pushなど) • 実データはキャッシュやストレージ(AWS S3, Google Cloud Storage, Azure Blob)に保 存 • データ処理から学習、評価までのパイプラインを定義可能 • コード・パラメタ・データの組み合わせごとの評価指標をコミット履歴やブランチをつか い比較することが可能 紹介 3/5 DVCによる解決策
git hub DVC remote storage git ローカルリポジトリ DVC cache ソースコード
DVCメタファイル ソースコード DVCメタファイル 実データ (データセット、モデル) 実データ (md5ハッシュによる重複削除) リモート環境 ローカル環境 git push git pull dvc push dvc pull dvc add dvc commit dvc checkout 紹介 4/5 DVCのデータ管理イメージ
前処理 pre.py 特徴量作成 feat.py 学習 train.py 評価 eval.py 実行パイプライン dvc.yaml
パラメタ params.yaml pre.py feat.py train.py eval.py 中間生成物 (特徴量、モデル) 実験結果 (metrics.json、plot.png) 紹介 5/5 • 依存ファイルの変化をmd5ハッシュで検知 • dvc reproコマンドでパイプラインに定義したスクリプトを順番に実行 • 結果の生成、比較を半自動化 パイプラインによる実行過程の再現