Slide 3
Slide 3 text
DVCはGitと連携して動作する(特にデータ管理の)補完的なツールと
してプロジェクトの実験再現性を確保するように設計されています
解決策
• 大きなデータファイルはGitの外で管理
• データやコード、モデルの重みなどに発生した差異をmd5ハッシュを使い検知
• dvc.yamlや.dvcなどのメタファイルのみをGitで追跡
• Gitライクなコマンドでデータのバージョンを管理(add, checkout, pushなど)
• 実データはキャッシュやストレージ(AWS S3, Google Cloud Storage, Azure Blob)に保
存
• データ処理から学習、評価までのパイプラインを定義可能
• コード・パラメタ・データの組み合わせごとの評価指標をコミット履歴やブランチをつか
い比較することが可能
紹介 3/5 DVCによる解決策