Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
deeplakeによる大規模データのバージョン管理と深層学習フレームワークとの接続
Search
Ringa_hyj
December 31, 2024
Technology
110
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
deeplakeによる大規模データのバージョン管理と深層学習フレームワークとの接続
Ringa_hyj
December 31, 2024
More Decks by Ringa_hyj
See All by Ringa_hyj
DVCによるデータバージョン管理
ringa_hyj
0
390
Hydraを使った設定ファイル管理とoptunaプラグインでのパラメータ探索
ringa_hyj
0
230
ClearMLで行うAIプロジェクトの管理(レポート,最適化,再現,デプロイ,オーケストレーション)
ringa_hyj
0
240
Catching up with the tidymodels.[Japan.R 2021 LT]
ringa_hyj
3
880
多次元尺度法MDS
ringa_hyj
0
360
因子分析(仮)
ringa_hyj
0
200
階層、非階層クラスタリング
ringa_hyj
0
160
tidymodels紹介「モデリング過程料理で表現できる説」
ringa_hyj
0
680
深層学習をつかった画像スタイル変換の話と今までの歴史
ringa_hyj
0
490
Other Decks in Technology
See All in Technology
Claude Code×Terraform IaC テンプレート駆動開発
itouhi
1
390
AI フレンドリーなエラー監視を TypeScript で実現する
shinyaigeek
2
260
ブロックチェーン / Blockchain
ks91
PRO
0
110
AIにフローを作らせようとして挫折した話
hamatsutaichi
0
210
探して_入れて_作って_使う_Agent_Skills___LT.pdf
peintangos
2
160
ABEMA の Datadog × OTel 基盤、 中から見るか? 外から見るか?
tetsuya28
0
110
Claude Codeを組織で使いこなす— サーバサイドAIエージェント運用の実践知
techtekt
PRO
0
210
AWSシリコン最前線 〜AI時代のチップ選択を読み解く〜
htokoyo
1
150
Oracle AI Database@Google Cloud:サービス概要のご紹介
oracle4engineer
PRO
6
1.5k
ChatworkとBPaaS 異なる特性で学んだAI機能開発の ベストプラクティス
kubell_hr
2
2.9k
トークン数だけでは測れない — Claude Code 組織展開の効果検証から学んだこと
makikub
0
130
先取りMaven4 ~16年ぶりのメジャーアップデート、その進化とは?~
ogiwarat
0
150
Featured
See All Featured
エンジニアに許された特別な時間の終わり
watany
107
250k
Claude Code どこまでも/ Claude Code Everywhere
nwiizo
65
56k
Build The Right Thing And Hit Your Dates
maggiecrowley
39
3.2k
<Decoding/> the Language of Devs - We Love SEO 2024
nikkihalliwell
1
240
We Analyzed 250 Million AI Search Results: Here's What I Found
joshbly
1
1.3k
Money Talks: Using Revenue to Get Sh*t Done
nikkihalliwell
0
240
Unsuck your backbone
ammeep
672
58k
svc-hook: hooking system calls on ARM64 by binary rewriting
retrage
2
290
State of Search Keynote: SEO is Dead Long Live SEO
ryanjones
0
200
Keith and Marios Guide to Fast Websites
keithpitt
413
23k
Git: the NoSQL Database
bkeepers
PRO
432
67k
WENDY [Excerpt]
tessaabrams
11
38k
Transcript
紹介 1/3 deeplakeの目的は・・・ AIプロジェクトを効率化するデータ管理プラットフォーム こんな経験はありませんか? • 大規模な動画/画像/テキストデータセットのバージョン管理に時間を費やしている • データセットをローカルにダウンロードする必要があり、開発着手まで時間が必要 •
チーム間で共有する際、フォーマットの統一や整合性の確保に手間がかかる • 異なるMLフレームワーク間でデータセットを移行する際に変換作業が必要になる はじめに
紹介 2/3 • Local • Deep Lake Storage • AWS
S3 • Microsoft Azure • Google Cloud import deeplake deeplake.ingest_classification() deeplake.ingest_coco() deeplake.ingest_yolo() deeplake.ingest_kaggle() deeplake.ingest_dataframe() deeplake.ingest_huggingface() import deeplake ds = deeplake.empty('./dataset_local') ds.create_tensor('images', htype='image’, sample_compression='jpeg') ds.append(....) ds.commit() import deeplake ds = deeplake.deepcopy(src_dataset_path, dest_dataset_path) ds = deeplake.load('./my_dataset_path') • 定型フォーマットを関数で読み込むことが可能 • 作成したデータは様々な保存先に接続することが可能 定型フォーマット データ作成 up/down load データセット作成
紹介 3/3 • 公開されている様々なデータセットを簡単に利用可能 • pytorch, tensorflowのデータセットとして読み込み、即座に訓練が可能 • 大規模なデータをすべて読み込むのでなく部分的に読み込み訓練に使用するこ とが可能なためメモリを圧迫しない
※LLMフレームワーク(LlamaIndex, LangChain)や物体検知(MMDetection)等のオープンソースパッケージとのシームレスな接続も可能 import deeplake ds = deeplake.deepcopy(src_dataset_path, dest_dataset_path) ds = deeplake.load('./my_dataset_path') train_loader = ds.pytorch(num_workers = 8, transform = transform, batch_size = 32, tensors=['images', 'labels'], shuffle = True) train_loader = ds.tensorflow(...) 深層学習フレームワークとの接続