Slide 1

Slide 1 text

紹介 1/3 deeplakeの目的は・・・ AIプロジェクトを効率化するデータ管理プラットフォーム こんな経験はありませんか? • 大規模な動画/画像/テキストデータセットのバージョン管理に時間を費やしている • データセットをローカルにダウンロードする必要があり、開発着手まで時間が必要 • チーム間で共有する際、フォーマットの統一や整合性の確保に手間がかかる • 異なるMLフレームワーク間でデータセットを移行する際に変換作業が必要になる はじめに

Slide 2

Slide 2 text

紹介 2/3 • Local • Deep Lake Storage • AWS S3 • Microsoft Azure • Google Cloud import deeplake deeplake.ingest_classification() deeplake.ingest_coco() deeplake.ingest_yolo() deeplake.ingest_kaggle() deeplake.ingest_dataframe() deeplake.ingest_huggingface() import deeplake ds = deeplake.empty('./dataset_local') ds.create_tensor('images', htype='image’, sample_compression='jpeg') ds.append(....) ds.commit() import deeplake ds = deeplake.deepcopy(src_dataset_path, dest_dataset_path) ds = deeplake.load('./my_dataset_path') • 定型フォーマットを関数で読み込むことが可能 • 作成したデータは様々な保存先に接続することが可能 定型フォーマット データ作成 up/down load データセット作成

Slide 3

Slide 3 text

紹介 3/3 • 公開されている様々なデータセットを簡単に利用可能 • pytorch, tensorflowのデータセットとして読み込み、即座に訓練が可能 • 大規模なデータをすべて読み込むのでなく部分的に読み込み訓練に使用するこ とが可能なためメモリを圧迫しない ※LLMフレームワーク(LlamaIndex, LangChain)や物体検知(MMDetection)等のオープンソースパッケージとのシームレスな接続も可能 import deeplake ds = deeplake.deepcopy(src_dataset_path, dest_dataset_path) ds = deeplake.load('./my_dataset_path') train_loader = ds.pytorch(num_workers = 8, transform = transform, batch_size = 32, tensors=['images', 'labels'], shuffle = True) train_loader = ds.tensorflow(...) 深層学習フレームワークとの接続