Upgrade to Pro — share decks privately, control downloads, hide ads and more …

deeplakeによる大規模データのバージョン管理と深層学習フレームワークとの接続

Ringa_hyj
December 31, 2024

 deeplakeによる大規模データのバージョン管理と深層学習フレームワークとの接続

Ringa_hyj

December 31, 2024
Tweet

More Decks by Ringa_hyj

Other Decks in Technology

Transcript

  1. 紹介 2/3 • Local • Deep Lake Storage • AWS

    S3 • Microsoft Azure • Google Cloud import deeplake deeplake.ingest_classification() deeplake.ingest_coco() deeplake.ingest_yolo() deeplake.ingest_kaggle() deeplake.ingest_dataframe() deeplake.ingest_huggingface() import deeplake ds = deeplake.empty('./dataset_local') ds.create_tensor('images', htype='image’, sample_compression='jpeg') ds.append(....) ds.commit() import deeplake ds = deeplake.deepcopy(src_dataset_path, dest_dataset_path) ds = deeplake.load('./my_dataset_path') • 定型フォーマットを関数で読み込むことが可能 • 作成したデータは様々な保存先に接続することが可能 定型フォーマット データ作成 up/down load データセット作成
  2. 紹介 3/3 • 公開されている様々なデータセットを簡単に利用可能 • pytorch, tensorflowのデータセットとして読み込み、即座に訓練が可能 • 大規模なデータをすべて読み込むのでなく部分的に読み込み訓練に使用するこ とが可能なためメモリを圧迫しない

    ※LLMフレームワーク(LlamaIndex, LangChain)や物体検知(MMDetection)等のオープンソースパッケージとのシームレスな接続も可能 import deeplake ds = deeplake.deepcopy(src_dataset_path, dest_dataset_path) ds = deeplake.load('./my_dataset_path') train_loader = ds.pytorch(num_workers = 8, transform = transform, batch_size = 32, tensors=['images', 'labels'], shuffle = True) train_loader = ds.tensorflow(...) 深層学習フレームワークとの接続