鯖落ちパーツで安価に機械学習用マシンを作ってみる

鯖落ちパーツで安価に機械学習用マシンを作ってみる @bobfromjapan

TL; DR • サーバー落ちのTesla P40が3万くらいで買えるので試しに2枚買ってみた • 性能は値段なり(≒GTX1080相当)だがVRAM 24GBはアツい • Kaggle
LLM Science Examで実戦登板してみたが、結局性能不足が目立ちあんまり出番が無かった……

自己紹介 • ポカリの会社の研究所(徳島)で働いています ◦ 薬科学専攻ですが、入社以来クラウドや機械学習などの活用支援を担当 • Kaggle歴: 2年
◦ 機械学習の経験を積むためにKaggle始めました • 趣味: 読書、ゲーム、自作PC

個人で使える機械学習の実行環境 • Kaggle Notebook • Google Colaboratory • AWS SageMaker
Studio Lab などなど…… ➢ 時間制限、CPU・メモリ・ディスクIOの性能不足、実験のしにくさ、(有料サービスを使う場合)コストが気になる結局なんだかんだローカルにちょっと強いマシンが欲しくなる！

ローカルマシンを組む場合 • NVIDIAのゲーム用GPUを搭載しているものを選ぶのが一般的 ◦ KaggleやColabで使えるのと同じ16GB以上のVRAM搭載GPUは軒並みお高い…… 名前世代 CUDA Core数 FP32/FP16(TFLOPS)
VRAM メモリバンド幅実売価格(23年10月) RTX 2060 Turing 2176 7.2/14.4 12 GB 336 GB/s 32,000~(中古) RTX 2080Ti Turing 4352 13.5/26.9 11 GB 616 GB/s 40,000~(中古) RTX 3060 Ampere 3584 12.7/12.7 12 GB 360 GB/s 38,000~ , 30,000~(中古) RTX 3080 Ampere 8960 30.6/30.6 12 GB 912.4 GB/s 70,000~(中古) RTX 3080Ti Ampere 10240 34.1/34.1 12 GB 912.4 GB/s 120,000~, 100,000~(中古) RTX 3090 Ampere 10496 35.6/35.6 24 GB 936.2 GB/s 220,000~ RTX 3090Ti Ampere 10752 40.0/40.0 24 GB 1008 GB/s 233,000~ RTX 4060Ti Ada Lovelace 4352 22.1/22.1 16 GB 288 GB/s 68,800~ RTX 4070 Ada Lovelace 5888 29.2/29.2 12 GB 504.2 GB/s 85,000~ RTX 4070Ti Ada Lovelace 7680 40.1/40.1 12 GB 504.2 GB/s 110,000~ RTX 4080 Ada Lovelace 9728 48.7/48.7 16 GB 716.8 GB/s 158,000~ RTX 4090 Ada Lovelace 16384 82.6/82.6 24 GB 1018 GB/s 245,000~

ローカルマシンを組む場合 • ここで、サーバー用GPUという選択肢！名前世代 CUDA Core数 FP32/FP16(TFLOPS) VRAM メモリバンド幅
実売価格(23年10月) Tesla P40 Pascal 3840 11.8/0.2 24 GB 694.3 GB/s $184.99~(中古) RTX 2060 Turing 2176 7.2/14.4 12 GB 336 GB/s 32,000~(中古) RTX 2080Ti Turing 4352 13.5/26.9 11 GB 616 GB/s 40,000~(中古) RTX 3060 Ampere 3584 12.7/12.7 12 GB 360 GB/s 38,000~ , 30,000~(中古) RTX 3080 Ampere 8960 30.6/30.6 12 GB 912.4 GB/s 70,000~(中古) RTX 3080Ti Ampere 10240 34.1/34.1 12 GB 912.4 GB/s 120,000~, 100,000~(中古) RTX 3090 Ampere 10496 35.6/35.6 24 GB 936.2 GB/s 220,000~ RTX 3090Ti Ampere 10752 40.0/40.0 24 GB 1008 GB/s 233,000~ RTX 4060Ti Ada Lovelace 4352 22.1/22.1 16 GB 288 GB/s 68,800~ RTX 4070 Ada Lovelace 5888 29.2/29.2 12 GB 504.2 GB/s 85,000~ RTX 4070Ti Ada Lovelace 7680 40.1/40.1 12 GB 504.2 GB/s 110,000~ RTX 4080 Ada Lovelace 9728 48.7/48.7 16 GB 716.8 GB/s 158,000~ RTX 4090 Ada Lovelace 16384 82.6/82.6 24 GB 1018 GB/s 245,000~

鯖落ちパーツを集めて機械学習用マシンを作る • 右のような一昔前のサーバー用パーツをebayで買ってみた • 後は家に転がっている電源、SSD、CPUクーラーを組み合わせると…… ➢ 32コア、256GBメモリ、24GB VRAM
GPUが 2枚刺さったマシンを20万以内で作れる！

実コンペで性能を調べてみる！ • この間参加した Kaggle - LLM Science Examで次の2つのモデルをトレーニング ◦ deberta-v3-large
◦ LLaMa2-7B Question Which of the following statements accurately describes the impact of Modified Newtonian Dynamics (MOND) on the observed "missing baryonic mass" discrepancy in galaxy clusters? A MOND is a theory that reduces the observed missing baryonic mass in galaxy clusters by postulating the existence of a new form of matter called "fuzzy dark matter." B MOND is a theory that increases the discrepancy between the observed missing baryonic mass in galaxy clusters and the measured velocity dispersions from a factor of around 10 to a factor of about 20. C MOND is a theory that explains the missing baryonic mass in galaxy clusters that was previously considered dark matter by demonstrating that the mass is in the form of neutrinos and axions. D MOND is a theory that reduces the discrepancy between the observed missing baryonic mass in galaxy clusters and the measured velocity dispersions from a factor of around 10 to a factor of about 2. E MOND is a theory that eliminates the observed missing baryonic mass in galaxy clusters by imposing a new mathematical formulation of gravity that does not require the existence of dark matter. Answer: D と答えられるモデルを作るコンペ

P40で言語モデルをトレーニングするいずれのモデルもHuggingFace TrainerでDDPによるマルチGPUでトレーニング約60000の文章が含まれるデータセット • deberta-v3-large: BS 1, 下部6層以外は重みFreeze、Gradient Checkpointing利用、
FP16有効化 • LLaMa2-7B: BS 1, 4bit QLoRA あまり実用的とは言えない結果となった……

同じことをRTX4090でやると…… CPU: Ryzen9 7950X3D(16コア)、メモリ: 64GB OSはWindowsで、WSL2上のPython環境で同一コードを実行 • deberta-v3-large: 約9時間40分(P40x2の1/22!) •
LLaMa2-7B: 約53時間(P40x2の1/10!)

結論 • RTX4090はすごい

TL; DR • サーバー落ちのTesla P40が3万くらいで買えるので試しに2枚買ってみた • 性能は値段なり(≒GTX1080相当)だがVRAM 24GBはアツい • Kaggle
LLM Science Examで実戦登板してみたが、結局性能不足が目立ちあんまり出番が無かった……

鯖落ちパーツで安価に機械学習用マシンを作ってみる

鯖落ちパーツで安価に機械学習用マシンを作ってみる

bobfromjapan

More Decks by bobfromjapan

Other Decks in Technology

Featured

Transcript

鯖落ちパーツで安価に機械学習用マシンを作ってみる @bobfromjapan

TL; DR • サーバー落ちのTesla P40が3万くらいで買えるので試しに2枚買ってみた • 性能は値段なり(≒GTX1080相当)だがVRAM 24GBはアツい • Kaggle

自己紹介 • ポカリの会社の研究所(徳島)で働いています ◦ 薬科学専攻ですが、入社以来クラウドや機械学習などの活用支援を担当 • Kaggle歴: 2年

個人で使える機械学習の実行環境 • Kaggle Notebook • Google Colaboratory • AWS SageMaker

ローカルマシンを組む場合 • NVIDIAのゲーム用GPUを搭載しているものを選ぶのが一般的 ◦ KaggleやColabで使えるのと同じ16GB以上のVRAM搭載GPUは軒並みお高い…… 名前世代 CUDA Core数 FP32/FP16(TFLOPS)

ローカルマシンを組む場合 • ここで、サーバー用GPUという選択肢！名前世代 CUDA Core数 FP32/FP16(TFLOPS) VRAM メモリバンド幅

鯖落ちパーツを集めて機械学習用マシンを作る • 右のような一昔前のサーバー用パーツをebayで買ってみた • 後は家に転がっている電源、SSD、CPUクーラーを組み合わせると…… ➢ 32コア、256GBメモリ、24GB VRAM

実コンペで性能を調べてみる！ • この間参加した Kaggle - LLM Science Examで次の2つのモデルをトレーニング ◦ deberta-v3-large

P40で言語モデルをトレーニングするいずれのモデルもHuggingFace TrainerでDDPによるマルチGPUでトレーニング約60000の文章が含まれるデータセット • deberta-v3-large: BS 1, 下部6層以外は重みFreeze、Gradient Checkpointing利用、

同じことをRTX4090でやると…… CPU: Ryzen9 7950X3D(16コア)、メモリ: 64GB OSはWindowsで、WSL2上のPython環境で同一コードを実行 • deberta-v3-large: 約9時間40分(P40x2の1/22!) •

結論 • RTX4090はすごい

TL; DR • サーバー落ちのTesla P40が3万くらいで買えるので試しに2枚買ってみた • 性能は値段なり(≒GTX1080相当)だがVRAM 24GBはアツい • Kaggle