Upgrade to Pro — share decks privately, control downloads, hide ads and more …

2025版 鯖落ちパーツで安価に機械学習用マシンを作ってみる

2025版 鯖落ちパーツで安価に機械学習用マシンを作ってみる

Avatar for bobfromjapan

bobfromjapan

November 14, 2025
Tweet

More Decks by bobfromjapan

Other Decks in How-to & DIY

Transcript

  1. TL; DR • 普通の自作PCでは使わないであろうサーバー落ちの中古パーツを買って 使ってみた話 • GPUとしてはNVIDIA Tesla P40、AMD Instinct

    MI50がどちらも3万くらい でKaggle NotebookのT4相当性能 • 48コアの第2世代AMD EPYC + DDR4メモリ256GB +対応マザーのセット が10万ちょっとで買えた • いくつかのコンペで実戦登板してみたが、GPUは結局性能不足が目立ちあ んまり出番が無かった
  2. 個人で使えるKaggleの学習・推論環境 • Kaggle Notebook • Google Colaboratory • Vast.ai などなど……

    ➢ 時間制限、CPU・メモリ・ディスクIOの性能不足、実験のしにくさ、(有料 サービスを使う場合)コストが気になる 結局なんだかんだローカルにちょっと強いマシンが欲しくなる!
  3. 他に面白いやつ • ユニファイドメモリ+iGPU系: GPU規模は大きくないがVRAMが多い。 LocalLLMなどの推論には使えるかも? ◦ NVIDIA DGX SPARK: 60~70万で128GBのメモリ、RTX5070相当のGPU規模

    ◦ Ryzen AI Max+ 395 搭載ミニPC: 30~40万で128GB、RTX4070 laptop相当のGPU性能 ◦ Mac Studio: M4 Maxなら128GB(55万~)、M3 Ultraなら512GB(150万~) • AMD・INTELのVRAM多めAI用GPU: CUDA互換は進んでいるが、トラブルフ リーとは言い難く性能も出にくい? ◦ INTEL ARC Pro B40: 24GB VRAMで$599と言われている。ニコイチにしたボードもあるら しい ◦ AMD Radeon AI Pro R9700: 32GB VRAMで26万くらいの実勢価格
  4. 手が届くNVIDIA GPUの選択肢 名前 世代 CUDA Core数 FP32/FP16(TFLOPS) VRAM メモリ帯域 独自調査の実売価格(25年11月)

    RTX 2060 Turing 2176 7.2/14.4 12 GB 336 GB/s ¥27,000~(中古) RTX 2080Ti Turing 4352 13.5/26.9 11 GB 616 GB/s ¥33,000~(中古) RTX 3060 Ampere 3584 12.7/12.7 12 GB 360 GB/s ¥32,000~(中古) RTX 3080 Ampere 8960 30.6/30.6 12 GB 912.4 GB/s ¥47,000~(中古) RTX 3090 Ampere 10496 35.6/35.6 24 GB 936.2 GB/s ¥110,000~ (中古) RTX 4060Ti(16GB) Ada Lovelace 4352 22.1/22.1 16 GB 288 GB/s ¥70,000~(中古) RTX 4070 Ada Lovelace 5888 29.2/29.2 12 GB 504.2 GB/s ¥65,000~(中古) RTX 4080 Ada Lovelace 9728 48.7/48.7 16 GB 716.8 GB/s ¥120,000~(中古) RTX 4090 Ada Lovelace 16384 82.6/82.6 24 GB 1018 GB/s ¥350,000~(中古) RTX 5060 Ti(16GB) Blackwell 4608 23.7/23.7 16 GB 448 GB/s ¥73,000 RTX 5070 Blackwell 6144 30.87/30.87 12 GB 672 GB/s ¥80,000 RTX 5070 Ti Blackwell 8960 43.94/43.94 16 GB 896 GB/s ¥130,000 RTX 5080 Blackwell 10752 56.28/56.28 16 GB 960 GB/s ¥200,000 RTX 5090 Blackwell 21760 104.8/104.8 32 GB 1.79 TB/s ¥450,000 性能はhttps://www.techpowerup.com/gpu-specs/ より。ハイライトはKaggleで使えるT4/P100のVRAM量16GB 以上のもの
  5. 手が届くNVIDIA GPUの選択肢 名前 世代 CUDA Core数 FP32/FP16(TFLOPS) VRAM メモリ帯域 独自調査の実売価格(25年11月)

    Tesla P40 Pascal 3840 11.8/0.2 24 GB 694.3 GB/s $184.99~(中古) RTX 2060 Turing 2176 7.2/14.4 12 GB 336 GB/s ¥27,000~(中古) RTX 2080Ti Turing 4352 13.5/26.9 11 GB 616 GB/s ¥33,000~(中古) RTX 3060 Ampere 3584 12.7/12.7 12 GB 360 GB/s ¥32,000~(中古) RTX 3080 Ampere 8960 30.6/30.6 12 GB 912.4 GB/s ¥47,000~(中古) RTX 3090 Ampere 10496 35.6/35.6 24 GB 936.2 GB/s ¥110,000~ (中古) RTX 4060Ti(16GB) Ada Lovelace 4352 22.1/22.1 16 GB 288 GB/s ¥70,000~(中古) RTX 4070 Ada Lovelace 5888 29.2/29.2 12 GB 504.2 GB/s ¥65,000~(中古) RTX 4080 Ada Lovelace 9728 48.7/48.7 16 GB 716.8 GB/s ¥120,000~(中古) RTX 4090 Ada Lovelace 16384 82.6/82.6 24 GB 1018 GB/s ¥350,000~(中古) RTX 5060 Ti(16GB) Blackwell 4608 23.7/23.7 16 GB 448 GB/s ¥73,000~ RTX 5070 Blackwell 6144 30.87/30.87 12 GB 672 GB/s ¥80,000~ RTX 5070 Ti Blackwell 8960 43.94/43.94 16 GB 896 GB/s ¥130,000~ RTX 5080 Blackwell 10752 56.28/56.28 16 GB 960 GB/s ¥200,000~ RTX 5090 Blackwell 21760 104.8/104.8 32 GB 1.79 TB/s ¥450,000~
  6. 鯖落ちパーツを集めて機械学習用マシンを作る • 右のような骨董品のサーバー用パーツをebay で買ってみた • 後は家に転がっている電源、SSD、CPUクー ラーを組み合わせると…… ➢ 32コア、256GBメモリ、24GB VRAM

    GPUが 2枚刺さったマシンを20万以内で作れる! ➢ 残念ながら最近のメモリ高騰の煽りを受け、同じ内容 のキットが今は$1500まで値上がりしているっぽい
  7. 鯖落ちパーツを集めて機械学習用マシンを作る • 右のような骨董品のサーバー用パーツをebay で買ってみた • 後は家に転がっている電源、SSD、CPUクー ラーを組み合わせると…… ➢ 32コア、256GBメモリ、24GB VRAM

    GPUが 2枚刺さったマシンを20万以内で作れる! ➢ 残念ながら最近のメモリ高騰の煽りを受け、同じ内容 のキットが今は$1500まで値上がりしているっぽい
  8. 実コンペで性能を調べてみる! • 当時参加していた Kaggle - LLM Science Examで次の2つのモデルをトレーニング ◦ deberta-v3-large

    ◦ llama2-7B Question Which of the following statements accurately describes the impact of Modified Newtonian Dynamics (MOND) on the observed "missing baryonic mass" discrepancy in galaxy clusters? A MOND is a theory that reduces the observed missing baryonic mass in galaxy clusters by postulating the existence of a new form of matter called "fuzzy dark matter." B MOND is a theory that increases the discrepancy between the observed missing baryonic mass in galaxy clusters and the measured velocity dispersions from a factor of around 10 to a factor of about 20. C MOND is a theory that explains the missing baryonic mass in galaxy clusters that was previously considered dark matter by demonstrating that the mass is in the form of neutrinos and axions. D MOND is a theory that reduces the discrepancy between the observed missing baryonic mass in galaxy clusters and the measured velocity dispersions from a factor of around 10 to a factor of about 2. E MOND is a theory that eliminates the observed missing baryonic mass in galaxy clusters by imposing a new mathematical formulation of gravity that does not require the existence of dark matter. Answer: D と答えられるモデルを作るコンペ
  9. 実用的な構成を考える • EbayでEPYC 7k62というZen2, 48コアのCPUが$300くらいで売られていた のでポチる • メインマシンにRTX 5090を買ってしまったので、余ったRTX4090を刺す ➢

    令和のモンスターマシン爆誕 パーツ 価格 CPU EPYC 7K62 50000円 CPUクーラー Dynatron A35 8000円 RAM DDR4 256GB 併せて10万 M/B H11SSL-i GPU RTX4090 30万 電源 1000W 15000円 SSD 1TB 7000円 合計 48万円
  10. 終わりに • ちなみにこれを作ってからのKaggle戦績はあまり良くない ◦ RTX5090ではゲームばかりしてしまっている • 自作は続けているとパーツを使いまわせてコスパが上がるので興味があればやっ てみると得かも ◦ 安い時に適当に買うSSD/HDDや、余りがちなファンや電源はタダみたいな発想になって無駄なPCが

    生えてきます • ぶっちゃけ24/365稼働で動かさない限り、ローカルよりも使う時だけクラウドで L4, L40s, RTX Pro 6000 Blackwellなど借りた方が安いと思う ◦ ローカルマシンを買うなら、まずは多用途に使える普通のゲーミングPCを買うことをお勧めします • パーツの海外輸入は自己責任で! ◦ ヒートスプレッダを書き換えた偽物、怪しいEngineering sample、GPUのヒートシンクだけの出品 など様々な罠も存在するので、失敗してもネタにできる金額のものだけを買うこと ◦ 何かトラブったらAIに中国語・英語を翻訳してもらいながら販売元と強気で交渉するべし
  11. T4 GPU vs P40 GPU • 512x512 x 3のinputでMobileNetv2をトレーニングした際の1epochの処理時間 ◦

    TensorFlowチュートリアルのCats and Dogs転移学習よりコードを拝借 ◦ https://www.tensorflow.org/tutorials/images/transfer_learning?hl=ja • 大体T4と同じくらいの速度で学習可能だった ◦ P40はFP16の性能が高くないためか、Mixed Precisionにしたときの速度向上があまり見られない 時間調整用 P40 T4(Google Colab) FP32 45.71s 54.84s Mixed Precision 38.61s 30.47s
  12. 有用な情報ソース • 普通の自作関連ならPC Watch、Ascii、IT MediaといったIT系ニュースサイト や個人ブログで十分情報収集可能 • パーツの細かいデータは ◦ Intel製品ならIntel

    Ark ◦ TechPowerUpという海外のTech系メディアがCPU/GPUデータベースを作ってくれている • 海外リーク情報やレビューも色々ページがある ◦ 情報の質はマチマチ。TPU、Tom’s Hard Ware、Videocardz、WCCF当たりが有名?この辺を ソースに日本語でまとめてくれている老舗サイトが北森瓦版 ◦ PhoronixというLinux系ニュースメディアが比較しやすいベンチマーク(phoronix test suite)を作 ってくれているので、ここの情報を見るのも良い。 • Redditのサブレディット Homelab はまさしく今回の話のような自宅にHPC環 境を作ろうとしている人たちが集まっており、有益な情報も多い ◦ 機械学習用のマシンの話はLocalLLaMAでも話題に上がるので買う前に見てみると良いかも 時間調整用
  13. 次に落ちてきそうな有望GPU • V100: 16GB, 32GB版あり。後者が欲しいが希少性が高く値段も高い。現在5 ~15万くらい • T4: 導入規模が大きいので、リプレースが進むと安価な選択肢として中古市 場に落ちてきそう。

    • Ampere以降はSXMがメインとなりPCIeボードが少ない+人気もまだまだ高い のでしばらくは降りてこないかも ◦ A100: 40GB, 80GB版あり。最近値下がり始めている?SXM版なら40GBで30~40万くらい。 ◦ A10: 24GB。クラウドでも使えるので数年後にそれなりに数が出てくる? 20万くらい ◦ A40: 48GB。現在100万くらい • RTX4090 48GB 改造版: 非正規な改造を受けたものが買える。 • AMD MI60/MI100: 32GB RAM搭載。ROCmが成熟してきているのでもう少し 安くなると面白い選択肢かも 時間調整用
  14. AMD Instinct MI50とROCmの可能性 • AMDのサーバー用GPU MI50もebay等で16GB版が$150くらいで買える • 一昔前に比べてROCm(AMD版CUDA)もまともになっており、PyTorchの ROCmビルド版をインストールすればCUDA用のPyTorchコードが動く •

    HF transformers pytorch exampleの画像分類・言語モデルトレーニングで検証 ◦ P40と同等以上の性能が得られた 時間調整用 FP32 画像分類モデルトレーニング FP16 言語モデルトレーニング