Upgrade to Pro — share decks privately, control downloads, hide ads and more …

2025版 鯖落ちパーツで安価に機械学習用マシンを作ってみる

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.

2025版 鯖落ちパーツで安価に機械学習用マシンを作ってみる

Avatar for bobfromjapan

bobfromjapan

November 14, 2025
Tweet

More Decks by bobfromjapan

Other Decks in How-to & DIY

Transcript

  1. TL; DR • 普通の自作PCでは使わないであろうサーバー落ちの中古パーツを買って 使ってみた話 • GPUとしてはNVIDIA Tesla P40、AMD Instinct

    MI50がどちらも3万くらい でKaggle NotebookのT4相当性能 • 48コアの第2世代AMD EPYC + DDR4メモリ256GB +対応マザーのセット が10万ちょっとで買えた • いくつかのコンペで実戦登板してみたが、GPUは結局性能不足が目立ちあ んまり出番が無かった
  2. 個人で使えるKaggleの学習・推論環境 • Kaggle Notebook • Google Colaboratory • Vast.ai などなど……

    ➢ 時間制限、CPU・メモリ・ディスクIOの性能不足、実験のしにくさ、(有料 サービスを使う場合)コストが気になる 結局なんだかんだローカルにちょっと強いマシンが欲しくなる!
  3. 他に面白いやつ • ユニファイドメモリ+iGPU系: GPU規模は大きくないがVRAMが多い。 LocalLLMなどの推論には使えるかも? ◦ NVIDIA DGX SPARK: 60~70万で128GBのメモリ、RTX5070相当のGPU規模

    ◦ Ryzen AI Max+ 395 搭載ミニPC: 30~40万で128GB、RTX4070 laptop相当のGPU性能 ◦ Mac Studio: M4 Maxなら128GB(55万~)、M3 Ultraなら512GB(150万~) • AMD・INTELのVRAM多めAI用GPU: CUDA互換は進んでいるが、トラブルフ リーとは言い難く性能も出にくい? ◦ INTEL ARC Pro B40: 24GB VRAMで$599と言われている。ニコイチにしたボードもあるら しい ◦ AMD Radeon AI Pro R9700: 32GB VRAMで26万くらいの実勢価格
  4. 手が届くNVIDIA GPUの選択肢 名前 世代 CUDA Core数 FP32/FP16(TFLOPS) VRAM メモリ帯域 独自調査の実売価格(25年11月)

    RTX 2060 Turing 2176 7.2/14.4 12 GB 336 GB/s ¥27,000~(中古) RTX 2080Ti Turing 4352 13.5/26.9 11 GB 616 GB/s ¥33,000~(中古) RTX 3060 Ampere 3584 12.7/12.7 12 GB 360 GB/s ¥32,000~(中古) RTX 3080 Ampere 8960 30.6/30.6 12 GB 912.4 GB/s ¥47,000~(中古) RTX 3090 Ampere 10496 35.6/35.6 24 GB 936.2 GB/s ¥110,000~ (中古) RTX 4060Ti(16GB) Ada Lovelace 4352 22.1/22.1 16 GB 288 GB/s ¥70,000~(中古) RTX 4070 Ada Lovelace 5888 29.2/29.2 12 GB 504.2 GB/s ¥65,000~(中古) RTX 4080 Ada Lovelace 9728 48.7/48.7 16 GB 716.8 GB/s ¥120,000~(中古) RTX 4090 Ada Lovelace 16384 82.6/82.6 24 GB 1018 GB/s ¥350,000~(中古) RTX 5060 Ti(16GB) Blackwell 4608 23.7/23.7 16 GB 448 GB/s ¥73,000 RTX 5070 Blackwell 6144 30.87/30.87 12 GB 672 GB/s ¥80,000 RTX 5070 Ti Blackwell 8960 43.94/43.94 16 GB 896 GB/s ¥130,000 RTX 5080 Blackwell 10752 56.28/56.28 16 GB 960 GB/s ¥200,000 RTX 5090 Blackwell 21760 104.8/104.8 32 GB 1.79 TB/s ¥450,000 性能はhttps://www.techpowerup.com/gpu-specs/ より。ハイライトはKaggleで使えるT4/P100のVRAM量16GB 以上のもの
  5. 手が届くNVIDIA GPUの選択肢 名前 世代 CUDA Core数 FP32/FP16(TFLOPS) VRAM メモリ帯域 独自調査の実売価格(25年11月)

    Tesla P40 Pascal 3840 11.8/0.2 24 GB 694.3 GB/s $184.99~(中古) RTX 2060 Turing 2176 7.2/14.4 12 GB 336 GB/s ¥27,000~(中古) RTX 2080Ti Turing 4352 13.5/26.9 11 GB 616 GB/s ¥33,000~(中古) RTX 3060 Ampere 3584 12.7/12.7 12 GB 360 GB/s ¥32,000~(中古) RTX 3080 Ampere 8960 30.6/30.6 12 GB 912.4 GB/s ¥47,000~(中古) RTX 3090 Ampere 10496 35.6/35.6 24 GB 936.2 GB/s ¥110,000~ (中古) RTX 4060Ti(16GB) Ada Lovelace 4352 22.1/22.1 16 GB 288 GB/s ¥70,000~(中古) RTX 4070 Ada Lovelace 5888 29.2/29.2 12 GB 504.2 GB/s ¥65,000~(中古) RTX 4080 Ada Lovelace 9728 48.7/48.7 16 GB 716.8 GB/s ¥120,000~(中古) RTX 4090 Ada Lovelace 16384 82.6/82.6 24 GB 1018 GB/s ¥350,000~(中古) RTX 5060 Ti(16GB) Blackwell 4608 23.7/23.7 16 GB 448 GB/s ¥73,000~ RTX 5070 Blackwell 6144 30.87/30.87 12 GB 672 GB/s ¥80,000~ RTX 5070 Ti Blackwell 8960 43.94/43.94 16 GB 896 GB/s ¥130,000~ RTX 5080 Blackwell 10752 56.28/56.28 16 GB 960 GB/s ¥200,000~ RTX 5090 Blackwell 21760 104.8/104.8 32 GB 1.79 TB/s ¥450,000~
  6. 鯖落ちパーツを集めて機械学習用マシンを作る • 右のような骨董品のサーバー用パーツをebay で買ってみた • 後は家に転がっている電源、SSD、CPUクー ラーを組み合わせると…… ➢ 32コア、256GBメモリ、24GB VRAM

    GPUが 2枚刺さったマシンを20万以内で作れる! ➢ 残念ながら最近のメモリ高騰の煽りを受け、同じ内容 のキットが今は$1500まで値上がりしているっぽい
  7. 鯖落ちパーツを集めて機械学習用マシンを作る • 右のような骨董品のサーバー用パーツをebay で買ってみた • 後は家に転がっている電源、SSD、CPUクー ラーを組み合わせると…… ➢ 32コア、256GBメモリ、24GB VRAM

    GPUが 2枚刺さったマシンを20万以内で作れる! ➢ 残念ながら最近のメモリ高騰の煽りを受け、同じ内容 のキットが今は$1500まで値上がりしているっぽい
  8. 実コンペで性能を調べてみる! • 当時参加していた Kaggle - LLM Science Examで次の2つのモデルをトレーニング ◦ deberta-v3-large

    ◦ llama2-7B Question Which of the following statements accurately describes the impact of Modified Newtonian Dynamics (MOND) on the observed "missing baryonic mass" discrepancy in galaxy clusters? A MOND is a theory that reduces the observed missing baryonic mass in galaxy clusters by postulating the existence of a new form of matter called "fuzzy dark matter." B MOND is a theory that increases the discrepancy between the observed missing baryonic mass in galaxy clusters and the measured velocity dispersions from a factor of around 10 to a factor of about 20. C MOND is a theory that explains the missing baryonic mass in galaxy clusters that was previously considered dark matter by demonstrating that the mass is in the form of neutrinos and axions. D MOND is a theory that reduces the discrepancy between the observed missing baryonic mass in galaxy clusters and the measured velocity dispersions from a factor of around 10 to a factor of about 2. E MOND is a theory that eliminates the observed missing baryonic mass in galaxy clusters by imposing a new mathematical formulation of gravity that does not require the existence of dark matter. Answer: D と答えられるモデルを作るコンペ
  9. 実用的な構成を考える • EbayでEPYC 7k62というZen2, 48コアのCPUが$300くらいで売られていた のでポチる • メインマシンにRTX 5090を買ってしまったので、余ったRTX4090を刺す ➢

    令和のモンスターマシン爆誕 パーツ 価格 CPU EPYC 7K62 50000円 CPUクーラー Dynatron A35 8000円 RAM DDR4 256GB 併せて10万 M/B H11SSL-i GPU RTX4090 30万 電源 1000W 15000円 SSD 1TB 7000円 合計 48万円
  10. 終わりに • ちなみにこれを作ってからのKaggle戦績はあまり良くない ◦ RTX5090ではゲームばかりしてしまっている • 自作は続けているとパーツを使いまわせてコスパが上がるので興味があればやっ てみると得かも ◦ 安い時に適当に買うSSD/HDDや、余りがちなファンや電源はタダみたいな発想になって無駄なPCが

    生えてきます • ぶっちゃけ24/365稼働で動かさない限り、ローカルよりも使う時だけクラウドで L4, L40s, RTX Pro 6000 Blackwellなど借りた方が安いと思う ◦ ローカルマシンを買うなら、まずは多用途に使える普通のゲーミングPCを買うことをお勧めします • パーツの海外輸入は自己責任で! ◦ ヒートスプレッダを書き換えた偽物、怪しいEngineering sample、GPUのヒートシンクだけの出品 など様々な罠も存在するので、失敗してもネタにできる金額のものだけを買うこと ◦ 何かトラブったらAIに中国語・英語を翻訳してもらいながら販売元と強気で交渉するべし
  11. T4 GPU vs P40 GPU • 512x512 x 3のinputでMobileNetv2をトレーニングした際の1epochの処理時間 ◦

    TensorFlowチュートリアルのCats and Dogs転移学習よりコードを拝借 ◦ https://www.tensorflow.org/tutorials/images/transfer_learning?hl=ja • 大体T4と同じくらいの速度で学習可能だった ◦ P40はFP16の性能が高くないためか、Mixed Precisionにしたときの速度向上があまり見られない 時間調整用 P40 T4(Google Colab) FP32 45.71s 54.84s Mixed Precision 38.61s 30.47s
  12. 有用な情報ソース • 普通の自作関連ならPC Watch、Ascii、IT MediaといったIT系ニュースサイト や個人ブログで十分情報収集可能 • パーツの細かいデータは ◦ Intel製品ならIntel

    Ark ◦ TechPowerUpという海外のTech系メディアがCPU/GPUデータベースを作ってくれている • 海外リーク情報やレビューも色々ページがある ◦ 情報の質はマチマチ。TPU、Tom’s Hard Ware、Videocardz、WCCF当たりが有名?この辺を ソースに日本語でまとめてくれている老舗サイトが北森瓦版 ◦ PhoronixというLinux系ニュースメディアが比較しやすいベンチマーク(phoronix test suite)を作 ってくれているので、ここの情報を見るのも良い。 • Redditのサブレディット Homelab はまさしく今回の話のような自宅にHPC環 境を作ろうとしている人たちが集まっており、有益な情報も多い ◦ 機械学習用のマシンの話はLocalLLaMAでも話題に上がるので買う前に見てみると良いかも 時間調整用
  13. 次に落ちてきそうな有望GPU • V100: 16GB, 32GB版あり。後者が欲しいが希少性が高く値段も高い。現在5 ~15万くらい • T4: 導入規模が大きいので、リプレースが進むと安価な選択肢として中古市 場に落ちてきそう。

    • Ampere以降はSXMがメインとなりPCIeボードが少ない+人気もまだまだ高い のでしばらくは降りてこないかも ◦ A100: 40GB, 80GB版あり。最近値下がり始めている?SXM版なら40GBで30~40万くらい。 ◦ A10: 24GB。クラウドでも使えるので数年後にそれなりに数が出てくる? 20万くらい ◦ A40: 48GB。現在100万くらい • RTX4090 48GB 改造版: 非正規な改造を受けたものが買える。 • AMD MI60/MI100: 32GB RAM搭載。ROCmが成熟してきているのでもう少し 安くなると面白い選択肢かも 時間調整用
  14. AMD Instinct MI50とROCmの可能性 • AMDのサーバー用GPU MI50もebay等で16GB版が$150くらいで買える • 一昔前に比べてROCm(AMD版CUDA)もまともになっており、PyTorchの ROCmビルド版をインストールすればCUDA用のPyTorchコードが動く •

    HF transformers pytorch exampleの画像分類・言語モデルトレーニングで検証 ◦ P40と同等以上の性能が得られた 時間調整用 FP32 画像分類モデルトレーニング FP16 言語モデルトレーニング