お外でBlackhole

お外で Blackhole Tenstorrent Teck Talk #4 - Lightning Talk 林
哲矢： LT なので自己紹介はスキップ ※ 注意事項: 本資料の内容は Tenstorrent 公式とは一切関係ありません　あくまでも個人の趣味情報としてご理解ください

はじめにいつでもどこでも Blackhole をハックしたい！やっぱり手元で実物を触りたい俺の Blackhole を持ち込んで見せびらかしたい
皆で Blackhole を持ち寄って 800Gbps で繋ぎ合いたい 4 人で 2D トーラス、8 人で 3D トーラスなんて痺れる (1) 頑張ればできるかも. TT is freedum! ※ 右の画像は Gemini Nano Banana で生成したものです (1)

お買いもの 1. Thunderbolt 3 M.2 NVMe アダプタ: Wavlink Portable M.2
NVMe SSD 2. M.2 NVMe PCIe 3.0 x4 アダプタ : ADT-Link R42UF 3. 1000W ATX 3.1 電源: Thermalright TR-TPFX-1000-W Aliexpress 7 月のセールで一式購入して 32,335 円 DIY で eGPU ボックスよりお安くできました参考にしたサイト https://darekasan-net.hatenablog.com/entry/2024/09/04/152918

いろいろ繋いでみた結果接続メモリ古い ThinkPad X1 Carbon ✗ TB3
16GB 基板認識できず orz... BIOS に Abobe 4G Decoding が無いため名刺サイズx86 Radxa X4 △ M.2 OCI link 8GB 惜しい！小さなサンプルは動くが vLLM はメモリ不足で動かず tt-smi OK, run_op_on_device.py OK, vLLM NG 最近の ThinkPad P14s Gen5 ◯ TB3 64GB 動いた！ TTSMI ┌────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────┐ │ Ｖｅｒｓｉｏｎ３．０．３２ＴＴ－ＳＭＩＯｃｔ２３２０２５１１：１２：０４ＰＭ │ └────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────┘ ┌─ ＨｏｓｔＩｎｆｏ（ＣｏｎｆｉｇＷａｒｎｉｎｇ！） ─ ─ ─ ─ ─ ─ ─ ─┐Ｉｎｆｏｒｍａｔｉｏｎ（１）Ｔｅｌｅｍｅｔｒｙ（２）ＦＷＶｅｒｓｉｏｎ（３） │ │╸━ ━ ━ ━ ━ ━ ━ ━ ━ ━ ━ ━ ━ ━ ━╺━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ │＊ＯＳ：Ｌｉｎｕｘ（ｘ８６＿６４） │┌─ ＤｅｖｉｃｅＩｎｆｏｒｍａｔｉｏｎ ───────────────────────────────────────────────────────────────────────────┐ │＊Ｄｉｓｔｒｏ：Ｕｂｕｎｔｕ２４．０４．３ＬＴＳ ││ │ │＊Ｋｅｒｎｅｌ：６．１４．０－３３－ｇｅｎｅｒｉｃ ││ ＃ＢｕｓＩＤＢｏａｒｄＴｙｐｅＢｏａｒｄＩＤＣｏｏｒｄｓＤＲＡＭＴｒａｉｎｅｄＤＲＡＭＳｐｅｅｄＬｉｎｋＳｐｅｅｄＬｉ │ │＊Ｈｏｓｔｎａｍｅ：ｈａｕｙｎｉｔｅ ││ │ │＊Ｐｙｔｈｏｎ：３．１２．３ ││ ０００００：０３：００．０ｐ１００ａ４３２３１９１１０５ｃＮ ∕ ＡＮ ∕ ＡＮ ∕ ＡＧｅｎ３ ∕ Ｇｅｎ５ｘ │ │＊Ｍｅｍｏｒｙ：７．５４ＧＢ ││ │ │ ＊３２ＧＢ＋ ││ │ │＊Ｄｒｉｖｅｒ：ＴＴ－ＫＭＤ２．４．１ ││ │ │ ││ │ └─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ＊ＲｅｃｏｍｍｅｎｄｅｄＣｏｎｆｉｇ ─┘│ │ │ │ │ │ │ ▉ │ │ │ └────────────────────────────────────────────────────────────────────────────────────────────────┘ ｑＱｕｉｔｈＨｅｌｐｄＴｏｇｇｌｅｄａｒｋｍｏｄｅｃＴｏｇｇｌｅｓｉｄｅｂａｒ１Ｄｅｖｉｃｅｉｎｆｏｔａｂ２Ｔｅｌｅｍｅｔｒｙｔａｂ３Ｆｉｒｍｗａｒｅｔａｂ ▏＾ｐｐａｌｅｔｔｅ ※2 ERROR 10-12 03:13:08 [engine.py:453] [enforce fail at alloc_cpu.cpp:117] err == 0. DefaultCPUAllocator: can't allocate memory: you tried to allocate 17179869184 bytes. Error code 12 (Cannot allocate memory) 2

動いた！ハード接続と BIOS 基板: 俺の Blackhole p100a PC: Thinkpad P14s
Gen5 Intel Core Ultra 7 155H 64GB Ubuntu 24.04.3 bare metal installed BIOS: Thunderbolt 3 -> Security Level: No Security Security -> Virtualization -> VT-d Feature: Disable ※ 私の場合なぜか IOMMU(VT-d) 有効だと vLLM がエラー出て動きませんでした！？ ※

TT-SMI の表示 TTSMI ┌────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────┐ │ Ｖｅｒｓｉ
ｏｎ３．０．３２ＴＴ－ＳＭＩＯｃｔ２０２０２５１２：２４：３７ＡＭ │ └────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────┘ ┌─ ＨｏｓｔＩｎｆｏ（ＦｕｌｌｙＣｏｍｐａｔｉｂｌｅ） ─ ─ ─ ─ ─ ─ ─┐Ｉｎｆｏｒｍａｔｉｏｎ（１）Ｔｅｌｅｍｅｔｒｙ（２）ＦＷＶｅｒｓｉｏｎ（３） │ │╸━ ━ ━ ━ ━ ━ ━ ━ ━ ━ ━ ━ ━ ━ ━╺━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ │＊ＯＳ：Ｌｉｎｕｘ（ｘ８６＿６４） │┌─ ＤｅｖｉｃｅＩｎｆｏｒｍａｔｉｏｎ ───────────────────────────────────────────────────────────────────────────────────┐ │＊Ｄｉｓｔｒｏ：Ｕｂｕｎｔｕ２４．０４．３ＬＴＳ ││ │ │＊Ｋｅｒｎｅｌ：６．１４．０－３３－ｇｅｎｅｒｉｃ ││ ＃ＢｕｓＩＤＢｏａｒｄＴｙｐｅＢｏａｒｄＩＤＣｏｏｒｄｓＤＲＡＭＴｒａｉｎｅｄＤＲＡＭＳｐｅｅｄＬｉｎｋＳｐｅｅｄＬｉｎｋＷｉｄｔｈ │ │＊Ｈｏｓｔｎａｍｅ：ｍｉｄｎｉｇｈｔ ││ │ │＊Ｐｙｔｈｏｎ：３．１２．３ ││ ０００００：５２：００．０ｐ１００ａ４３２３１９１１０５ｃＮ ∕ ＡＮ ∕ ＡＮ ∕ ＡＧｅｎ３ ∕ Ｇｅｎ５ｘ４ ∕ ｘ１６ │ │＊Ｍｅｍｏｒｙ：６２．３０ＧＢ ││ │ │＊Ｄｒｉｖｅｒ：ＴＴ－ＫＭＤ２．４．１ ││ │ │ ││ │ └─ ─── ──── ─── ─── ─── ──── ─── ─── ──── ─── ─── ─┘│ │ │ │ │ │ │ │ │ │ │ ▏ │ │ │ └────────────────────────────────────────────────────────────────────────────────────────────────────────┘ ｑＱｕｉｔｈＨｅｌｐｄＴｏｇｇｌｅｄａｒｋｍｏｄｅｃＴｏｇｇｌｅｓｉｄｅｂａｒ１Ｄｅｖｉｃｅｉｎｆｏｔａｂ２Ｔｅｌｅｍｅｔｒｙｔａｂ３Ｆｉｒｍｗａｒｅｔａｂ ▏＾ｐｐａｌｅｔｔｅ tt-smi から SVG 保存するとこんな枠が付くけど Mac じゃないよ

動いた！ TT-Inference-Server チュートリアルの Deploying LLMs に沿って vLLM がサクッと動きました (request-venv) hayate@midnight:~/git/tt-inference-server$
curl -sS "http://localhost:8000/v1/completions" -H "Content-Type: application/json" -H "Authorization: Bearer $VLLM_API_KEY" -d "{ \"model\": \"meta-llama/$MODEL\", \"prompt\": \"Jim Keller is?\", \"max_tokens\": 60, \"temperature\": 0 }" | jq { "id": "cmpl-9c65c696ebaa4031a5900aaec091ab11", "object": "text_completion", "created": 1761145166, "model": "meta-llama/Llama-3.1-8B-Instruct", "choices": [ { "index": 0, "text": " (Part 2)\nJim Keller is a renowned American computer architect and engineer, best known for his work at AMD and Apple. He is credited with designing the x86-64 architecture, which is the foundation of modern personal computers.\nKeller's career spans over three decades, with significant contributions to", "logprobs": null, "finish_reason": "length", "stop_reason": null, "prompt_logprobs": null } ], "usage": { "prompt_tokens": 5, "total_tokens": 65, "completion_tokens": 60, "prompt_tokens_details": null } } https://docs.tenstorrent.com/getting-started/vLLM-servers.html#deploying-llms ※: tt-inference-server のブランチは bh-getting-started をまずは試して、上手くいったら dev とかをどうぞ

まとめ Thunderbolt アダプタ + p100a でポータブルな Blackhole 環境を構築できたいつでもどこでも、お外で Blackhole
ハックが可能となった今後の展望 Thunderbolt 接続による性能低下影響の調査 (8.0 Gb/s しか出てない？) Blackhole Peer to Peer 800Gbps 接続性能評価そのためには、P150 が2 台以上必要、うん、欲しいなぁ (2) pci 0000:52:00.0: 8.000 Gb/s available PCIe bandwidth, limited by 2.5 GT/s PCIe x4 link at 0000:00:07.2 (capable of 504.112 Gb/s with 32.0 GT/s PCIe x16 link) 00:07.2 PCI bridge: Intel Corporation Meteor Lake-P Thunderbolt 4 PCI Express Root Port #2 (rev 02) (2)

ご清聴ありがとうございましたこの後は設定時の Tips 書いておきますね

Tips. Linux デバイス認識と hugepage 1. udev 設定を追加して Thunderbolt デバイスを接続時に認識するようにする /etc/udev/rules.d/99-removable.rules
ACTION=="add", SUBSYSTEM=="thunderbolt", ATTR{authorized}=="0", ATTR{authorized}="1" ※ 参考URL: https://wiki.archlinux.org/title/Thunderbolt 2. p100a を接続して lspci で確認 lspci -vv -d 1e52:* で確認する 52:00.0 Processing accelerators: Tenstorrent Inc Blackhole デバイスが表示されて且つ Region 0, 2, 4 の３つの Memory が割り当てられていること ※ 自分の環境では起動後に何回か認識しなおしていると Region 0 が割当失敗することありました 3. hugepage をセットしなおす ( プラグ＆プレイ接続する場合は必須) lspci でデバイスが見えたら sudo /opt/tenstorrent/bin/hugepage-setup.sh を手動実行する Node 0 hugepages after: 4 と表示されればOK. cat /proc/meminfo でも情報見れる

lspci と hugepage-setup.sh の出力 $ lspci -vv -d 1e52:* 52:00.0
Processing accelerators: Tenstorrent Inc Blackhole Subsystem: Tenstorrent Inc Blackhole Control: I/O- Mem+ BusMaster+ SpecCycle- MemWINV- VGASnoop- ParErr- Stepping- SERR- FastB2B- DisINTx+ Status: Cap+ 66MHz- UDF- FastB2B- ParErr- DEVSEL=fast >TAbort- <TAbort- <MAbort- >SERR- <PERR- INTx- Latency: 0 Interrupt: pin A routed to IRQ 198 Region 0: Memory at 4800000000 (64-bit, prefetchable) [size=512M] Region 2: Memory at 4820000000 (64-bit, prefetchable) [size=1M] Region 4: Memory at 4000000000 (64-bit, prefetchable) [size=32G] Capabilities: <access denied> Kernel driver in use: tenstorrent Kernel modules: tenstorrent $ sudo /opt/tenstorrent/bin/hugepages-setup.sh Node 0 hugepages before: 0 Node 0 hugepages needed: 4 Node 0 hugepages after: 4 Completed hugepage setup

お外でBlackhole

お外でBlackhole

Tenstorrent Japan

More Decks by Tenstorrent Japan

Featured

Transcript

お外で Blackhole Tenstorrent Teck Talk #4 - Lightning Talk 林

はじめにいつでもどこでも Blackhole をハックしたい！やっぱり手元で実物を触りたい俺の Blackhole を持ち込んで見せびらかしたい

お買いもの 1. Thunderbolt 3 M.2 NVMe アダプタ: Wavlink Portable M.2

いろいろ繋いでみた結果接続メモリ古い ThinkPad X1 Carbon ✗ TB3

動いた！ハード接続と BIOS 基板: 俺の Blackhole p100a PC: Thinkpad P14s

動いた！ TT-Inference-Server チュートリアルの Deploying LLMs に沿って vLLM がサクッと動きました (request-venv) hayate@midnight:~/git/tt-inference-server$

まとめ Thunderbolt アダプタ + p100a でポータブルな Blackhole 環境を構築できたいつでもどこでも、お外で Blackhole

ご清聴ありがとうございましたこの後は設定時の Tips 書いておきますね

Tips. Linux デバイス認識と hugepage 1. udev 設定を追加して Thunderbolt デバイスを接続時に認識するようにする /etc/udev/rules.d/99-removable.rules

lspci と hugepage-setup.sh の出力 $ lspci -vv -d 1e52:* 52:00.0