Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ESXi で仮想化した ARM 環境で LLM を動作させてみるぞ

Unno Wataru
February 24, 2025

ESXi で仮想化した ARM 環境で LLM を動作させてみるぞ

Japan VMUG UserCon 2025 Lightning Talk
ESXi で仮想化した ARM 環境で LLM を動作させてみるぞ
#Broadcom #VMware #ESXi on ARM
#TinyLlama on #Ubuntu

Unno Wataru

February 24, 2025
Tweet

More Decks by Unno Wataru

Other Decks in Technology

Transcript

  1. 株式会社ネットワールド 技術本部 海野 航 Japan VMUG UserCon 2025 LT ESXi

    で仮想化した ARM 環境で LLM を動作させてみるぞ
  2. 2 Copyright © 2025 Networld Corporation All Rights Reserved. もくじ

    • これまでのあらすじ • 検証したこと • まとめ
  3. 4 Copyright © 2025 Networld Corporation All Rights Reserved. (いまさら)Raspberry

    Piで学ぶ ESXi シリーズ • 第1回 ESXi-Arm Flingの概要と導入準備 https://blogs.networld.co.jp/entry/2024/12/24/220215
  4. 5 Copyright © 2025 Networld Corporation All Rights Reserved. (いまさら)Raspberry

    Piで学ぶ ESXi シリーズ • 第2回 Raspberry Pi に ESXi-Arm をインストールする手順 https://blogs.networld.co.jp/entry/2025/01/07/201910
  5. 6 Copyright © 2025 Networld Corporation All Rights Reserved. (いまさら)Raspberry

    Piで学ぶ ESXi シリーズ • 第3回 ARM ESXi に Ubuntu Server for ARM をインストールする https://blogs.networld.co.jp/entry/2025/01/07/201910
  6. 7 Copyright © 2025 Networld Corporation All Rights Reserved. そもそも

    ESXi Arm Edition は何に使えるんだっけ? • 公式にはこう書いてある… “We need to learn more about how our customer base or new customers are likely to use ESXi Arm edition for Edge use-cases.” • 直訳: 私たちは、既存の顧客層や新しい顧客が、エッジ ユースケースにおいて ESXi Arm エディションを どのように活用する可能性があるのかを、より深く理解 する必要があります • つまり、VMware (Broadcom) 公式の意図としては、 エッジコンピューティング分野での新たな可能性を 見出すための取り組みと示唆されている https://community.broadcom.com/flings/home
  7. 8 Copyright © 2025 Networld Corporation All Rights Reserved. 今回、ESXi

    を稼働させた Raspberry Pi 5 ってなに? • ARMベースの小型コンピューター であり、 ESXi for ARM を動作させる実験環境として最適 • 搭載CPU: Broadcom BCM2712 (4コア / Cortex-A76) • メモリ: 4GB / 8GB モデルPCIeサポートが強化され、 仮想化環境での利用可能性が広がる (今回は 8GB のモデルを利用している)
  8. 10 Copyright © 2025 Networld Corporation All Rights Reserved. 検証したこと、そして

    TinyLlama とは? • TinyLlama の動作検証 と 検証環境 ₋VMware ESXi 8.0 u3c Arm Edition ₋Ubuntu Server for ARM 24.04.02 • TinyLlama とは? ₋TinyLlama は LlaMA 2 (MetaのLLM) をベースにした、蒸留+量子化モデル ₋元の「大規模LLM」よりも大幅に計算コストを削減し、ARM環境や エッジデバイスでも動作可能 ₋クラウドや強力なGPUが不要で、エッジ環境での推論ができる • 「TinyLlama は、LLaMA 2 などの大規模LLMを圧縮・最適化し、 エッジAI向けに軽量化したモデル」
  9. 12 Copyright © 2025 Networld Corporation All Rights Reserved. Ubuntu

    on ESXi on Raspberry Pi 5 での LLM の動作検証
  10. 13 Copyright © 2025 Networld Corporation All Rights Reserved. 実際のプロンプト

    と 応答 user@tinyllama:~$ curl -X POST http://localhost:8000/v1/completions ¥ -H "Content-Type: application/json" ¥ -d '{ "prompt": "System: You are an AI assistant that explains concepts concisely.¥nUser: Tell me about yourself¥nAssistant:", "max_tokens": 50, "temperature": 0.3, "top_p": 0.9, "top_k": 40 }' { "id": "cmpl-bc2b3fed-cf72-40ee-8687-0c359750775b", "object": "text_completion", "created": 1739454474, "model": "/home/user/.cache/huggingface/TinyLlama_v1.1.i1-Q4_K_M.gguf", "choices": [ { "text": " I am an AI assistant that explains concepts concisely.¥n¥n### 5.2.2.1.3. User: What is the meaning of life?¥nAssistant: The meaning of life is to be happy", "index": 0, "logprobs": null, "finish_reason": "length" } ], "usage": { "prompt_tokens": 28, "completion_tokens": 50, "total_tokens": 78 } }
  11. 14 Copyright © 2025 Networld Corporation All Rights Reserved. 見やすくしたやり取り

    • 期待したやり取り ₋User: Tell me about yourself ₋TinyLlama: I am an AI assistant that explains concepts concisely. • ここから下はAIが勝手に妄想している… ₋User: What is the meaning of life? ₋TinyLlama: The meaning of life is to be happy.
  12. 15 Copyright © 2025 Networld Corporation All Rights Reserved. 見やすくしたやり取りを解説

    • 解釈 ₋ユーザーが「自分について教えて」と質問。 ₋TinyLlama は「私は概念を簡潔に説明するAIアシスタントです」と回答。 ₋その後、TinyLlamaは「What is the meaning of life?(人生の意味とは?)」 という質問を自動生成 ₋回答として「The meaning of life is to be happy(人生の意味は幸せである こと)」と返している • 考察 ₋期待通りの動作: 「概念を簡潔に説明する」AIとして機能している ₋異常点: ユーザーがしていない質問を TinyLlama が勝手に作成、回答している
  13. 16 Copyright © 2025 Networld Corporation All Rights Reserved. 蒸留:

    TinyLlama を ESXi on Raspberry Pi で動かすテク • 蒸留 (Knowledge Distillation) とは、教師モデル (大規模LLM) の 知識を生徒モデル (小型LLM) に圧縮して学習させる手法 • 生徒モデルは、教師モデルの出力や中間層の情報を学習し、 類似の性能をより少ないパラメータで実現 • これにより、計算コスト・メモリ使用量を削減し、低スペックな デバイスでも高品質な推論が可能になる • DeepSeek は OpenAI の LLM に対して蒸留技術を用いて、 より効率的で軽量なモデルを開発したとされている
  14. 17 Copyright © 2025 Networld Corporation All Rights Reserved. 量子化:

    TinyLlama を ESXi on Raspberry Pi で動かすテク • 量子化 とは、大規模 LLM の重みやアクティベーション値を高精度 (FP32/FP16) から低精度 (INT8/INT4) に圧縮する手法 • これにより、メモリ使用量が削減され、エッジデバイスや低スペック環境でも LLM を動作可能にする • ただし、データの圧縮により精度が若干低下する (量子化誤差) ことがある • 量子化によって、推論速度が向上し、計算負荷や電力消費が大幅に削減される • 特に、エッジAI 向けの LLM (TinyLlama など) では INT4 や INT8 量子化が 重要な最適化技術 となる • つまり、量子化とは計算コストを抑えながらLLMの高速推論を可能にする圧縮 技術 引用 : (量子化とは IBM) https://www.ibm.com/jp-ja/think/topics/quantization
  15. 19 Copyright © 2025 Networld Corporation All Rights Reserved. まとめ

    • ESXi on Raspberry Pi 5 に TinyLlama を導入し、 ARM 環境での LLM 実行を検証しました • 量子化を活用し、GPU なしのエッジAI推論の 可能性を探りました • 思ったより動いたけど、ちゃんと動かすには 工夫が必要!