Slide 1

Slide 1 text

ローカルLLM環境でのAgent構築 https://x.com/shindoy

Slide 2

Slide 2 text

2025 MaaS - GPUStack 2022 Jira - Atlassian

Slide 3

Slide 3 text

によるローカルLLM環境でのAgent構築 1.環境セットアップ(GPUStack導入含む)
  Homebrew等で開発環境を整えた後、GPUStack環境を構築(インストールTipsあり!)
 
 2.LLMモデルの準備
  GGUF形式の量子化済みモデル(例:Mistral, LLaMA2など)等を取得しGPUStackで動作確認
 
 3.プロンプトテンプレートの整備
  使用モデルに合わせてChatML/Alpaca/Vicuna等のプロンプト形式を設計
 
 4.チャットエージェントの構築
  LangChainやllama-cpp-pythonを用い会話制御やRAG機能を備えたチャットエージェント構成
 
 5.Dockerによる構成管理
  再現性・配布性のためGPUStackとエージェント環境をDockerfile/DockerComposeで管理
 
 6.UI構築
  Gradio, Streamlit, FastAPI等を使って、LLMと連携するシンプルなWebチャットUIを提供
 
 7.セキュリティ・最適化
  ローカル通信限定、Metal最適化、量子化モデル選定などで安全かつ効率的な実行を確保
 
 8.テスト&チューニング
  チャット品質・応答速度・リソース使用量を評価し、推論パラメータやRetrieverの最適化

Slide 4

Slide 4 text

前提のお話 皆さん、Agent構築は クラウド使ってますよね

Slide 5

Slide 5 text

今日のお話 ローカルでの構築はいいぞ そろそろ

Slide 6

Slide 6 text

1.ローカルLLM環境導入Tips


Slide 7

Slide 7 text

No content

Slide 8

Slide 8 text

No content

Slide 9

Slide 9 text

https://docs.gpustack.ai/

Slide 10

Slide 10 text

No content

Slide 11

Slide 11 text

https://docs.gpustack.ai/latest/installation/installation-requirements/

Slide 12

Slide 12 text

No content

Slide 13

Slide 13 text

No content

Slide 14

Slide 14 text

2.LLMモデルの準備Tips

Slide 15

Slide 15 text

No content

Slide 16

Slide 16 text

No content

Slide 17

Slide 17 text

No content

Slide 18

Slide 18 text

No content

Slide 19

Slide 19 text

No content

Slide 20

Slide 20 text

量子化レベル メモリ削減 精度への影響 推奨用途 3bit 約75%削減 中~高 メモリ制約が厳しい環境(16GB RAM) 4bit 約65%削減 低~中 一般的な用途に最適なバランス 8bit 約50%削減 最小限 高精度が必要な用途(32GB以上のRAM推奨)

Slide 21

Slide 21 text

# モデルカタログの表示 gpustack models list # モデルのダウンロード(例:Llama 3.1 8B Instruct) gpustack models download mlx-community/Llama-3.1-8B-Instruct-3bit # ダウンロード済みモデルの確認 gpustack models local モデル関係のコマンド

Slide 22

Slide 22 text

自作LLMのデプロイ

Slide 23

Slide 23 text

No content

Slide 24

Slide 24 text

ローカル環境でのAgent開発メリット ・試行錯誤の自由さ ・APIコストの抑制 ・基礎技術の理解 ・セキュリティとプライバシー

Slide 25

Slide 25 text

エージェント開発w/GPUStackメリット ・リソースの柔軟性
 必要に応じて計算リソースをスケールアップ/ダ ウンできるため、プロジェクトの規模に応じた最 適なリソース管理が可能 ・物理制約からの解放
 HWによる物理的な制約から解放され、より柔軟で カスタマイズ性の高いシステム構築が可能

Slide 26

Slide 26 text

ローカルLLMの課題 ・初期構築コスト(HW購入、構築費用等) ・維持管理コスト(電力、人材、Ops費用) ・LLM選定ノウハウ(検証コスト)

Slide 27

Slide 27 text

ローカルLLMの課題 ・初期構築コスト→ ・維持管理コスト(電力、人材、Ops費用) ・LLM選定ノウハウ(検証コスト) 無料

Slide 28

Slide 28 text

https://note.com/cor_instrument/n/n6d2bc4db9175 ✗

Slide 29

Slide 29 text

異なるHWの組み合せによる構成でも 異なるNW上のワーカーでも一元管理可能

Slide 30

Slide 30 text

アーキテクチャ サーバ ワーカー ワーカー:1 ワーカー:n

Slide 31

Slide 31 text

アーキテクチャ LLM 実行

Slide 32

Slide 32 text

GPUStackをGPUが入っていないLinuxサーバにインストール、 そのサーバ上から、GPUが入っているサーバをワーカーに追加する、 と言う構築方法は正しいですか? それとも、GPUStackがインストールされるサーバもGPUが必要ですか? 実際にあった質問 回答:サーバはGPU不要

Slide 33

Slide 33 text

No content

Slide 34

Slide 34 text

UI AIエージェント データ ソース Tokenize Detokenize API REST / WebSocket ローカルLLM環境 Agent開発 LLM 実行環境 HW

Slide 35

Slide 35 text

No content

Slide 36

Slide 36 text

・完全なデータ主権 ・入出力データが企業内で完結 ・自社の情報管理ポリシー完全準拠 ・顧客データや知財も保護可能 • ローカル環境でのAgent開発メリット (ビジネス目線)

Slide 37

Slide 37 text

オンプレミス・ ローカルLLM クラウドサービス API使用 某サービス 有料版 某サービス 無料版 学習 されない されない されない オプトアウト が必要 データ 自己保有 ベンダー内 ベンダー内 ベンダー内 される セキュリティレベル 高 低 準拠法 日本国 海外 (一部日本) 海外 海外 ( ) ※完全なる正確性を保証するものではありません ※他社様のサービスを批判する目的ではありません

Slide 38

Slide 38 text

オンプレミス・ ローカルLLM クラウドベンダー のAPI使用 生成AIツール 有料版 生成AIツール 無料版 学習 されない されない されない オプトアウト が必要 データ 自己保有 ベンダー内 ベンダー内 ベンダー内 される セキュリティレベル 高 低 準拠法 日本国 海外 (一部日本) 海外 海外 ( ) ※完全なる正確性を保証するものではありません ※他社様のサービスを批判する目的ではありません クラウドサービス API使用 某サービス 有料版 某サービス 無料版

Slide 39

Slide 39 text

「ローカルLLM」 参考情報

Slide 40

Slide 40 text

͉

Slide 41

Slide 41 text

No content

Slide 42

Slide 42 text

No content

Slide 43

Slide 43 text

No content

Slide 44

Slide 44 text

No content

Slide 45

Slide 45 text

3.情報源Tips


Slide 46

Slide 46 text

No content

Slide 47

Slide 47 text

No content

Slide 48

Slide 48 text

ありがとうございました!