AIエージェントデザインパターンの選び方

by Almondoイベント担当

Slide 1

Slide 1 text

ローカルLLM環境でのAgent構築 https://x.com/shindoy

Slide 2

Slide 2 text

2025 MaaS - GPUStack 2022 Jira - Atlassian

Slide 3

Slide 3 text

によるローカルLLM環境でのAgent構築 1.環境セットアップ（GPUStack導入含む）  　Homebrew等で開発環境を整えた後、GPUStack環境を構築（インストールTipsあり！）    2.LLMモデルの準備  　GGUF形式の量子化済みモデル（例：Mistral, LLaMA2など）等を取得しGPUStackで動作確認    3.プロンプトテンプレートの整備  　使用モデルに合わせてChatML/Alpaca/Vicuna等のプロンプト形式を設計    4.チャットエージェントの構築  　LangChainやllama-cpp-pythonを用い会話制御やRAG機能を備えたチャットエージェント構成    5.Dockerによる構成管理  　再現性・配布性のためGPUStackとエージェント環境をDockerfile/DockerComposeで管理    6.UI構築  　Gradio, Streamlit, FastAPI等を使って、LLMと連携するシンプルなWebチャットUIを提供    7.セキュリティ・最適化  　ローカル通信限定、Metal最適化、量子化モデル選定などで安全かつ効率的な実行を確保    8.テスト&チューニング  　チャット品質・応答速度・リソース使用量を評価し、推論パラメータやRetrieverの最適化

Slide 4

Slide 4 text

前提のお話皆さん、Agent構築はクラウド使ってますよね

Slide 5

Slide 5 text

今日のお話ローカルでの構築はいいぞそろそろ

Slide 6

Slide 6 text

1.ローカルLLM環境導入Tips 

Slide 7

Slide 7 text

No content

Slide 8

Slide 8 text

No content

Slide 9

Slide 9 text

https://docs.gpustack.ai/

Slide 10

Slide 10 text

No content

Slide 11

Slide 11 text

https://docs.gpustack.ai/latest/installation/installation-requirements/

Slide 12

Slide 12 text

No content

Slide 13

Slide 13 text

No content

Slide 14

Slide 14 text

2.LLMモデルの準備Tips

Slide 15

Slide 15 text

No content

Slide 16

Slide 16 text

No content

Slide 17

Slide 17 text

No content

Slide 18

Slide 18 text

No content

Slide 19

Slide 19 text

No content

Slide 20

Slide 20 text

量子化レベルメモリ削減精度への影響推奨用途 3bit 約75%削減中～高メモリ制約が厳しい環境（16GB RAM） 4bit 約65%削減低～中一般的な用途に最適なバランス 8bit 約50%削減最小限高精度が必要な用途（32GB以上のRAM推奨）

Slide 21

Slide 21 text

# モデルカタログの表示 gpustack models list # モデルのダウンロード（例：Llama 3.1 8B Instruct） gpustack models download mlx-community/Llama-3.1-8B-Instruct-3bit # ダウンロード済みモデルの確認 gpustack models local モデル関係のコマンド

Slide 22

Slide 22 text

自作LLMのデプロイ

Slide 23

Slide 23 text

No content

Slide 24

Slide 24 text

ローカル環境でのAgent開発メリット・試行錯誤の自由さ・APIコストの抑制・基礎技術の理解・セキュリティとプライバシー

Slide 25

Slide 25 text

エージェント開発w/GPUStackメリット・リソースの柔軟性  必要に応じて計算リソースをスケールアップ/ダウンできるため、プロジェクトの規模に応じた最適なリソース管理が可能・物理制約からの解放  HWによる物理的な制約から解放され、より柔軟でカスタマイズ性の高いシステム構築が可能

Slide 26

Slide 26 text

ローカルLLMの課題・初期構築コスト（HW購入、構築費用等）・維持管理コスト（電力、人材、Ops費用）・LLM選定ノウハウ（検証コスト）

Slide 27

Slide 27 text

ローカルLLMの課題・初期構築コスト→ ・維持管理コスト（電力、人材、Ops費用）・LLM選定ノウハウ（検証コスト）無料

Slide 28

Slide 28 text

https://note.com/cor_instrument/n/n6d2bc4db9175 ✗

Slide 29

Slide 29 text

異なるHWの組み合せによる構成でも異なるNW上のワーカーでも一元管理可能

Slide 30

Slide 30 text

アーキテクチャサーバワーカーワーカー:1 ワーカー:n

Slide 31

Slide 31 text

アーキテクチャ LLM 実行

Slide 32

Slide 32 text

GPUStackをGPUが入っていないLinuxサーバにインストール、そのサーバ上から、GPUが入っているサーバをワーカーに追加する、と言う構築方法は正しいですか？それとも、GPUStackがインストールされるサーバもGPUが必要ですか？実際にあった質問回答：サーバはGPU不要

Slide 33

Slide 33 text

No content

Slide 34

Slide 34 text

UI AIエージェントデータソース Tokenize Detokenize API REST / WebSocket ローカルLLM環境 Agent開発 LLM 実行環境 HW

Slide 35

Slide 35 text

No content

Slide 36

Slide 36 text

・完全なデータ主権・入出力データが企業内で完結・自社の情報管理ポリシー完全準拠・顧客データや知財も保護可能 • ローカル環境でのAgent開発メリット（ビジネス目線）

Slide 37

Slide 37 text

オンプレミス・ローカルLLM クラウドサービス API使用某サービス有料版某サービス無料版学習されないされないされないオプトアウトが必要データ自己保有ベンダー内ベンダー内ベンダー内されるセキュリティレベル高低準拠法日本国海外（一部日本）海外海外 ( ) ※完全なる正確性を保証するものではありません ※他社様のサービスを批判する目的ではありません

Slide 38

Slide 38 text

オンプレミス・ローカルLLM クラウドベンダーのAPI使用生成AIツール有料版生成AIツール無料版学習されないされないされないオプトアウトが必要データ自己保有ベンダー内ベンダー内ベンダー内されるセキュリティレベル高低準拠法日本国海外（一部日本）海外海外 ( ) ※完全なる正確性を保証するものではありません ※他社様のサービスを批判する目的ではありませんクラウドサービス API使用某サービス有料版某サービス無料版

Slide 1

Slide 1 text

Slide 2

Slide 2 text

Slide 3

Slide 3 text

Slide 4

Slide 4 text

Slide 5

Slide 5 text

Slide 6

Slide 6 text

Slide 7

Slide 7 text

Slide 8

Slide 8 text

Slide 9

Slide 9 text

Slide 10

Slide 10 text

Slide 11

Slide 11 text

Slide 12

Slide 12 text

Slide 13

Slide 13 text

Slide 14

Slide 14 text

Slide 15

Slide 15 text

Slide 16

Slide 16 text

Slide 17

Slide 17 text

Slide 18

Slide 18 text

Slide 19

Slide 19 text

Slide 20

Slide 20 text

Slide 21

Slide 21 text

Slide 22

Slide 22 text

Slide 23

Slide 23 text

Slide 24

Slide 24 text

Slide 25

Slide 25 text

Slide 26

Slide 26 text

Slide 27

Slide 27 text

Slide 28

Slide 28 text

Slide 29

Slide 29 text

Slide 30

Slide 30 text

Slide 31

Slide 31 text

Slide 32

Slide 32 text

Slide 33

Slide 33 text

Slide 34

Slide 34 text

Slide 35

Slide 35 text

Slide 36

Slide 36 text

Slide 37

Slide 37 text

Slide 38

Slide 38 text

Slide 39

Slide 39 text

Slide 40

Slide 40 text