Upgrade to Pro — share decks privately, control downloads, hide ads and more …

GitLab Duo Agent Platform + Local LLMサービングで幸せになりたい

GitLab Duo Agent Platform + Local LLMサービングで幸せになりたい

第3回 vLLM roundup Community Meetup Tokyoでの発表資料です。

Avatar for jyoshise

jyoshise

March 05, 2026
Tweet

More Decks by jyoshise

Other Decks in Technology

Transcript

  1. 第3回 vLLM roundup Community Meetup Tokyo GitLab Duo Agent Platform

    + Local LLM サービング で幸せになりたい @jyoshise | GitLab | 2026.03.05 1 / 11
  2. vLLM サービング側 Done $ vllm serve \ gpt-oss-120b \ --served-model-name

    \ gpt-oss \ --tensor-parallel-size 8 使う側 ? → AI Agent が使う → DevSecOps全体で活用 → セキュリティ要件を 満たしながら使う 2 / 11
  3. © 2025 GitLab Inc. SDLC全体にわたる AIエージェントエコシステム 組織に合わせて フルカスタマイズ可能 GitLabのセキュアな プラットフォーム上

    に構築 AIデベロッパーツールと シームレスに連携 人間とAIエージェントのための、 ソフトウェアエンジニアリングを加速する DevSecOps統合管理プラットフォーム
  4. © 2025 GitLab Inc. Unified Data Model Agent Agent Agent

    Agent Agent Agent GitLab Intelligent DevSecOps Platform 単一のエージェントから、複数エージェントを連携させたオーケストレーションへ Key components to know 複数のエージェントを組み合わせて、複雑なタ スクを実行 Flows • フェーズごとに順を追って進行 • 特定のトリガーから自動的に開始 例:sql_changeブランチからマージリクエストを作 成時に起動 チームメンバーのような役割を担い、人と同じよ うに協働 Agents • 専門家のように振る舞う 例:特定領域に特化したソフトウェアテストエージェ ント • GitLabの機能やオブジェクトと連携 例:マージリクエスト作成 • 他のエージェントを呼び出して連携 Plan Code Secure Build Deploy
  5. DEMO 8 / 11 gitlab.com GitLab AI Model SaaS インターネット

    AI Gateway GitLab/AIプロバイダーが提供
  6. なぜ Self-Hosted が必要なのか データ主権 ソースコード → 社内に留まる プロンプト(コンテキスト含む) → 社内に留

    まる モデルレスポンス → 社内に留まる AI Gatewayログ → 社内に留まる 外部 API 呼び出しゼロ 規制産業の現実 金融 J-SOX・FISC安全対策基準 防衛 エアギャップ環境 製造 知財保護・輸出管理 医療 個人情報保護 「データは出せない」 → Self-Hosted 4 / 11
  7. 9 GitLab Duo Agent Platformの利用形態 オンプレ or クラウド GitLab インスタンス

    Local LLM gitlab.com GitLab AI Model 3rd Party AI SaaS Self Managed インターネット AI Gateway AI Gateway GitLab/AIプロバイダーが提供 利用者が構築・運用 クラウドベンダーAI プライベート クラウド インターネット AI Gatewayの詳細についてはこちらをご確認ください GitLAb AI Gateway GitLab AI Model GitLab提供のAIを利用する(デフォルト) 利用者が利用するAI Gatewayを構築し、 LLMを選ぶ(GitLab Duo Self-Hosted) インターネット
  8. 10 BYOM (Bring Your Own Models) のサポート • サポートされているモデルとハードウェア要件 ◦

    https://docs.gitlab.com/ja-jp/administration/gitlab _duo_self_hosted/supported_models_and_hardware _requirements/ • サポートされているLLMサービスプラットフォーム ◦ https://docs.gitlab.com/ja-jp/administration/gitlab _duo_self_hosted/supported_llm_serving_platforms /
  9. アーキテクチャ : 今日のデモ構成 Self-Managed GitLab → Self-Hosted AI Gateway →

    vLLM on EC2 GitLab Instance Self-Managed (自宅PC) Duo Chat UI Agent 実行指示 MR/Issue コンテキスト Code Suggestions AI Gateway Docker / 自宅PC リクエストルーティング モデル抽象化 custom_openai/ LiteLLM ベース vLLM EC2 p5 (H100 GPU) OpenAI互換 API /v1/chat/completions /v1/completions gpt-oss 120b すべてのデータフロー(コード・プロンプト・レスポンス)が自社ネットワーク内で完結 5 / 11
  10. 設定詳細: AI Gateway ↔ vLLM 接続 vLLM サーバー起動 $ vllm

    serve \ gpt-oss-120b \ --served-model-name gpt-oss \ --tensor-parallel-size 8 \ --port 8000 \ --disable-log-requests --served-model-name は必須。GitLab側と一致させる GitLab 管理画面設定 # Admin > Settings > AI-native AI Gateway URL: http://localhost:5052 Model endpoint: http://<ec2-ip>:8000/v1 Model identifier: custom_openai/gpt-oss モデル名マッチングの仕組み custom_openai/gpt-oss → AI Gateway が OpenAI互換エンドポイントに gpt-oss をルーティング 6 / 11
  11. プロダクション構成 : Kubernetes Native 全コンポーネントをKubernetes上でスケーラブルに展開 Kubernetes Cluster GitLab Helm Chart

    / Operator Web UI Sidekiq Gitaly Registry GitLab Runner Kubernetes Executor Custom Agent 実行 Flows ワークフロー CI/CD パイプライン オートスケール AI Gateway Horizontal Pod Autoscaler モデルルーティング 負荷分散 ヘルスチェック 複数レプリカ vLLM GPU Node Pool 複数モデル並列 tensor-parallel GPU スケジューリング GPU ノードプール上で gpt-oss 120b (Chat), Codestral (Code Suggestions) 等を同時サービング 7 / 11
  12. インフラ視点の Tips vLLMを立てる側が知っておくと嬉しいこと --max-model-len GPUメモリとコンテキスト長のせめぎあい。 Duo Agent PlatformはKnowledge Graphでトークンを抑 えるとはいえ、複雑なタスクはそれなりのコンテキスト

    が乗る。理想は128k以上 --disable-log-requests プロダクションでは有効にする。 レスポンスタイム改善が確認済み。 タイムアウト設定 AI Gateway側: 60〜600秒で設定可能。 Agent系は長時間実行のため要調整。 ハイブリッド構成 機能ごとにSelf-Hosted / Cloud切替可能。 例: Code Suggestions → vLLM 9 / 11
  13. まとめ vLLM の OpenAI 互換 API が GitLab DAP との統合を可能にする

    Self-Hosted 構成で、コード・プロンプト・レスポンスすべてを社内に留められる Kubernetes Native 構成で、プロダクション規模にスケール可能 あなたが立てた vLLM が、開発ライフサイクル全体を支える基盤になる 仲間を募集しています! 10 / 11