GitLab Duo Agent Platform + Local LLMサービングで幸せになりたい

第3回 vLLM roundup Community Meetup Tokyo GitLab Duo Agent Platform
+ Local LLM サービングで幸せになりたい @jyoshise | GitLab | 2026.03.05 1 / 11

「AI駆動開発」てきなワードをよく聞く昨今 2 / 11 それを支えるインフラってあんまり語られてなくね？

vLLM サービング側 Done $ vllm serve \ gpt-oss-120b \ --served-model-name
\ gpt-oss \ --tensor-parallel-size 8 使う側？ → AI Agent が使う → DevSecOps全体で活用 → セキュリティ要件を満たしながら使う 2 / 11

© 2025 GitLab Inc. SDLC全体にわたる AIエージェントエコシステム組織に合わせてフルカスタマイズ可能 GitLabのセキュアなプラットフォーム上
に構築 AIデベロッパーツールとシームレスに連携人間とAIエージェントのための、ソフトウェアエンジニアリングを加速する DevSecOps統合管理プラットフォーム

© 2025 GitLab Inc. Unified Data Model Agent Agent Agent
Agent Agent Agent GitLab Intelligent DevSecOps Platform 単一のエージェントから、複数エージェントを連携させたオーケストレーションへ Key components to know 複数のエージェントを組み合わせて、複雑なタスクを実行 Flows • フェーズごとに順を追って進行 • 特定のトリガーから自動的に開始例：sql_changeブランチからマージリクエストを作成時に起動チームメンバーのような役割を担い、人と同じように協働 Agents • 専門家のように振る舞う例：特定領域に特化したソフトウェアテストエージェント • GitLabの機能やオブジェクトと連携例：マージリクエスト作成 • 他のエージェントを呼び出して連携 Plan Code Secure Build Deploy

DEMO 8 / 11 gitlab.com GitLab AI Model SaaS インターネット
AI Gateway GitLab/AIプロバイダーが提供

なぜ Self-Hosted が必要なのかデータ主権ソースコード → 社内に留まるプロンプト（コンテキスト含む） → 社内に留
まるモデルレスポンス → 社内に留まる AI Gatewayログ → 社内に留まる外部 API 呼び出しゼロ規制産業の現実金融 J-SOX・FISC安全対策基準防衛エアギャップ環境製造知財保護・輸出管理医療個人情報保護「データは出せない」 → Self-Hosted 4 / 11

9 GitLab Duo Agent Platformの利用形態オンプレ or クラウド GitLab インスタンス
Local LLM gitlab.com GitLab AI Model 3rd Party AI SaaS Self Managed インターネット AI Gateway AI Gateway GitLab/AIプロバイダーが提供利用者が構築・運用クラウドベンダーAI プライベートクラウドインターネット AI Gatewayの詳細についてはこちらをご確認ください GitLAb AI Gateway GitLab AI Model GitLab提供のAIを利用する（デフォルト）利用者が利用するAI Gatewayを構築し、 LLMを選ぶ（GitLab Duo Self-Hosted）インターネット

10 BYOM (Bring Your Own Models) のサポート • サポートされているモデルとハードウェア要件 ◦
https://docs.gitlab.com/ja-jp/administration/gitlab _duo_self_hosted/supported_models_and_hardware _requirements/ • サポートされているLLMサービスプラットフォーム ◦ https://docs.gitlab.com/ja-jp/administration/gitlab _duo_self_hosted/supported_llm_serving_platforms /

アーキテクチャ : 今日のデモ構成 Self-Managed GitLab → Self-Hosted AI Gateway →
vLLM on EC2 GitLab Instance Self-Managed (自宅PC) Duo Chat UI Agent 実行指示 MR/Issue コンテキスト Code Suggestions AI Gateway Docker / 自宅PC リクエストルーティングモデル抽象化 custom_openai/ LiteLLM ベース vLLM EC2 p5 (H100 GPU) OpenAI互換 API /v1/chat/completions /v1/completions gpt-oss 120b すべてのデータフロー（コード・プロンプト・レスポンス）が自社ネットワーク内で完結 5 / 11

設定詳細: AI Gateway ↔ vLLM 接続 vLLM サーバー起動 $ vllm
serve \ gpt-oss-120b \ --served-model-name gpt-oss \ --tensor-parallel-size 8 \ --port 8000 \ --disable-log-requests --served-model-name は必須。GitLab側と一致させる GitLab 管理画面設定 # Admin > Settings > AI-native AI Gateway URL: http://localhost:5052 Model endpoint: http://<ec2-ip>:8000/v1 Model identifier: custom_openai/gpt-oss モデル名マッチングの仕組み custom_openai/gpt-oss → AI Gateway が OpenAI互換エンドポイントに gpt-oss をルーティング 6 / 11

プロダクション構成 : Kubernetes Native 全コンポーネントをKubernetes上でスケーラブルに展開 Kubernetes Cluster GitLab Helm Chart
/ Operator Web UI Sidekiq Gitaly Registry GitLab Runner Kubernetes Executor Custom Agent 実行 Flows ワークフロー CI/CD パイプラインオートスケール AI Gateway Horizontal Pod Autoscaler モデルルーティング負荷分散ヘルスチェック複数レプリカ vLLM GPU Node Pool 複数モデル並列 tensor-parallel GPU スケジューリング GPU ノードプール上で gpt-oss 120b (Chat), Codestral (Code Suggestions) 等を同時サービング 7 / 11

DEMO 自宅 GitLab → Self-Hosted AI Gateway → EC2 vLLM
(p5) 8 / 11

インフラ視点の Tips vLLMを立てる側が知っておくと嬉しいこと --max-model-len GPUメモリとコンテキスト長のせめぎあい。 Duo Agent PlatformはKnowledge Graphでトークンを抑えるとはいえ、複雑なタスクはそれなりのコンテキスト
が乗る。理想は128k以上 --disable-log-requests プロダクションでは有効にする。レスポンスタイム改善が確認済み。タイムアウト設定 AI Gateway側: 60〜600秒で設定可能。 Agent系は長時間実行のため要調整。ハイブリッド構成機能ごとにSelf-Hosted / Cloud切替可能。例: Code Suggestions → vLLM 9 / 11

まとめ vLLM の OpenAI 互換 API が GitLab DAP との統合を可能にする
Self-Hosted 構成で、コード・プロンプト・レスポンスすべてを社内に留められる Kubernetes Native 構成で、プロダクション規模にスケール可能あなたが立てた vLLM が、開発ライフサイクル全体を支える基盤になる仲間を募集しています！ 10 / 11

Q & A ご質問・ご相談お待ちしています Resources docs.gitlab.com/administration/gitlab_duo_self_hosted/ docs.gitlab.com/user/duo_agent_platform/ 11 / 11

GitLab Duo Agent Platform + Local LLMサービングで幸せになりたい

GitLab Duo Agent Platform + Local LLMサービングで幸せになりたい

jyoshise

More Decks by jyoshise

Other Decks in Technology

Featured

Transcript

第3回 vLLM roundup Community Meetup Tokyo GitLab Duo Agent Platform

「AI駆動開発」てきなワードをよく聞く昨今 2 / 11 それを支えるインフラってあんまり語られてなくね？

vLLM サービング側 Done $ vllm serve \ gpt-oss-120b \ --served-model-name

© 2025 GitLab Inc. SDLC全体にわたる AIエージェントエコシステム組織に合わせてフルカスタマイズ可能 GitLabのセキュアなプラットフォーム上

© 2025 GitLab Inc. Unified Data Model Agent Agent Agent

DEMO 8 / 11 gitlab.com GitLab AI Model SaaS インターネット

なぜ Self-Hosted が必要なのかデータ主権ソースコード → 社内に留まるプロンプト（コンテキスト含む） → 社内に留

9 GitLab Duo Agent Platformの利用形態オンプレ or クラウド GitLab インスタンス

10 BYOM (Bring Your Own Models) のサポート • サポートされているモデルとハードウェア要件 ◦

アーキテクチャ : 今日のデモ構成 Self-Managed GitLab → Self-Hosted AI Gateway →

設定詳細: AI Gateway ↔ vLLM 接続 vLLM サーバー起動 $ vllm

プロダクション構成 : Kubernetes Native 全コンポーネントをKubernetes上でスケーラブルに展開 Kubernetes Cluster GitLab Helm Chart

DEMO 自宅 GitLab → Self-Hosted AI Gateway → EC2 vLLM

インフラ視点の Tips vLLMを立てる側が知っておくと嬉しいこと --max-model-len GPUメモリとコンテキスト長のせめぎあい。 Duo Agent PlatformはKnowledge Graphでトークンを抑えるとはいえ、複雑なタスクはそれなりのコンテキスト

まとめ vLLM の OpenAI 互換 API が GitLab DAP との統合を可能にする

Q & A ご質問・ご相談お待ちしています Resources docs.gitlab.com/administration/gitlab_duo_self_hosted/ docs.gitlab.com/user/duo_agent_platform/ 11 / 11