Upgrade to Pro — share decks privately, control downloads, hide ads and more …

【swonet.conf_ 2025】SRv6 による k8s マルチテナント環境と次世代 A...

Avatar for ShowNet ShowNet PRO
October 20, 2025
0

【swonet.conf_ 2025】SRv6 による k8s マルチテナント環境と次世代 AI ネットワーク/サービス基盤

データセンターのサービス基盤は、従来の IaaS 仮想化にコンテナ技術を組み合わせたハイブリッド環境へと移行しつつあります。ShowNet ではこれまで Kubernetes (k8s) を活用しマルチテナント対応のコンテナ基盤を設計・運用してきました。今年の ShowNet では、 SRv6 を用い複数ネットワークを統合的に扱えるコンテナ基盤を構築し実サービスを提供しました。一方、 AI/ML ワークロードを支えるには 400/800G の帯域でも輻輳を抑制できる高度なネットワーク制御が不可欠です。今年は DC/Cloud の新たな取り組みとして AI/ML 基盤向け高速ネットワークとサービス基盤を支える新技術の双方を評価し他サービスとの連携まで実証しました。本セッションでは、 SRv6 で実現したマルチテナント対応コンテナ基盤の構成と AI/ML 向けネットワークの設計・検証結果を解説します。

SPEAKER
DC・Cloud

ShowNet NOCチームメンバー
明石 邦夫(東京大学)

ShowNet NOCチームメンバー
織 学(レッドハット)

Avatar for ShowNet

ShowNet PRO

October 20, 2025
Tweet

More Decks by ShowNet

Transcript

  1. AI/ML DC ネットワーク ➢相互接続検証 ✓400/800G ✓RoCEv2 DCQCN/DLB • 輻輳制御と負荷分散 ✓Ultra

    Ethernet ➢ローカルLLMとRAG ✓Chatbotアプリによる運用支援 ✓AiSAQ • Disk-based なベクターDB インデックス ➢省電力光トランシーバ ✓800G DR8-LPO ✓400G VR4 4 fx2 cisco8011 qfx5240-3 nexus9332d-2 qfx5240-1 nexus9332d-1 qfx5240-2 nexus-dashboard ucs-c240-m7 r4900g7 cm9 nexus93600cd-gz dc808 Testcenter-b3 testcenter-a1 cyberflood-400 aresone-800g kai-dc-builder
  2. 出展社収容向けDHCP/DNSサービス ➢Kubernetes で SRv6 uSID ✓マルチテナントサービス ➢いろんな技術で相互接続 ✓ISIS: crpd ✓BGP:

    cilium ✓データプレーン: cilium ✓Kubernetes: OpenShift ➢DHCP/DNS サービスを展開 ✓VRF ごとにサービス 5 qfx5130 mx304 ne8000-f2c nexus93400ld-h1 pa7500 srx4700 s6805-54hf ax3600s ucs-c240-m5-1..3 ptx10002 Cisco8201-32fh xrd
  3. これまでの ShowNet のコンテナ基盤 7 Kuberneets Container Service 2018 Pivotal Container

    Service OpenShift Zabbix Next Stream Virtualization PG/PE 2019 OpenShift (Azure AKS、GCP GKE) www.interop.jp 2021 Vanilla k8s OpenShift Multicloud Management CSI Storage (KumoFS、Nimble) 2022 Vanilla k8s OpenShift Ezmetal Azure AKS Multicloud interconnect Zabbix 2023 VMware Tanzu OpenShift XRd、crpd、calisti、contrail、Prisma Cloud、Zabbix metallb、unbound、bind、kea-dhcp LookingGlass 2024 VMware Tanzu Nutanix Kubernetes Engine AKS on AzureStack HCI Vanilla k8s j-cnr、panoptica、Zabbix、Pola-PCE submariner、Skupper、metallb metallb、unbound、bind、kea-dhcp、speedtest
  4. これまで Kubernetes を使ってみて… ➢いいところ ✓サービスのデプロイ、ローリングアップデートが楽 ✓コンテナイメージを手元で試せる ✓(理想的には)現場では deploy するだけ ➢大変なところ

    ✓Kubernetes の運用方法に慣れる必要 • 特にトラブルシュートが大変 ✓Kubernetes は基本的に 1 つのネットワークしか使えない • ShowNet では vrf-global、vrf-private はサービスしないといけない • コンテナルータ、マルチクラスタで実現してきたが運用もそれなりに大変 ➢課題 ✓コンテナを大量に作ると管理が煩雑 • オブザーバビリティ • セキュリティ ✓マルチネットワーク 8
  5. Isovalent Cilium SRv6 Kubernetes Network Service ➢コンテナ基盤まで SRv6 uSID ✓VRF

    でマルチテナントサービスの実現 10 ucs-c240-m5-1..3 xrd crpd mx304 ne8000-f2c BGP で SID と VPN 経路を広告 ISIS で SID を広告 BGP で VPN 経路を広告 xrd の経路 cisco8201-32fh ptx10002
  6. Isovalent Cilium SRv6 Kubernetes Network Service ➢コンテナ基盤まで SRv6 uSID ✓VRF

    でマルチテナントサービスの実現 11 ucs-c240-m5-1..3 xrd crpd mx304 ne8000-f2c BGP で locator と VPN 経路を広告 ISIS で locator を広告 BGP で VPN 経路を広告 cilium の egress policy cisco8201-32fh ptx10002
  7. Cilium SRv6 egress policy ➢SRv6 の経路は Cilium が kubernetes の

    manifest に追加 ✓BGP update で vrf ごとに追加 12 BGP message Custom Record
  8. ShowNet 2025 DNS cache ➢kubernetes のサービスとして固定アドレスを広告 ✓vrf-global と vrf-private •

    DNS cache の Pod はそれぞれの VRF と紐づけ ✓pod のアドレスは kubernetes の IPAM で割当 ✓externalTrafficPolicy: Local でサービスから Pod へはノード内で転送 ➢DNS のクエリログは dnstap で集約、転送 ➢今年の DNS cache は DoT/DoH/DoQ ✓設定は Discovery of Designated Resolvers (DDR) ✓クライアントが対応していれば 自動的にアップグレード 13 unbound-private unbound-global unbound-global service unbound-private service unbound-private unbound-global unbound-private unbound-global ne8000-f2c mx304
  9. DNS over HTTPS/TLS/QUIC ➢DoH、DoT で 15% 程度 ✓DoH はグローバルアドレスからのみ ✓DoT

    はグローバル/プライベードアドレスの両方から ➢DDR の優先度は DoQ、DoT、DoH だが DoH が一番多い 14
  10. 400/800G DC ネットワーク ➢RoCEv2、Ultra Ethernet、AI サーバ収容ネットワーク ✓800G-DR8 (2DR4) ✓800G-DR8-LPO ✓400G-SR8

    ✓400G-SR4/VR4 ➢DC808 でテスターと接続 ✓RoCEv2 400Gx8 のコレクティブ通信 ✓800G負荷 16
  11. ➢Ultra Ethernet Transport Packet Forwarding ➢AI Workload KPI Testing ➢UEC

    & RoCEv2 coexistence ➢UET Packet Trimming (TBC) Ultra Ethernet 相互接続試験 17
  12. UET Packet Trimming ➢TestCenter B3 から送信したパケットを QFX5240 で triming 19

    UEC header 最初の 2byte が 00 → 01 1280 byte → 144 byte に trimming
  13. ➢Apstra によるネットワーク統合管理 ✓EVPN/VXLAN による L2 延伸 ✓BGP によるコンテナサービス ➢HCI 仮想化基盤

    ➢セキュアなコンテナ基盤 ✓Prisma Cloud • コンテナセキュリティ ✓N9324C-SE1U • DPU 搭載スイッチによるFW ➢SDWAN によるクラウド連携 サービスネットワーク/コンテナ、VM 基盤 21 cm7 fx2 cisco8011 nexus9336cfx2-2 nexus9336cfx2-1 qfx5120-3 qfx5120-2 qfx5120-1 n9324c-se1u r4900g6 dl385gen11-1..3 ts-2560 ucs-c240-m7-1..3 s6805-54ht nexus93400ld-h1 c8000v-1,2 sdpf catalyst8500-1 catalyst8500-2
  14. 仮想化基盤 ➢NutanixのHCI仮想化基盤 ✓Cisco UCS C280M7 3台のクラス タ • CPU: 288コア

    • メモリ: 18TB • ストレージ ⁃ HCI 1.9TB ➢ストレージサーバ 23TB ➢総VM数: 33台 22 qfx5120-3 qfx5120-2 qfx5120-1 r4900g6 ucs-c240-m7-1..3 cm7 iSCSI
  15. コンテナ基盤 23 ➢コンテナ基盤 x 4 ✓ノード構成 • ベアメタル3ノード x 2

    • ベアメタル1ノード x 1 • VM3ノード x 1 ➢総アプリケーション数(*): 308 ✓DHCP ✓DNS cache ✓rag-chatbot ✓speedtest ✓... (*) アプリケーション数: Deployment + DaemonSet + StatefulSet ucs-c240-m7 dl385gen11 -1..3 ucs-c240-m5 -1..3 ucs-c240-m7 -1..3 .noc .svc .dc
  16. セキュアなコンテナ基盤 ➢外からの防御: N9324C-SE1U ✓DPUを搭載し、FWとしても 使えるL3スイッチ ✓設定したルールにより パケットをフィルタリング ➢中からの防御: Prisma Cloud

    ✓コンプライアンス管理 ✓ワークロード脆弱性スキャン 25 n9324c-se1u dl385gen11-1..3 nexus93400ld-h1 ns1 twistlock ns2 unbound speedtest
  17. クラウド連携 ➢ShowNetとクラウド(SDPF)をSDWAN接続 ✓外形監視 ✓ログ転送 26 c8500 c8500 c8000v c8000v ShowNet

    Smart Data Platform cloud-logger seg3-0..2 cx-option- manager dns-collector frontail unbound-global kea-global unbound-private kea-private
  18. ➢RAG Chatbotアプリで運用効率化 ✓Cisco AI Pod (GPU搭載サーバ) ✓Kioxia CM9 (NVMe SSD)

    ✓Kioxia AiSAQ (ベクトル検索効率化 ライブラリ) ➢OpenAI互換のLLM Serving APIを 提供 ✓AI対応製品と連携 • F5 BIG-IP Next NVMe over TCP ローカルLLMを使った実験 qfx5240-3 nexus9332d-2 qfx5240-1 qfx5240-2 ucs-c240-m7 r4900g7 cm9 nexus93600cd-gz nexus9332d-1 rag-chatbot milvus-aisaq openshift-ai minio
  19. ローカルLLMを使った実験 28 rag-chatbot vllm minio-llm milvus minio-milvus Kioxia AiSAQ インデックス

    言語モデル RAGデータ NVMe over TCP接続 NVIDIA L40 ➢Chatbot: ✓Chainlit, LangChain ➢GPU: NVIDIA L40 (48GB) ➢RAG data: ~100MB ➢Model: Qwen3-32B-quantized.w4a16 ➢Embedding Model: Multilingual-E5-base