Kubernetesで作るAIプラットフォーム

Slide 1

Slide 1 text

Kubernetes で作る AI プラットフォーム Oracle Cloud Hangout Cafe - Season 10 #1 古⼿川忠久 2025年6⽉11⽇⽇本オラクル株式会社

Slide 37

Slide 37 text

NCCL トポロジー情報ダンプファイル (topo_dump.xml) の内容 VM.GPU3.2 の場合 (GPU: V100 x2) 37 Copyright © 2025, Oracle and/or its affiliates Chat GPTに解読してもらいました… •システムのCPU情報を表しています。 •host_hash: ホストを⼀意に識別するハッシュ値。 •numaid="-1": NUMAノードID（-1は指定されていない、または⾮対応）。 •arch="x86_64": 64ビットアーキテクチャ。 •vendor="GenuineIntel": インテル製CPU。 •familyid="6" modelid="85": CPUのファミリー・モデルID（Skylakeなどを識別可能）。 •PCIデバイス情報。ここではGPUが2枚搭載されています。（バスID 0000:00:04.0 と 0000:00:05.0） •class="0x030200": デバイスクラス（GPU = 3Dコントローラ）。 •vendor="0x10de": NVIDIA製（NVIDIAのベンダーID）。 •device="0x1db1": 特定GPUのデバイスID（例: Tesla V100など）。 •link_speed="8.0 GT/s PCIe": PCI Expressのリンク速度。 •link_width="0": リンク幅が0（正確な幅が未設定または未取得）。 •GPUデバイスに関する情報。 •dev="0" / dev="1": GPUの識別番号。 •sm="70": SMアーキテクチャ（Volta世代など）。 •rank="0" / rank="1": GPUのランク/順番。 •gdr="1": GDR（GPU Direct RDMA）が有効。 •GPU間の⾼速相互接続（NVLink）の情報。 •target="0000:00:05.0" / target="0000:00:04.0": 接続先GPU。 •count="1": 接続数（1本のNVLinkで接続）。 •tclass="0x030200": 相⼿もGPUであることを⽰す。 → つまり、GPU0 と GPU1 は相互に NVLink 接続されていることがわかります。 •ネットワークインターフェースカード（NIC）の情報。 •name="eth0": デバイス名。 •speed="10000": 10Gbpsの速度。 •port="0": ポート番号。 •latency="0.000000": レイテンシ（この値は未取得か無視されている）。 •guid="0x0": グローバル⼀意ID（未設定）。 •maxconn="65536": 最⼤接続数。 •gdr="0": GPU Direct RDMAはNICに対して無効。

Slide 1

Slide 1 text

Slide 2

Slide 2 text

Slide 3

Slide 3 text

Slide 4

Slide 4 text

Slide 5

Slide 5 text

Slide 6

Slide 6 text

Slide 7

Slide 7 text

Slide 8

Slide 8 text

Slide 9

Slide 9 text

Slide 10

Slide 10 text

Slide 11

Slide 11 text

Slide 12

Slide 12 text

Slide 13

Slide 13 text

Slide 14

Slide 14 text

Slide 15

Slide 15 text

Slide 16

Slide 16 text

Slide 17

Slide 17 text

Slide 18

Slide 18 text

Slide 19

Slide 19 text

Slide 20

Slide 20 text

Slide 21

Slide 21 text

Slide 22

Slide 22 text

Slide 23

Slide 23 text

Slide 24

Slide 24 text

Slide 25

Slide 25 text

Slide 26

Slide 26 text

Slide 27

Slide 27 text

Slide 28

Slide 28 text

Slide 29

Slide 29 text

Slide 30

Slide 30 text

Slide 31

Slide 31 text

Slide 32

Slide 32 text

Slide 33

Slide 33 text

Slide 34

Slide 34 text

Slide 35

Slide 35 text

Slide 36

Slide 36 text

Slide 37

Slide 37 text

Slide 38

Slide 38 text

Slide 39

Slide 39 text

Slide 40

Slide 40 text