クラウドネイティブ会議 :5/14 17:40~ 雪国から始まるクラウドネイティブ実践 – OpenTelemetryで繋ぐ環境センサー、GPU、そしてコミュニティ
「またコンテナの話、しようか」——2018年に『コンテナ・ベース・オーケストレーション』(翔泳社)を共著してから8年、一人はIBMでObservabilityを、もう一人は雪国でGPUデータセンターを作っていた。2025年に再会した2人は、本物のコンテナ(型データセンター)の中にいた。
新潟県湯沢町のコンテナ型データセンターにNVIDIA H100(空冷)、H200・B200各8基(液冷)を収容し、Rancher K8sでGPUクラスターを構成。地下水(井水)による液冷で業界最高水準のエネルギー効率を目指します。
NVIDIA DCGMとOpenTelemetryを使ってGPUの可視化はInstanaで本番運用稼働中。Schneider Electric in-row冷却のSNMP MIBから風量を取得しGPU温度とOpenTelemetry Collectorで繋ぐことに挑戦中。液冷はPoC準備中。実績と途中経過を正直に共有。DCGM・SNMP×OTelの設計判断と失敗を持ち帰れます。