富士通研のAI基盤の話し/Talk about AI Infrastructure in Fujitsu Labs

Slide 1

Slide 1 text

Slide 2

Slide 2 text

こばしひろみち • 所属: 株式会社富士通研究所人工知能研究所 • 主任研究員 • むかしは「kobaski」でコンペとか出ていました • 東工大首藤先生の日記 • http://www.shudo.net/diary/2010jun.html • http://www.shudo.net/diary/2011jun.html Copyright 2019 FUJITSU LABORATORIES LTD.

Slide 3

Slide 3 text

Slide 4

Slide 4 text

Slide 5

Slide 5 text

Slide 6

Slide 6 text

Slide 7

Slide 7 text

Slide 8

Slide 8 text

Slide 9

Slide 9 text

Kubernetesを隠蔽する独自WebAPIサーバ • 機械学習の学習・推論のためにKubernetesの機能を取捨選択して APIを整理 • 最終的にdockerコマンドを叩く場合とほとんど差がない使い方のパラメータに落ち着いた • WebAPIサーバはマニフェストを生成してkubernetes client経由でコンテナを生成 • KubernetesをアップグレードしてもWebAPIサーバがKubernetesのAPIの変更を吸収するのでユーザはパラメータを変更する必要はない Copyright 2019 FUJITSU LABORATORIES LTD.

Slide 10

Slide 10 text

構築した学習・推論基盤 • クラスタ構成 • オンプレミス • k8s: v1.15.0(HA構成) • RAM: 560GB～1.5TB • GPU: • V100: 20～40枚 • P100: 8～80枚 • リソースが不足すればNodeを追加して対応 • 全体構成はCIで管理 Copyright 2019 FUJITSU LABORATORIES LTD. メトリクス収集学習、推論 Web API

Slide 11

Slide 11 text

Slide 12

Slide 12 text

Slide 13

Slide 13 text

苦労話::k8sの障害事例 • 4台が一つの電源タップが死んだ（ヒューズが飛んだ） • 4台死んだうち、冗長化したマスターが３台が含まれていて、3台とも死んだ。これはまずい • とりあえず復旧しようとマスターの電源をいれたやつが壊れていたやつで、さらに３台ころした • 結果、全16台（当時）のうち8台が死んで、分散ファイルシステムを構成するサーバが含まれていて、あぶなくデータにアクセスできなくなるところだった • 教訓 • 分散ファイルシステムとAIシステムは分けよう • 電源タップも分けよう • 電源冗長化しよう Copyright 2019 FUJITSU LABORATORIES LTD.

Slide 14

Slide 14 text

苦労話::コンテナ駆逐コンテナ • コンテナの優先順位 • Guaranteed (優先度が一番高い) • Burstable • BestEffort (優先度が一番低い) • K8sではリソース指定でResource Limits(上限)とResource Request(下限)できるが、初期のAI基盤では下限だけ設定できるようにしたり、それがBurstableになっていた。他の物はBest Effort。 • 何が起こったか • 400GB指定のBurstableコンテナが乗り込んでくると、そのノードのBest Effortコンテナを駆逐。 • でもそのBurstableコンテナはバグで数分後に落ちる • 機械学習だと結構あります。密行列想定ライブラリを使って巨大疎行列を扱おうとした。メモリ使いすぎ。 • 再起動を繰り返す • 全てノードのコンテナを落とし始める。 • どうしたか • LimitsとRequestの両方を強制的に設定する(一致)ようにして駆逐コンテナの出現を抑制。 • Limitを超えると自身がk8sに殺される。下限だけが指定されているとメモリをどんどん食っちゃう。 Copyright 2019 FUJITSU LABORATORIES LTD. Burstable (400GB) BestEffort BestEffort 600 GB Burstable (600GB) 600 GB Burstable (600GB) 600 GB

Slide 15

Slide 15 text

苦労話::GPUあるある • GPUを離さない。良いGPUを専有したがる。大して使っていないのに。 • Jupyter使っていると使っていないように見えても隙間時間だったりする。 • ジョブが終わっているのに結果を確認しない人がいる。 • これを消さないように。 • リテラシの問題 • 根本解決には至っていない • 応急対処 • 明にGPUを指定しないとGPUノードにはいなかないように設定 • Graffanaで誰でも見れるようにしていて、緩い相互監視機能を提供 • 最新GPUのパラメータはデフォルトでは見せてない • ちなみに • 最近停電があったのですが、停電前後で利用率が結構違ったりするのは悲しい Copyright 2019 FUJITSU LABORATORIES LTD.

Slide 16

Slide 16 text