Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
富士通研のAI基盤の話し/Talk about AI Infrastructure in Fu...
Search
Sponsored
·
Ship Features Fearlessly
Turn features on and off without deploys. Used by thousands of Ruby developers.
→
kobaski
August 01, 2019
Technology
740
1
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
富士通研のAI基盤の話し/Talk about AI Infrastructure in Fujitsu Labs
kobaski
August 01, 2019
Other Decks in Technology
See All in Technology
螺旋型キャリアの生存戦略 / kinoko-conf2026
rakus_dev
1
680
AIチャット検索改善の3週間
kworkdev
PRO
2
160
Kiroで書いた 設計書 が AI レビューの 採点基準 になる
ezaki
0
140
Oracle AI Database@AWS:サービス概要のご紹介
oracle4engineer
PRO
4
3k
徹底討論!ECS vs EKS!
daitak
3
1.3k
Bucharest Tech Week 2026 - Guardians of the Cloud-Native Galaxy
edeandrea
PRO
0
130
Lightning近況報告
kozy4324
0
220
自宅LLMの話
jacopen
1
700
現地で盛り上がった WWDC26 Keynote
zozotech
PRO
1
270
「勝手に広まる」人気 AI エージェントを爆速で作ろう!(AWS Summit Japan 2026講演資料)
minorun365
PRO
10
2.3k
AI-DLCを “そのまま導入しなかった”話 ~組織に合わせてアジャストした 私たちの実践共有~
hiroramos4
PRO
1
370
Agile and AI Redmine Japan 2026
hiranabe
3
430
Featured
See All Featured
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
360
30k
How People are Using Generative and Agentic AI to Supercharge Their Products, Projects, Services and Value Streams Today
helenjbeal
1
220
Winning Ecommerce Organic Search in an AI Era - #searchnstuff2025
aleyda
1
2k
Statistics for Hackers
jakevdp
799
230k
A brief & incomplete history of UX Design for the World Wide Web: 1989–2019
jct
2
400
Organizational Design Perspectives: An Ontology of Organizational Design Elements
kimpetersen
PRO
1
750
Ten Tips & Tricks for a 🌱 transition
stuffmc
0
140
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
12
1.2k
Large-scale JavaScript Application Architecture
addyosmani
515
110k
GraphQLの誤解/rethinking-graphql
sonatard
75
12k
AI Search: Where Are We & What Can We Do About It?
aleyda
0
7.6k
Effective software design: The role of men in debugging patriarchy in IT @ Voxxed Days AMS
baasie
0
420
Transcript
富士通研のAI基盤の話し こばし@MLPP the 3rd Copyright 2019 FUJITSU LABORATORIES LTD.
こばし ひろみち • 所属: 株式会社富士通研究所 人工知能研究所 • 主任研究員 • むかしは「kobaski」でコンペとか出ていました
• 東工大 首藤先生の日記 • http://www.shudo.net/diary/2010jun.html • http://www.shudo.net/diary/2011jun.html Copyright 2019 FUJITSU LABORATORIES LTD.
富士通研究所と富士通 Copyright 2019 FUJITSU LABORATORIES LTD. 富士通研究所 富士通 (本体) お金
技術 富士通専属研究開発受託会社
富士通研究所 人工知能研究所 • 黒魔術独自技術を生み出すのが至上命題 • 結構宣伝してる(つもりな)んですが、知らないですよね • でも頑張ってるんです Copyright 2019
FUJITSU LABORATORIES LTD. Deep Tensor Wide Learning Topological Data Analytics
するとどうなるかというと • 試行錯誤重要 Jupyter notebook • 本体に渡すの大変(ライブリの依存関係、受け取る人がAIモデルの専門 家とは限らない) Copyright 2019
FUJITSU LABORATORIES LTD. 「それ、使いたい」と言ってもすぐに出てこない 技術がどう使えるのかわからない 実行環境構築が手間 研究者 営業・SE・事業部 GAP
じゃあAI基盤を作ろうぜ Copyright 2019 FUJITSU LABORATORIES LTD. 個別環境構築なしにAI技術を使える環境 学習、推論環境を再現(モデルの精度が悪化した理由の検証) 試行錯誤の蓄積 すぐ使える豊富な独自技術事例
研究者 営業・SE・事業部 AI基盤 engage
AI研の中でもインフラ寄りの人が想定した AI基盤 Copyright 2019 FUJITSU LABORATORIES LTD. メトリクス収集 kubectl 学習、推論
AI研の中でもインフラ寄りの人が想定した AI基盤 Copyright 2019 FUJITSU LABORATORIES LTD. メトリクス収集 kubectl 学習、推論
しかし、ここにもまだ GAPがあった! • Kubernetesの学習コストはデータ サイエンティストにとって高すぎる • Job, Deployment … • Service, Ingress … • PV, PVC …
Kubernetesを隠蔽する独自WebAPIサーバ • 機械学習の学習・推論のためにKubernetesの機能を取捨選択して APIを整理 • 最終的にdockerコマンドを叩く場合とほとんど差がない使い方のパラメータ に落ち着いた • WebAPIサーバはマニフェストを生成してkubernetes client経由でコン
テナを生成 • KubernetesをアップグレードしてもWebAPIサーバがKubernetesのAPIの変更 を吸収するのでユーザはパラメータを変更する必要はない Copyright 2019 FUJITSU LABORATORIES LTD.
構築した学習・推論基盤 • クラスタ構成 • オンプレミス • k8s: v1.15.0(HA構成) • RAM:
560GB~1.5TB • GPU: • V100: 20~40枚 • P100: 8~80枚 • リソースが不足すれ ばNodeを追加して対 応 • 全体構成はCIで管理 Copyright 2019 FUJITSU LABORATORIES LTD. メトリクス収集 学習、推論 Web API
苦労話::そもそも使ってー • AI基盤を普及させる • AI基盤のハンズオンも開催した • 10回, のべ70人参加⇒17部署, 176ユーザが利用 •
Issueで情報共有 Copyright 2019 FUJITSU LABORATORIES LTD. 2 9 9 4 3 15 26 53 36 45 54 58 61 76 102 155 登録ユーザ数推移 新規登録ユーザ数 累計
苦労話::もっと登録してー • 事例を公開することで、再利用性 とナレッジ共有を目指す • 事例 = Dockerイメージ + Jupytenotebook
• AI研究者にDockerを覚えてもらっ た • 5回くらいハンズオンを開催 (2016年 頃 40人くらい) Copyright 2019 FUJITSU LABORATORIES LTD. サービス定義 Jupyter notebook
苦労話::k8sの障害事例 • 4台が一つの電源タップが死んだ(ヒューズが 飛んだ) • 4台死んだうち、冗長化したマスターが3台が 含まれていて、3台とも死んだ。これはまずい • とりあえず復旧しようとマスターの電源をいれ たやつが壊れていたやつで、さらに3台ころし
た • 結果、全16台(当時)のうち8台が死んで、分 散ファイルシステムを構成するサーバが含ま れていて、あぶなくデータにアクセスできなくな るところだった • 教訓 • 分散ファイルシステムとAIシステムは分けよう • 電源タップも分けよう • 電源冗長化しよう Copyright 2019 FUJITSU LABORATORIES LTD.
苦労話::コンテナ駆逐コンテナ • コンテナの優先順位 • Guaranteed (優先度が一番高い) • Burstable • BestEffort
(優先度が一番低い) • K8sではリソース指定でResource Limits(上限)とResource Request(下限)できるが、初期のAI基盤では下限だけ設定でき るようにしたり、それがBurstableになっていた。他の物はBest Effort。 • 何が起こったか • 400GB指定のBurstableコンテナが乗り込んでくると、そのノードのBest Effortコンテナを駆逐。 • でもそのBurstableコンテナはバグで数分後に落ちる • 機械学習だと結構あります。密行列想定ライブラリを使って巨大疎行列を 扱おうとした。メモリ使いすぎ。 • 再起動を繰り返す • 全てノードのコンテナを落とし始める。 • どうしたか • LimitsとRequestの両方を強制的に設定する(一致)ようにして駆逐コン テナの出現を抑制。 • Limitを超えると自身がk8sに殺される。 下限だけが指定されているとメモリをどんどん食っちゃう。 Copyright 2019 FUJITSU LABORATORIES LTD. Burstable (400GB) BestEffort BestEffort 600 GB Burstable (600GB) 600 GB Burstable (600GB) 600 GB
苦労話::GPUあるある • GPUを離さない。良いGPUを専有したがる。大して使っていないのに。 • Jupyter使っていると使っていないように見えても隙間時間だったりする。 • ジョブが終わっているのに結果を確認しない人がいる。 • これを消さないように。 •
リテラシの問題 • 根本解決には至っていない • 応急対処 • 明にGPUを指定しないとGPUノードにはいなかないように設定 • Graffanaで誰でも見れるようにしていて、緩い相互監視機能を提供 • 最新GPUのパラメータはデフォルトでは見せてない • ちなみに • 最近停電があったのですが、停電前後で利用率が結構違ったりするのは悲しい Copyright 2019 FUJITSU LABORATORIES LTD.
まとめ • 富士通研の試行錯誤用AI学習基盤 • 今後の課題 • スクリプトが埋没する • 細かいファイルのバックアップ(AI研究者システムは動いて当然。気がつい たら1ディレクトリにファイル大量)
• 本体への引き渡す • 基盤の運用の自動化 Copyright 2019 FUJITSU LABORATORIES LTD.