第31回MLOps 勉強会で発表を行った「ピクシブ株式会社における機械学習基盤」の資料になります。
ピクシブにおける機械学習基盤sugasuga1
View Slide
自己紹介2
sugasuga3所属:ピクシブ株式会社仕事:機械学習チームでエンジニアサブで採用・広報趣味:最近はトレーニング
ピクシブとは?4● 約16サービスイラスト・マンガ・小説の SNSクリエイター支援創作系メディアマンガ家支援マンガサービスEC3Dモデル作成イラスト勉強 ネット百科事典グッズ作成3Dモデル 運用広告マンガアプリドローツール画像変換小説サービス
機械学習チームの特徴5● 幅広いタスクをチームで遂行
今日話す内容6
主に3つ話します7
伝えたいメッセージ8
機械学習基盤の紹介9
GCPバッチ基盤10● GPU・CPUリソースを必要分だけ確保して学習を行う
GCPオンライン推論基盤11● オンプレ環境と繋いで推論結果を返す
機械学習基盤の作成に必要だった技術12
インフラ管理13● terraformを使って各種GCPリソースの作成ができる
インフラ管理14● 実際のterraformファイル(一部)
インフラ管理15● 作成するリソースたくさんある
GKE16● 概念理解が必要
GKE17● 実際のマニフェスト (kubernetes設定ファイル)
GKE18● 環境管理をDRYに行えるkustomize
認証周り(推論基盤の場合)19● IAP(リバースプロキシ) 使って特定のアクセスのみ許可
CI整備20● コーディングスタイル統一・テスト・型チェック○ python■ flake8/black/isort/pytest/mypy○ sql■ sqlfluff
CD(推論基盤の場合)21● デプロイの大体の流れ
CT(推論基盤の場合)22
その他23● ロギング● エラー通知(Sentry)・クラスタ監視(Datadog)● Docker Imageの軽量化 (マルチステージビルドやベースイメージの選定)● CIの設定や軽量化(認証周り/キャッシュ)● 料金削減(リソースのライフサイクル設定 & コンピューティングリソースの最適化)けっこう大変😇
作成・運用していく中で感じた基盤のデメリット24
最初の構築に時間がかかる25● 数ヶ月かかった
アルゴリズムに割く時間が減る26● トレードオフとなる
オンボーディングコストが高くなる27● ゆっくり習得していただく想定
作成・運用していく中で感じた基盤のメリット28
手戻りや調整が少ない29● 自チーム内でプロジェクトが完結する
やれることが増える30
やれることが増える31● 具体例
マネージドサービス起因の問題を踏みにくい32● マネージドサービスに頼りすぎていないので、自分達ではどうしようもないという問題を「少し」避けやすい
所感33いろんな仕組みの変遷を経て、GCP基盤を作るに至りました。最初の基盤は小さく作ることをおすすめします。
まとめ34
まとめ35
最後に36
弊社の取り組みについて37その他の事例など、社内ブログpixiv insideに掲載しております
積極採用中!!!38MLOps人材・機械学習アルゴリズム人材を募集しています● アルバイト● 新卒● 中途● 副業 (夜・休日での作業可)カジュアル面談も受け付けております!
ご清聴ありがとうございました39