Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ピクシブにおける機械学習基盤

 ピクシブにおける機械学習基盤

第31回MLOps 勉強会で発表を行った「ピクシブ株式会社における機械学習基盤」の資料になります。

sugakoji

June 13, 2023
Tweet

Other Decks in Technology

Transcript

  1. ピクシブにおける
    機械学習基盤
    sugasuga
    1

    View Slide

  2. 自己紹介
    2

    View Slide

  3. sugasuga
    3
    所属:ピクシブ株式会社
    仕事:機械学習チームでエンジニア
    サブで採用・広報
    趣味:最近はトレーニング

    View Slide

  4. ピクシブとは?
    4
    ● 約16サービス
    イラスト・マンガ・小説の SNS
    クリエイター支援
    創作系メディア
    マンガ家支援
    マンガサービス
    EC
    3Dモデル作成
    イラスト勉強 ネット百科事典
    グッズ作成
    3Dモデル 運用広告
    マンガアプリ
    ドローツール
    画像変換
    小説サービス

    View Slide

  5. 機械学習チームの特徴
    5
    ● 幅広いタスクをチームで遂行

    View Slide

  6. 今日話す内容
    6

    View Slide

  7. 主に3つ話します
    7

    View Slide

  8. 伝えたいメッセージ
    8

    View Slide

  9. 機械学習基盤の紹介
    9

    View Slide

  10. GCPバッチ基盤
    10
    ● GPU・CPUリソースを必要分だけ確保して学習を行う

    View Slide

  11. GCPオンライン推論基盤
    11
    ● オンプレ環境と繋いで推論結果を返す

    View Slide

  12. 機械学習基盤の作成に
    必要だった技術
    12

    View Slide

  13. インフラ管理
    13
    ● terraformを使って各種GCPリソースの作成ができる

    View Slide

  14. インフラ管理
    14
    ● 実際のterraformファイル(一部)

    View Slide

  15. インフラ管理
    15
    ● 作成するリソースたくさんある

    View Slide

  16. GKE
    16
    ● 概念理解が必要

    View Slide

  17. GKE
    17
    ● 実際のマニフェスト (kubernetes設定ファイル)

    View Slide

  18. GKE
    18
    ● 環境管理をDRYに行えるkustomize

    View Slide

  19. 認証周り(推論基盤の場合)
    19
    ● IAP(リバースプロキシ) 使って特定のアクセスのみ許可

    View Slide

  20. CI整備
    20
    ● コーディングスタイル統一・テスト・型チェック
    ○ python
    ■ flake8/black/isort/pytest/mypy
    ○ sql
    ■ sqlfluff

    View Slide

  21. CD(推論基盤の場合)
    21
    ● デプロイの大体の流れ

    View Slide

  22. CT(推論基盤の場合)
    22

    View Slide

  23. その他
    23
    ● ロギング
    ● エラー通知(Sentry)・クラスタ監視(Datadog)
    ● Docker Imageの軽量化 (マルチステージビルドやベースイメージの選定

    ● CIの設定や軽量化(認証周り/キャッシュ)
    ● 料金削減(リソースのライフサイクル設定 & コンピューティングリソースの最適化

    けっこう大変😇

    View Slide

  24. 作成・運用していく中で感じた基盤のデ
    メリット
    24

    View Slide

  25. 最初の構築に時間がかかる
    25
    ● 数ヶ月かかった

    View Slide

  26. アルゴリズムに割く時間が減る
    26
    ● トレードオフとなる

    View Slide

  27. オンボーディングコストが高くなる
    27
    ● ゆっくり習得していただく想定

    View Slide

  28. 作成・運用していく中で感じた
    基盤のメリット
    28

    View Slide

  29. 手戻りや調整が少ない
    29
    ● 自チーム内でプロジェクトが完結する

    View Slide

  30. やれることが増える
    30

    View Slide

  31. やれることが増える
    31
    ● 具体例

    View Slide

  32. マネージドサービス起因の問題を踏みにくい
    32
    ● マネージドサービスに頼りすぎていないので、自分達ではどうしようも
    ないという問題を「少し」避けやすい

    View Slide

  33. 所感
    33
    いろんな仕組みの変遷を経て、GCP基盤を作るに至りました。
    最初の基盤は小さく作ることをおすすめします。

    View Slide

  34. まとめ
    34

    View Slide

  35. まとめ
    35

    View Slide

  36. 最後に
    36

    View Slide

  37. 弊社の取り組みについて
    37
    その他の事例など、社内ブログpixiv insideに掲載しております

    View Slide

  38. 積極採用中!!!
    38
    MLOps人材・機械学習アルゴリズム人材を募集しています
    ● アルバイト
    ● 新卒
    ● 中途
    ● 副業 (夜・休日での作業可)
    カジュアル面談も受け付けております!

    View Slide

  39. ご清聴
    ありがとうございました
    39

    View Slide