ある機械学習システムをAWSからGCP/GKEに移行した話 / Machine Learning System Migration from AWS to GKE

ある機械学習システムを AWS からGCP/GKE に移行した話 Data Pipeline Casual Talk Vol.4 -
2019/09/30 @yukinagae

TL;DR AWS で動いている機械学習システムをGCP/GKE 化した（まずAPI 部分のみ） GCP/GKE 化の理由リリースサイクルの高速化インフラコスト削減
( リソース共有) 既存システムも徐々に移行していく予定新システムは最初からGCP/GKE で構築 2

自己紹介永江悠紀 @yukinagae エムスリー株式会社ソフトウェアエンジニアデータエンジニア寄り。最近はレコメンド改善などもやる元々Java/Scala でサーバサイドの開発をやっていた最近はGo
+ Python を触ることが多いクラウドはGCP 担当（※AWS わからないだけ） 3

システム移行の背景エムスリーでは多くのシステムをオンプレもしくはAWS で構築している AI チームではすでに複数の機械学習システムを開発・リリース済み（AWS ） ※詳しくは以下のスライドが詳しいです: エムスリーにおける機械学習活用事例と開発の効率化
https://speakerdeck.com/nishiba/emusuriniokeru-ji- jie-xue-xi-huo-yong-shi-li-tokai-fa-falsexiao-lu-hua 4

多数のマイクロサービス 2 年間で20 をこえる機械学習システムをリリース現在も増加中すごいね！(´∀｀) 5

ポイント 1. システム数が多い 6

今回の移行対象のシステム Cantor 記事などのコンテンツの関連度（類似度）を計算するシステム ※おまけ: システム名はドイツの数学者のGeorg Cantor が由来 7

既存システム構成（図） 8

既存システムの課題① 現状のシステム構成だと、GCP/BigQuery → AWS というクラウドをまたいだ構成になってしまっている 9

ポイント 2. BigQuery とAWS の混在 10

既存システムの課題② Cantor というシステム構成特有の課題: Lambda でもろもろ問題があった 15 分に一度バックエンドのECS が停止されてしまう（確率的にタイムアウトが発生） 11

既存システムの課題③（※改善点）簡単・頻繁にリリースしたいすぐリリースしたい（※カナリアリリース etc ）バグなどの際すぐ以前のバージョンに戻したいマイクロサービスの粒度のシステムが増えているので各環境を用意するのは大変運用や管理が面倒インフラコストがかさむ
12

ポイント 3. どんどんリリースしたい 4. 運用・管理を楽にしたい 5. インフラコスト削減したい 13

新システム構成の選択肢 AWS なら EC2 ECS EKS GCP なら Cloud Run
GAE （ ex ） GCE GKE 14

技術選定のポイントいろいろインフラコスト運用の手間クラウドベンダーのサービスの成熟度やマイルストーンワークロードの特性必要なリソース要件チーム体制（例: 人数 /
スキル / 学習コスト） 15

ポイントを振り返る 1. サービス数（API ）が多い 2. BigQuery とAWS の混在 3. どんどんリリースしたい
4. 運用・管理を楽にしたい 5. インフラコスト削減したい 16

GKE でいい感じに作れるのでは？ ( ｀・ω ・´) 17

想定するメリットコスト削減複数サービスをGKE で構築しリソース最適化メンテナンスコストも削減（されるはず）リリースの高速化オーダーメイドから量産体制へ terraform k8s 可用性も向上
全部GCP にできてBigQuery もにっこり(´∀｀) 18

移行方針: どうやって移行するか？ 1. まずはAPI 部分（システムの一部）からの移行 2. 段階的にすべてを移行していくまずはAPI 部分からの移行を実施影響範囲を小さくしたい
API だけなら最悪どうにでもなるもともとのAWS ヘの切り戻しも容易機械学習部分をいきなり移行してデグレったら嫌だよね(/ ･ω ･)/ 汗 19

移行後の構成（API 部分のみ） 20

GKE からCloud SQL に接続 Cloud SQL Proxy で別GCP プロジェクトのDB に接
続する構成（マイクロサービス的な構成）原理的にPrivate IP で直で接続するより当然遅い Cloud SQL Proxy にした場合にどれくらい遅くなるかは簡易的に検証（※当然実環境とは異なるが） medium 記事: https://medium.com/google-cloud- jp/eb1fbd049d56 github: https://github.com/yukinagae/latency- comparison-of-cloud-sql-connection 21

移行後の理想（全部GCP/GKE 化） 22

今後の移行方針既存サービスのGCP/GKE 化まずは今回のプロジェクトで導入実績を作り、運用経験を積む他サービスも徐々に移行していく（※移行すればするほど、インフラ・運用コストを削減できる）新規サービスは最初からGCP/GKE で構築
次に発表する katio2 さんがそのサービスの話をしてくれると思います( ｀・ω ・´) 23

ありがとうございました！ (´∀｀) 24

（おまけ）GKE 移行の辛み k8s/GKE 周りのノウハウや経験がないので手探りそもそもk8s 自体の学習コストが高い k8s の公式ドキュメントそのままだと動かない GKE はだいたいβ
版 25

（おまけ）GCP での運用・監視 datadog はちょっと辛い既存のAWS システムではdatadog をdashboard で使ってたが、GCP で使うのは辛い
PubSub 経由でdatadog にpush する仕組みを毎回作らないといけない GCP プロジェクト毎に認証をしないといけないの大変 datadog APM の導入はめちゃくちゃ楽しかし、もちろんcontainer 周りの指標しか取得できない 26

（おまけ）現状の運用・監視方法 Stackdriver Monitoring 使う理由 datadog 用に追加のintegration 作業が不要複数プロジェクトを一つのworkspace にまとめれば、GKE
やCloud SQL のプロジェクトが別でも1 つのdashboard で監視できる alert policy やヘルスチェックもそのまま作れる（※現状はterraform 使わず、あえてGUI で手動作成している。理由としては、監視しながらちょこちょこ値を調整したいから） 27

（おまけ）現状の運用・監視方法結論 GCP の場合にはStackdriver のみ使うことにした Stackdriver monitoring での監視 alert policy
の作成 + slack 通知 dashboard の作成 Stackdriver Trace でのパフォーマンスチェック opencensus 入れた Stackdriver for python はα 版。。。( ｀・ω ・´) 汗 28

おわり 29

ある機械学習システムをAWSからGCP/GKEに移行した話 / Machine Learnin...

ある機械学習システムをAWSからGCP/GKEに移行した話 / Machine Learning System Migration from AWS to GKE

yukinagae

More Decks by yukinagae

Other Decks in Technology

Featured

Transcript

ある機械学習システムを AWS からGCP/GKE に移行した話 Data Pipeline Casual Talk Vol.4 -

TL;DR AWS で動いている機械学習システムをGCP/GKE 化した（まずAPI 部分のみ） GCP/GKE 化の理由リリースサイクルの高速化インフラコスト削減

自己紹介永江悠紀 @yukinagae エムスリー株式会社ソフトウェアエンジニアデータエンジニア寄り。最近はレコメンド改善などもやる元々Java/Scala でサーバサイドの開発をやっていた最近はGo

多数のマイクロサービス 2 年間で20 をこえる機械学習システムをリリース現在も増加中すごいね！(´∀｀) 5

ポイント 1. システム数が多い 6

今回の移行対象のシステム Cantor 記事などのコンテンツの関連度（類似度）を計算するシステム ※おまけ: システム名はドイツの数学者のGeorg Cantor が由来 7

既存システム構成（図） 8

既存システムの課題① 現状のシステム構成だと、GCP/BigQuery → AWS というクラウドをまたいだ構成になってしまっている 9

ポイント 2. BigQuery とAWS の混在 10

既存システムの課題② Cantor というシステム構成特有の課題: Lambda でもろもろ問題があった 15 分に一度バックエンドのECS が停止されてしまう（確率的にタイムアウトが発生） 11

ポイント 3. どんどんリリースしたい 4. 運用・管理を楽にしたい 5. インフラコスト削減したい 13

新システム構成の選択肢 AWS なら EC2 ECS EKS GCP なら Cloud Run

技術選定のポイントいろいろインフラコスト運用の手間クラウドベンダーのサービスの成熟度やマイルストーンワークロードの特性必要なリソース要件チーム体制（例: 人数 /

ポイントを振り返る 1. サービス数（API ）が多い 2. BigQuery とAWS の混在 3. どんどんリリースしたい

GKE でいい感じに作れるのでは？ ( ｀・ω ・´) 17

想定するメリットコスト削減複数サービスをGKE で構築しリソース最適化メンテナンスコストも削減（されるはず）リリースの高速化オーダーメイドから量産体制へ terraform k8s 可用性も向上

移行方針: どうやって移行するか？ 1. まずはAPI 部分（システムの一部）からの移行 2. 段階的にすべてを移行していくまずはAPI 部分からの移行を実施影響範囲を小さくしたい

移行後の構成（API 部分のみ） 20

GKE からCloud SQL に接続 Cloud SQL Proxy で別GCP プロジェクトのDB に接

移行後の理想（全部GCP/GKE 化） 22

ありがとうございました！ (´∀｀) 24

（おまけ）GKE 移行の辛み k8s/GKE 周りのノウハウや経験がないので手探りそもそもk8s 自体の学習コストが高い k8s の公式ドキュメントそのままだと動かない GKE はだいたいβ

（おまけ）GCP での運用・監視 datadog はちょっと辛い既存のAWS システムではdatadog をdashboard で使ってたが、GCP で使うのは辛い

（おまけ）現状の運用・監視方法 Stackdriver Monitoring 使う理由 datadog 用に追加のintegration 作業が不要複数プロジェクトを一つのworkspace にまとめれば、GKE

（おまけ）現状の運用・監視方法結論 GCP の場合にはStackdriver のみ使うことにした Stackdriver monitoring での監視 alert policy

おわり 29