甘酸っぱいGCPレガシーApp Engine Python2からCloud Runへの移行の勘所

甘酸っぱいGCPレガシーApp Engine Python2からCloud Runへの移行の勘所 Ryusuke Kimura 株式会社ビザスク基盤チームシステムアーキテクト

自己紹介とサービス概要 01

高校卒業後、クライミングにハマりフリーターをしながら海外クライミングツアーに明け暮れる。その後、システムエンジニアとして様々な業務に従事。ここ五年ほどはインフラ領域を主戦場としている。現職ビザスクには 2020 年入社後、システムリプレースのプロダクトオーナー兼 SRE
に従事。木村竜介 (Ryusuke Kimura) 基盤チームシステムアーキテクト

▪ ビジネス領域に特化した日本最大級のナレッジプラットフォーム ▪ 「スポットコンサル = 1 時間インタビュー」という短時間取引を、テクノロ
ジー x 高度なオペレーションで高精度にマッチング ▪ 2020 年東京証券取引所マザーズ市場に上場会社説明知見と、挑戦をつなぐ Connecting Insights and Aspirations Across the Globe 日本最大級のナレッジプラットフォーム ※アドバイザー数において。 2021 年 5 月 31 日時点のアドバイザー数は約 15 万人

あらゆる業界 / 職域を網羅した 15 万人のデータベース約 120,000人約 30,000人

02 ビザスクのシステム歴史

Databases && Storage Application Server システムアーキテクチャは一貫して Google Cloud を採用
App Engine Datastore Cloud SQL Cloud Storage Cloud Tasks • 2012 年創業以来、Google Clooud をクラウドインフラとして採用 • Application Server はApp Engine 1st gen Python2 • Database は Cloud SQL, Datastore • Storage は Cloud Storage • 非同期処理は Cloud Tasks で制御 Google Cloud で Web Application を構築する場合の一般的な構成。

ナレッジプラットフォームという概念を広めるために様々な試行錯誤を行いながらサービスは拡充していった 2020 年マザーズに上場上場時点でメンバーは約 100 名 2012 年
12 月ビザスクβ版をリリース 2017 年頃 - サービス拡大期急速なサービス拡大に合わせて機能が増えていったが、 Application もインフラもツギハギだらけに 2015 年頃 BtoB 向けのシステムを本格稼働 BtoB サービスが軌道に乗り始め CtoC 向けの基盤システムに載せる 2013 年 10 月正式版リリース最初はCtoCのサービスとしてスタート

サービスの拡大でシステムは肥大化。アーキテクチャやインフラは取り残されたままだった上場後、ユーザーの増加や組織の増大で今後サービス、組織として守らなくてはいけないルール等もどんどん増えていくし、それを継続的に改善できる仕組みもエンジニア開発組織として中長期的に明白だったので、2020年秋頃からGCPの全面リアーキテクトを決断し、システムを順次入れ替えを行っています

04 システムリプレースでの大きな変更点

システムリプレースでの大きな変更点その 1 • 新しい Google Cloud プロジェクトに移行 ◦ 既存システムに影響しない形で全体の移
行を進めたかった • Python2 => Python3 へのアップグレード ◦ アップグレードに伴いアプリケーションの修正も必要 • AppEngine から Cloud Run の移行 ◦ Compute サービスの中で最も汎用的に利用ができそうかつ、サービスの拡充に未来がもてた為 • サービス分割 ◦ ドメインレイヤーから大きく 4 つのサービスに分割 ◦ リポジトリも分割 Cloud Run App Engine service.visasq.com Before After service-a.com Cloud Run Cloud Run Cloud Run service-b.com service-c.com service-d.com

システムリプレースでの大きな変更点その 2 • Terraform の全面採用 ◦ 部分的に採用していた Terraform を全面採用して、
インフラの属人化を防止 ◦ サービスチームもインフラを気軽に試せるように、開発者全員が持っている Sandbox GCP 環境に Visasq のサービスの複製ができるようにTerraform で調整 • GCE on Elasticsearch から Elastic Cloud の移行 ◦ 検索チームの新設に伴い、検索システムの改善速度を上げるため、SRE 側で管理していた GCE on Elasticsearch から検索チームで気軽に変更、管理がしやすい Elastic Cloud に変更 • IAM の再設計 ◦ Google Group によるグループ管理で簡素化 X Compute Engine Before After

05 分割されたサービスの Google Cloud の基本構成

分割されたサービスの基本構成 • Serverless のサービスを柔軟に変更できるように Serverless NEG で構成 ◦ 現状だと
All Cloud Run で基本構成 ◦ アプリケーションの都合で App Engineを使わざるを得ない場合を想定して、LB + Serverless NEG を挟んだ。 ◦ 全てのCloud Runは非公開 Cloud Run でセキュリティを担保 ◦ 一部のサービスでこの構成で切替後、経過をみているが、今の所この構成であんまり困っていない Cloud Run 分割されたサービスの基本構成例 service-a.com Frontend Service Cloud Run API Service Cloud Run Async Service Cloud Run Batch Service Cloud Tasks Cloud Load Balancing Serverless NEG Cloud Scheduler

セキュリティを担保するためにIAPの導入とURL マスクを利用した動作確認の容易性を実現 • IAPの導入でアプリケーションレイヤー手前で認証を挟みセキュリティを担保 ◦ 公開 Run を配置すると、LB経由とRun経
由の2系統でアクセス経路ができてしまい、セキュリティの担保がしづらいのでLB レイヤ以外のアクセスを遮断 ◦ 一方で、AppEngineで利用していたバージョンをデプロイ後のトラフィック切替前の動作検証の容易性を実現するためにURL マスクを利用してLBレイヤでのトラフィック切替前のルーティングを実現 Cloud Run Services 分割されたサービスの基本構成例 service-a.com Cloud Run Revision (traﬃc 0%) Cloud Load Balancing Identity-Aware Proxy Cloud Run Revision (traﬃc 100 %) https://<tag>---<service>.example.com で動的にルーティング

06 サービスの基本構成で実際によかった所、悪かった所

• Cloud Load Balancing を挟む事でネットワークレイヤーの変更がしやすくなった。 • Serverless NEG
があると、複数のサーバーレスサービスをつなげるので、サービスの中央管理がしやすくなるし、選択肢が広がる • フルマネージド Cloud Run を選択したが、Anthos の採用は見送った。なるべくインフラの管理は Google Cloud に任せて管理するものを減らしたかったし、学習コストをあまりかけたくなかった • 現状スパイクが発生しやすい状況で、 Cloud Run に乗り換えたら、CPU とメモリが高スペックを選択できるのが嬉しいサービスの基本構成で良かった点

Cloud Run になると App Engine がやってくれていたものをある程度自前で管理する必要がある • HTTP サーバー
(gunicorn) の管理 • yaml 定義して Deploy から、自前でリソースを作成、調整が必要 ◦ Cloud Tasks ◦ Cloud Scheduler, etc.. App Engine は Cloud Run よりも制約があるが、スケーリングやレスポンス速度ってやっぱ早いな。って思った。 • 現状コールドスタートの最適化がチューニングしきれてなく、一旦CPU を大きめにしたり、concurrency を調整して、なるべくスケーリングをさせないようにしている • コールドスタートが予想以上に立ち上がりが遅かった ◦ アプリケーション固有の問題かもしれないサービスの基本構成で悪かった点

07 システムリプレースの戦略について

knowledge　 Database Aチームシステムリプレースの戦略 • Repository, Deploy, Application Server はチーム単位で用意
• DB は既存のまま • API 単位で既存システムの Endpoint を変更して切替え • View も機能単位で入替 • 一部の機能はゼロベースで作り直す (予定) Repository Cloud Build Cloud Run Bチーム Repository Cloud Build Cloud Run Clients 既存システム App Engine API Call

08 システムリプレースをしてよかった所、悪かった所

新しい環境を用意したことで過去のしがらみをなるべく気にせず今のベストエフォートを考えることができた • 現実を直視すると、良い意味でも悪い意味でも妥協してしまいがちだけども、まっさらな環境を用意することで新鮮な状態で時代の進化にある程度追いつける状態に持ってこれた各個人の Google Cloud Sandbox
で環境再現をほぼ完璧にしたのでスクラップ & ビルドが簡単にできるようになった • All Terraform でかつ、Production, Staging 環境でしか試せないという状況を徹底的に排除した • クラウドリソースの破棄と再生成の再現率が高いとクラウドリソースの変更に対しての億劫さがなくなり攻めるインフラができる GAE 1st gen Python2 から Cloud Run Python3 はすんなりいけた • 1st gen 固有の処理の修正を行えばすんなりいけるはず。システムリプレースで良かった点

GAE が All in One なので SRE と Application チームでの対立が起きやす
かった • いままで Application 側で管理してた所でインフラ視点で良くない所を積極介入したので、いわゆる DevOps の対立が発生しやすかった。 ◦ どちらがやる・やらない問題、互いの利益が相反する構成等 Python2 から Python3 に移行するだけよりもはるかにリソースやコストがかかった(ている) • 3年単位でシステム移行のメリット・デメリットをコスト計算しないと費用対効果がでてこないので、Who, What, Why の部分の詰めや、関係各所の調整が本当に難しかった • これから全エンジニアのリソースの 2- 3 割程度をシステムリプレースに継続的に割く。という意思決定は CEO の理解がなければ難しかったシステムリプレースで悪かった点

Web Application で構成困ったら LB + Serverless NEG + Cloud Run
で組めば大体 OK だったし選択幅も広がるよ

ビザスクでは、エンジニアとして働きたい方を募集しています。ご興味のある方は「ビザスクエンジニア採用」で是非 Google 検索エンジンから検索してみてください! https://visasq.co.jp/engineer-recruitment Google Cloud
で継続的な攻める改善に共感を持った方は是非連絡を!!

Thank you.

甘酸っぱいGCPレガシーApp Engine Python2からCloud Runへの移行の勘所

甘酸っぱいGCPレガシーApp Engine Python2からCloud Runへの移行の勘所

ryurock

More Decks by ryurock

Other Decks in Programming

Featured

Transcript