私たちがGCPを使い始めた本当の理由

私たちがGCPを使い始めた本当理由 2019年11月18日堀口真司グリー株式会社開発本部インフラストラクチャ部ディベロップメントオペレーションズグループ
リードエンジニア

堀口真司グリー株式会社開発本部インフラストラクチャ部 • 家庭用普通ゲーム（ 1年）
→ 国内MMORPG などオンラインゲーム開発、支援、販売（５年） → 主にアーケードゲーム基盤開発（２年） → グリー８年目 • クラウド系やゲーム系勉強会など多数講演 • 主にインフラ運用効率改善（データベース、クラウド系全部） • 社内で AWS 2014～ GCP 2017～ • アプリ開発・設計お手伝い

もくじ •開発開始まで社内事情 •GCP に期待されること •結果や課題など •これからこと 30分だと思ってたら20分だった

じめに •会社方針や組織全体認識でないこと •AWS より優れているとか、イケてないとか、そういう比較
でないこと

• 消滅都市スピンオフ • アニメもやってたよ！ • ストーリー重視 • ターン制バトル • そこそこ
規模ゲームで初めて GCP

OnPre GCP 2014 2019 AWS AFTERLOST 消滅都市消滅都市0. 開発や運営メンバー同じ。
効率よく運用することが求められた

開発開始まで社内事情

VM 中心クラウド環境理想的な運用になりつつあった！ •Chef Cookbook によって符号化されたサーバ環境 • インフラ担当、セキュリティ担当、モニタリング担当、ゲーム開発者それぞれ
チームが独立してコミットできる •CloudFormation や多数運用ツールを使って簡略化 •マネージドサービスを多用し自動復旧や Pager 削減 •大量メトリクスを収集して最適化や問題解決高化 •ゲーム開発開始から、サービスクローズまで手順化 •ゲームでありきたりな LAMP 環境

Backend DB Replica Auto Scale … commit VM Image …
DB Master Launch Admin Serverless Asset ・Pager ・Chat ・Mail ・Logging ・Monitoring DB Replica … DB Master ・Redis ・Memcache App Operator Developer Deploy build CDN LoadBalancer Serverless

VM を中心とした環境課題 •僅かな修正で VM イメージ作り直しと入れ替えに手間がかかりデプロイ手法氾濫、学習コスト増加 •
Packer, Capistrano, s3 sync, Code Deploy •管理コストを抑えるために VM イメージ共通化 • 多様性低下、開発者裁量低下、基盤検証コスト増加 •スケールアウトに時間がかかるで余裕を持ったキャパシティ設計でコスト増加 •VM を支えるためクラウドサービスへ依存

GCP に期待されること

•ゲームでない別件で柔軟性とスピード感重視で GAE と GKE を選択した •雑ながらも結果的に上手くいき、ゲー
ムで活用も視野にいった •ビルドフローやモニタリング、データ分析まで一通りできた • VM 時代課題ほとんどない • 2018/2月時点人気手法とりいれた • App Engine (Go) 2000 req/sec ～ • Kubernetes Engine 1000 req/sec ～

Kubernetes cluster GKE Dashboard Ingress HTTPS GKE Support GKE Channel
GKE Redis GKE Web GKE Certiﬁcate Manager Cloud DNS reality.wrightﬂyer.net Identity Aware Proxy GKE Jenkins GKE Web-stg GKE Collab GKE Comment GKE Video GKE Comment Monitor GKE Comment Summarizer GKE PHPMyAdmin User Cloud SQL Streaming Cloud Datastore CloudFront Lambda App Engine GKE ワークロード 40種類ぐらい。 200 Pods ～。動画配信・コミュニティプラットフォームなでゲームよりだいぶ複雑なもを運用して慣れてきた。

ゲームでもコンテナを使いたかった •VM イメージ構築期待通りに動作していたし、既存手法でも大きな不満なかった •VM で Immutable
を目指すとスピード感が落ちる。どちらかトレードオフになりがち •インフラ部が VM イメージを管理するより、開発チームに任せて裁量と責任を寄せたい。でもノウハウ共有したい •AFTERLOST 消滅都市案件で想定規模も控えめで、開発チームも前向きに GKE を検討

Kubernetes Engine で運用したかった •Kubernetes を運用したいわけでない • Kubernetes が問題を起こしたときに対処しにくい（できない） •
よってマネージド Kubernetes 以外ありえない。独自 CRD も消極的 • Google Origin だし GKE 相性良さそうな気がした • svc 仕様変更で iptables が壊れたり、 ingress-gce バグ踏んだりしたけど。 •Compute Engine 利用避けたかった • VM イメージ管理が増える暗い未来が待っている • VM に SSH して運用できるようにすると、考えなけれいけないことが膨大になる

といえ、劇的にアーキテクチャを変えたいというわけでなかった •ガチャとかあるし、（新規事業に比べて）売り上げ規模割合大きいし、保守コストかけたくないし。 •AppEngine
や Spanner 検討せず。 •他マネージドサービスもありふれたもを利用 • RDS → CloudSQL (MySQL) • CloudWatch → Stackdriver • S3 → CloudStorage • Lambda → Functions • BQ 使わず、慣れた内製ツール（Kinesis EMR）を利用 • 開発チーム側がログやテーブルを設計し、クエリも打つため

かなり大きい運用負担になる構築、運用手間オーバーヘッド費用地域ごと負荷波 ※実際サービス地域と異なります
2days、日本を除く

課題や結果などここから tips など

docker コンテナ化期待通り VM Apache PHP Ubuntu Monitoring Application VM
Monitoring Application Middleware any OS anything… VM で OS やミドルウェアインフラ部で対応コンテナで OS やミドルウェアを開発チームで自由に選べる。新しい開発言語や OS など積極的に取り入れることができ、インフラ負担も減らせる。 VM Image

API Container Engine App afterlost.wfs.games Cloud DNS HTTPS-Ingress Cloud Load
Balancing Certiﬁcate Manager Container Something Logging Alert Monitoring Batch Container Engine Admin Container Engine Admin Cloud IAP Developer Customer Service User-1 Cloud SQL Notify Cloud Pub/Sub Stg-API Container Engine Stg-Admin Container Engine Stg-Admi n Cloud IAP To-slack Cloud Functions Asset Cloud Storage Kubernetes cluster production1 Kubernetes cluster monitoring HTTPS-Ingress Cloud Load Balancing Grafana Container Engine Grafana Cloud IAP Ops Stackdriver Prometheus Container PagerDuty Slack Kinesis User-N Cloud SQL Masterdata Container Registory

東京リージョンみ運用手抜きでない遅い地域でも 300ms 程度

DNS 問題起こらなかった Pod API dnsmasq fluentd database.afterlost.wfs.games. 最後ドットもちゃんとつけて
リゾルバ search suffix を回避。 GKE 環境 ndots が 5 で高め。念ため sidecar IPv4 がっきりしているなら AAAA レコード引かない。 (CloudSQL VPC IP 不変らしい)

CloudSQL リリース初日に方針変更 Cloud SQL Cloud SQL Cloud SQL Cloud SQL
master failover replica-1 replica-N Behind Replication スレッド一つ innodb_flush_log_at_trx_commit = 1 更新系性能がスケールしにくい Cloud SQL Cloud SQL master failover Cloud SQL Cloud SQL master failover Cloud SQL Cloud SQL master failover replica による分散に頼らず水平・垂直分割でしぐ。 Behind も気にせずアプリも開発しやすい運用ちょっとめんどう。

Production 環境 Kustomize 廃止 base production QA-1 Dev-1 Dev-N real
テンプレ化できるほど単純でなかった。運用事故を防ぐためにも専用に管理 helm 化や json 風 .js を nodejs に通すやり方などやってみたけど、なるべく raw に近い Kustomize が使いやすかった。 GKE コンソールで編集もできるし。

よかった • スケジュール通り • 開発チーム Kubernetes 理解度が高かった • 海外レイテンシが良かった
• 過去 GCP 経験活かせた • CI/CD 環境もバッチリできた改善したい • 情報共有が少なかった • DNS が弱かった • Stackdriver ログ代が高かった • CloudSQL 負荷が予想以上だった • サービスアカウントが乱立してた • 固定 IP 必須と相性が悪かった • Request/Limit 精査してなかった • 特定タイミングに Pod 増やしたかった • ノードが減りにくかった • チャットボットが居なかったリリース直後反省会など意見

これからこと

多様な選択肢 • 分析 BQ、 CDN に CF(+Lambda)と Akamai 、 GKE
から DynamoDB などハイブリッド化進んでます •開発チームやみんなスキル、趣向などを取り入れて自由様々にえらんでます • 今 Spanner へ感度が大変高くなっており、社内勉強会なども積極的に開催されてます

• インフラ部で自社ゲームだけでなくグループ・関連企業全体運用を行っています。たくさんプロジェクト・案件あります • 規模も様々で、 Cloud
Run で済むもから数千vCPUクラスまで！ • GCP を採用した裏理由も聞けますご清聴ありがとうございました

私たちがGCPを使い始めた本当の理由

私たちがGCPを使い始めた本当の理由

gree_tech PRO

More Decks by gree_tech

Other Decks in Technology

Featured

Transcript

私たちがGCPを使い始めた本当理由 2019年11月18日堀口真司グリー株式会社開発本部インフラストラクチャ部ディベロップメントオペレーションズグループ

堀口真司グリー株式会社開発本部インフラストラクチャ部 • 家庭用普通ゲーム（ 1年）

もくじ •開発開始まで社内事情 •GCP に期待されること •結果や課題など •これからこと 30分だと思ってたら20分だった

じめに •会社方針や組織全体認識でないこと •AWS より優れているとか、イケてないとか、そういう比較

• 消滅都市スピンオフ • アニメもやってたよ！ • ストーリー重視 • ターン制バトル • そこそこ

OnPre GCP 2014 2019 AWS AFTERLOST 消滅都市消滅都市0. 開発や運営メンバー同じ。

開発開始まで社内事情

VM 中心クラウド環境理想的な運用になりつつあった！ •Chef Cookbook によって符号化されたサーバ環境 • インフラ担当、セキュリティ担当、モニタリング担当、ゲーム開発者それぞれ

Backend DB Replica Auto Scale … commit VM Image …

VM を中心とした環境課題 •僅かな修正で VM イメージ作り直しと入れ替えに手間がかかりデプロイ手法氾濫、学習コスト増加 •

GCP に期待されること

•ゲームでない別件で柔軟性とスピード感重視で GAE と GKE を選択した •雑ながらも結果的に上手くいき、ゲー

Kubernetes cluster GKE Dashboard Ingress HTTPS GKE Support GKE Channel

ゲームでもコンテナを使いたかった •VM イメージ構築期待通りに動作していたし、既存手法でも大きな不満なかった •VM で Immutable

Kubernetes Engine で運用したかった •Kubernetes を運用したいわけでない • Kubernetes が問題を起こしたときに対処しにくい（できない） •

といえ、劇的にアーキテクチャを変えたいというわけでなかった •ガチャとかあるし、（新規事業に比べて）売り上げ規模割合大きいし、保守コストかけたくないし。 •AppEngine

かなり大きい運用負担になる構築、運用手間オーバーヘッド費用地域ごと負荷波 ※実際サービス地域と異なります

課題や結果などここから tips など

docker コンテナ化期待通り VM Apache PHP Ubuntu Monitoring Application VM

API Container Engine App afterlost.wfs.games Cloud DNS HTTPS-Ingress Cloud Load

東京リージョンみ運用手抜きでない遅い地域でも 300ms 程度

DNS 問題起こらなかった Pod API dnsmasq fluentd database.afterlost.wfs.games. 最後ドットもちゃんとつけて

CloudSQL リリース初日に方針変更 Cloud SQL Cloud SQL Cloud SQL Cloud SQL

Production 環境 Kustomize 廃止 base production QA-1 Dev-1 Dev-N real

よかった • スケジュール通り • 開発チーム Kubernetes 理解度が高かった • 海外レイテンシが良かった

これからこと

多様な選択肢 • 分析 BQ、 CDN に CF(+Lambda)と Akamai 、 GKE

• インフラ部で自社ゲームだけでなくグループ・関連企業全体運用を行っています。たくさんプロジェクト・案件あります • 規模も様々で、 Cloud