Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
稼働7年目のリアルタイムコメントシステム改善に向き合う、地道なSREアプローチ
Search
gree_tech
PRO
October 25, 2024
Video
Technology
1
130
稼働7年目のリアルタイムコメントシステム改善に向き合う、地道なSREアプローチ
GREE Tech Conference 2024で発表された資料です。
https://techcon.gree.jp/2024/session/TrackC-4
gree_tech
PRO
October 25, 2024
Tweet
Share
Video
More Decks by gree_tech
See All by gree_tech
REALITY株式会社における開発生産性向上の取り組み: 失敗と成功から学んだこと
gree_tech
PRO
2
130
『ヘブンバーンズレッド』におけるフィールドギミックの裏側
gree_tech
PRO
2
90
セキュリティインシデント対応の体制・運用の試行錯誤 / greetechcon2024-session-a1
gree_tech
PRO
1
96
『アナザーエデン 時空を超える猫』国内海外同時運営実現への道のり ~別々で開発されたアプリを安定して同時リリースするまでの取り組み~
gree_tech
PRO
1
78
『アサルトリリィ Last Bullet』におけるクラウドストリーミング技術を用いたブラウザゲーム化の紹介
gree_tech
PRO
1
89
UnityによるPCアプリの新しい選択肢。「PC版 Google Play Games」への対応について
gree_tech
PRO
1
110
実機ビルドのエラーによる検証ブロッカーを0に!『ヘブンバーンズレッド』のスモークテスト自動化の取り組み
gree_tech
PRO
1
110
"ゲームQA業界の技術向上を目指す! 会社を超えた研究会の取り組み"
gree_tech
PRO
1
140
Jamstack でリニューアルするグリーグループのメディア
gree_tech
PRO
2
300
Other Decks in Technology
See All in Technology
CysharpのOSS群から見るModern C#の現在地
neuecc
2
3.1k
【Pycon mini 東海 2024】Google Colaboratoryで試すVLM
kazuhitotakahashi
2
490
100 名超が参加した日経グループ横断の競技型 AWS 学習イベント「Nikkei Group AWS GameDay」の紹介/mediajaws202411
nikkei_engineer_recruiting
1
170
iOS/Androidで同じUI体験をネ イティブで作成する際に気をつ けたい落とし穴
fumiyasac0921
1
110
[FOSS4G 2024 Japan LT] LLMを使ってGISデータ解析を自動化したい!
nssv
1
210
【Startup CTO of the Year 2024 / Audience Award】アセンド取締役CTO 丹羽健
niwatakeru
0
950
OCI Security サービス 概要
oracle4engineer
PRO
0
6.5k
インフラとバックエンドとフロントエンドをくまなく調べて遅いアプリを早くした件
tubone24
1
430
隣接領域をBeyondするFinatextのエンジニア組織設計 / beyond-engineering-areas
stajima
1
270
ドメイン名の終活について - JPAAWG 7th -
mikit
33
20k
社内で最大の技術的負債のリファクタリングに取り組んだお話し
kidooonn
1
550
OCI Network Firewall 概要
oracle4engineer
PRO
0
4.1k
Featured
See All Featured
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
8
860
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
506
140k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
PRO
10
720
Designing on Purpose - Digital PM Summit 2013
jponch
115
7k
Docker and Python
trallard
40
3.1k
Done Done
chrislema
181
16k
The Straight Up "How To Draw Better" Workshop
denniskardys
232
140k
GraphQLの誤解/rethinking-graphql
sonatard
67
10k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
250
21k
Become a Pro
speakerdeck
PRO
25
5k
5 minutes of I Can Smell Your CMS
philhawksworth
202
19k
Speed Design
sergeychernyshev
24
610
Transcript
稼働7年目のリアルタイム コメントシステム改善に向き合う、 地道なSREアプローチ REALITY株式会社 エンジニア 小田 大輔
小田 大輔 / Daisuke Oda REALITY株式会社 エンジニア 2 • 主なお仕事
◦ 開発生産性改善 ◦ インフラ費用削減・維持 ◦ パフォーマンス改善
目次・アジェンダ • REALITYのご紹介 • リアクティブな対応による功罪 • コメントシステム改善の全体象 • 改善事例のご紹介 •
得られた教訓 3
REALITYについて 4
• スマホひとつでアバターライブ配信などを楽しめるアプリ • 12言語対応で63の地域で配信中 5 REALITYのご紹介
6
7 売上高 65億円 営利 13億円
REALITYの 配信コメントシステム 8
9 ←視聴者のコメント
コメントシステムについて 10 • システム構成 ◦ GKEで提供 ◦ WebSocketでのリアルタイム投稿・表示 • コメントで投稿されるデータ
◦ ユーザのテキスト入力 ◦ システムコメント群 ▪ ギフティング・フォロー・ミッション達成など • その他の機能 ◦ 裏で同時接続数などの配信属性を記録している システムコメント
今までのコメントシステム への向き合い方 11
コメントシステムはリアクティブに問題改善していた 12
リアクティブな対応により起きていた問題 • 目指すべき方向を見失いがちで、負債も溜まってきた ◦ こういう部分から間接的に経済合理性も損なわれる • 事前対処の練度が下がる • 改善の余地がある場合でも、優先度が上がりづらい /
体系的 にどう改善したら良いか把握しづらい ◦ コアなシステムなのに 13
REALITYが10xする前に 体系的に改善する機構にしたい 14
各分野で目標値を決め、制御工学的に健全性を保つ 例えば • 障害判定のラインを決める • トラフィックあたりの目安 料金 / スペック値を決める •
「テストカバレッジを上げる」のような指針を決める 15
16
• これによって目指すべき方向が明らかになり、システ ムの健全性がわかりやすく • 心理的にも安心感が生まれる • 体系的にシステムに向き合えることで価値提供がしや すくなるはず 17
18 (コメントシステムのビジネスオーダー) 信頼性維持 素早く価値提供 ソフトウェア アーキテクチャ改善 テストを 書きやすい環境 BlueGreenデプロイ導入 可用性指標
の策定と計測 パフォーマ ンス改善
取り組み 一挙ご紹介 19
20 (ビジネスオーダー) 信頼性維持 素早く価値提供 ソフトウェア アーキテクチャ改善 テストを 書きやすい環境 可用性指標 の策定と計測
パフォーマ ンス改善 BlueGreenデプロイ導入
21 コメントシステムのアーキテクチャ 全Podが全配信の コメントを受信 Node.js
Redis Pub/Subアーキテクチャのボトルネックについて • 全ユーザのコメントが全Podを経由するようになっていた ◦ 視聴者が誰もいない配信でも、全Podがその配信のコメントを Subscribeする • それにより負荷逼迫。残念ながらややユーザ影響が出ている •
接続中の最低限のPodのみ経由するようにしたい 22
Redis Pub/Subアーキテクチャ改善方針 • ユーザの接続実態があるPodだけ当該配信のRedis Channel にSubscribeするように変更 • 注意したこと ◦ Redisのコマンド計算量の変化を細かく見積もった
▪ キャパシティプランニングの意味で 23
24
改善後のアーキテクチャ 25 Node.js
ついでに負荷分散の強化 • 一定以上のCPU利用率になったらk8s readiness probeを失 敗させて均等に負荷分散するように ◦ WebSocketで長時間接続し続ける特性上、このような機 構に ◦
他のWebSocket系サーバで実装している仕組みを輸入 26
パフォーマンス改善幅 27 PodのCPU 66%DOWN & メモリ90% Down イベントループラグ安定 Pub/Sub用のRedisのCPU負荷半減 さらにPod数も改善前の
3分の1で済むように
また、Redis Pub/Subも水平分割することで 理論上は無限水平スケールが可能に 28
29 (ビジネスオーダー) 信頼性維持 素早く価値提供 ソフトウェア アーキテクチャ改善 テストを 書きやすい環境 パフォーマ ンス改善
可用性指標 の策定と計測 ※SREプラクティスでいうSLAや エラーバジェットの策定に近い
可用性指標の策定と計測 • パフォーマンスの健全性を管理するため策定 ◦ デプロイ頻度も上がってきたので事故率を可視化したい という意図がある • 以下の項目を可用性指標としました ◦ 1.
WebSocket接続直後のコメントデータレスポンスレイテンシ ◦ 2. コメント投稿から他ユーザがSubscribeするまでのレイテンシ 30
可用性指標の計測方針 • OpenTelemetryでレイテンシ計測していく ◦ メトリクスはGoogle Cloud Monitoringに保存 • まず当時、Node.jsのバージョンを12から18に上げた。 ◦
OpenTelemetry JavaScript SDKの安定版が当該Node.jsバージョンに 対応していなかったので。 31
可用性指標の計測の実装 • 接続時の初期データレスポンスレイテンシの計測方法 ◦ WebSocket handshake完了時のtimestampを記録 ◦ レスポンス直前のtimestampとの差分をレイテンシとして記録 • コメント投稿レイテンシの計測方法
◦ コメント投稿時のpublishデータにtimestampを記録 ◦ Redis subscribeでデータを受け取った時点との差分をレイテンシとする 32
可用性ダッシュボード 一定値以上になるとアラートが飛ぶ。 「一定の閾値に保つ」というフィードバックループを回せるようになった 33
34 (ビジネスオーダー) 信頼性維持 素早く価値提供 ソフトウェア アーキテクチャ改善 テストを 書きやすい環境 パフォーマ ンス改善
可用性指標 の策定と計測 BlueGreenデプロイ導入
WebSocket + GKE + IstioでのBlueGreenデプロイ • リリース時にGreen環境を作成 • HTTPヘッダーベースで、開発者のみGreen環境にアクセス して動作確認できるように
35
具体的には • WebSocketハンドシェイク時の HTTPリクエストのヘッダの値を元 にIstioのVirtualServiceでトラ フィック振り分け(つまりL7) 36
イメージ図 37
• 使い方を細かくドキュメント化し、不安感をやわら げながら展開 • GKE + IstioでWebSocketサーバをトラフィック制 御している事例が少ない ◦ 国内でも有数の事例になった
38
39 (ビジネスオーダー) 信頼性維持 素早く価値提供 ソフトウェア アーキテクチャ改善 パフォーマ ンス改善 可用性指標 の策定と計測
テストを 書きやすい環境 BlueGreenデプロイ導入
• 人によってテストを書いたり書かなかったり まちまち • テストカバレッジ不明 • データストアと通信するテストが書きづらい 40 コメントシステムのテストの課題点
1. Jestの導入 2. コンテナでテスト実行するように 3. Redisをテストコンテナで動かすように ◦ モックではなく実物で動かしたい 41 [やったこと1]まずテストを実行しやすい環境づくり
[やったこと2]テストカバレッジの可視化 42
[やったこと2]テストカバレッジの可視化 43 1. Github Actionsでカバレッジデータ生成 2. Cloud Storageにアップロード 3. Looker
Studioで2をデータソースにして グラフとしてダッシュボード化
44 (ビジネスオーダー) 信頼性維持 素早く価値提供 パフォーマ ンス改善 可用性指標 の策定と計測 テストを 書きやすい環境
ソフトウェア アーキテクチャ改善 BlueGreenデプロイ導入
コメントシステムのコードベースの課題 • 起きていた現象 ◦ ロジックが入り組み肥大化 & 凝集度が低下してきている部 分が多々ある • 生じた課題
◦ ドメイン知識が把握しづらい / 開発に時間がかかる 45
コードベースの改善の進め方 • 改善に興味のある有志メンバーでキックオフした ◦ 課題の炙り出し / 優先度付 / 目線合わせの実施 ◦
有志メンバー = DevOpsチーム + サーバチーム • 優先度が高い & 抽象度の高い課題は ◦ 特に関心が高いメンバーで話し合って詳細方針を決めた 46
良い改善は良い問いから Q.ソフトウェアアーキテクチャを なぜ改善するのか? 47
良い改善は良い問いから A. 機能ドメインが整理され、価値 提供しやすくなるから 48 さらに言うと この改善幅が大きいから
キックオフ実施 49 実際の議事録
50
チケット化してみんなで消化 51
“コードベース改善の取り組み”で得られた効果 • コメントサーバの機能開発がしやすくなった ◦ APIハンドラをRESTのリソースごとにファイル分割した ◦ APIハンドラと同じ場所に定義されていたドメインロジック群も 専用の層に分離した、など • コメントサーバについて詳しいメンバーが増えるという副次
効果も 52
全体像まとめ 53
54 (コメントシステムのビジネスオーダー) 信頼性維持 素早く価値提供 ソフトウェア アーキテクチャ改善 テストを 書きやすい環境 BlueGreenデプロイ導入 可用性指標
の策定と計測 パフォーマ ンス改善
全体を通して得られた教訓 • 相変わらず銀の弾丸は無いが、SRE文化が発展してきたこと により参考にしやすい事例が増えた • 最初に抽象的なものをコアメンバーで潰し、協力者に具体タ スクとして展開していく方法がワークした • ついでにNode.jsのランタイム知見が得られた 55
Goodbye, Silver Bullet! 56
ご清聴ありがとうございました 57
None