Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
プロダクト成長を支える開発基盤とスケールに伴う課題
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
yuu26
February 03, 2026
Technology
1.6k
4
Share
プロダクト成長を支える開発基盤とスケールに伴う課題
yuu26
February 03, 2026
More Decks by yuu26
See All by yuu26
LLM 機能を支える Langfuse / ClickHouse のサーバレス化
yuu26
9
5.5k
Datadog 関数クイズ (初級編)
yuu26
0
150
バクラクにおける可観測性向上の取り組み
yuu26
4
2.3k
AWS アーキテクチャクイズ
yuu26
3
1.5k
EMになって半年でやったこと
yuu26
1
3.2k
ローカル開発環境をAWSへ移行して爆速にした
yuu26
15
11k
AWS Systems Manager で実現する SSH レスでセキュアなクラウド運用
yuu26
2
4.9k
Other Decks in Technology
See All in Technology
AI 時代の Platform Engineering
recruitengineers
PRO
1
160
なぜ、私がCommunity Builderに?〜活動期間1か月半でも選出されたワケ〜
yama3133
0
130
フロントエンドの相手が変わった - AIが加わったWebの新しいインターフェース設計
azukiazusa1
33
11k
クラウドネイティブ DB はいかにして制約を 克服したか? 〜進化歴史から紐解く、スケーラブルアーキテクチャ設計指針〜
hacomono
PRO
6
920
ワールドカフェ再び、そしてゴール・ルール・ロール・ツール / World Café Revisited, and the Goals-Rules-Roles-Tools
ks91
PRO
0
150
ブラウザの投機的読み込みと投機ルールAPIを理解し、Webサービスのパフォーマンスを最適化する
shuta13
3
300
Oracle AI Database@Google Cloud:サービス概要のご紹介
oracle4engineer
PRO
6
1.4k
AI時代に越境し、 組織を変えるQAスキルの正体 / QA Skills for Transforming an Organization
mii3king
5
4.3k
20260516_SecJAWS_Days
takuyay0ne
2
330
毎日の作業を Claude Code 経由にしたら、 ノウハウがコードになった
kossykinto
1
1.3k
SREの仕事は「壊さないこと」ではなくなった 〜自律化していくシステムに、責任と判断を与えるという価値〜 / 20260515 Naoki Shimada
shift_evolve
PRO
1
140
Swift Sequence の便利 API 再発見
treastrain
1
260
Featured
See All Featured
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
49
3.4k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
333
22k
How to Grow Your eCommerce with AI & Automation
katarinadahlin
PRO
1
180
Reality Check: Gamification 10 Years Later
codingconduct
0
2.1k
Design of three-dimensional binary manipulators for pick-and-place task avoiding obstacles (IECON2024)
konakalab
0
420
Building AI with AI
inesmontani
PRO
1
980
Navigating the Design Leadership Dip - Product Design Week Design Leaders+ Conference 2024
apolaine
0
300
Raft: Consensus for Rubyists
vanstee
141
7.4k
Docker and Python
trallard
47
3.8k
Become a Pro
speakerdeck
PRO
31
5.9k
Lightning Talk: Beautiful Slides for Beginners
inesmontani
PRO
1
540
GraphQLとの向き合い方2022年版
quramy
50
15k
Transcript
プロダクト成長を支える開発基盤と スケールに伴う課題 2026-02-03 "しくじり"から学ぶ!急成⻑プロダクト「バクラク」 「Bill One」の裏側~技術編~
自己紹介 自己紹介 上原 佑介 インフラエンジニア → SRE 株式会社LayerX バクラク事業部 Platform
Engineering部 SREグループ AWS, Datadog, Terraform あたりをよく触る 趣味 旅行、飛行機 ゲームいろいろ © LayerX Inc. 2
今日話すこと © LayerX Inc. 今日話すこと プロダクト成長を支える開発基盤の仕組み 自動化が産んだスケールに伴う課題 (しくじり) 改善に向けた現在の取り組み AI
時代に向けた直近の対応 3
バクラクについて
バクラクについて © LayerX Inc. 5
バクラクの開発を支えるプラットフォーム © LayerX Inc. バクラクについて バクラクには layerone と呼ばれる開発プラットフォームがある サービス定義ファイルを軸とした自動生成の仕組みを持つ 基盤チームや
SRE に依存しないセルフサービス化 例: auth ドメインの token サービスを作る場合 サービス定義ファイルに以下の記述をする インフラ、アプリケーションコードのテンプレ、CI/CD、監視設定が自動生成される 6
バクラクの開発を支えるプラットフォーム バクラクについて Universal Binary によるコンテナイメージ集約 多くのマイクロサービスが含まれるシングルバイナリ 環境変数やコマンド引数で起動したいサービスを指定 ビルドの高速化とイメージ管理コストを削減 ローカル環境および本番環境で運用中 マイクロサービスは月に3つほど増加、現在120サービス超
9 プロダクトを SRE チーム 5 人で横断的に見れる状態に © LayerX Inc. 7
プロダクト成長に伴う課題
リリース作業における課題 © LayerX Inc. プロダクト成長に伴う課題 プロダクト特性もあり、定期的な機能リリースタイミングを設けている 100以上のサービスが短時間にデプロイされる 1サービス = 1
ECS Service の単位 GitHub Actions レートリミット AWS ECS API のスロットリングによる失敗 依存関係によるデプロイ順待ちも発生 定期リリースに数時間以上かかる状態に 9
運用面の課題 © LayerX Inc. プロダクト成長に伴う課題 リソースの上限や制約により自動生成に失敗 ALB ターゲットグループのアタッチ上限 100 共通リソースにおけるアクセスポリシーの文字数上限突破
監視設定・ユーザの拡大に伴うアラート発報増加 自動生成も含めて 3,000 件以上のアラートが存在 サービス特性に沿った監視の最適化が追いつかない ユーザ操作に伴うエラーログの流量増加 初期は機能していた仕組みがスケールに伴い合わなくなってきた 10
解決に向けた取り組み
デプロイ周りの改善 (着手中) © LayerX Inc. 解決に向けた取り組み 依存関係のないサービスを独立デプロイ可能に 一部サービスから始めて拡大中 定期リリースを待たずに出せる分は出す お客様への価値提供の高速化にもつながる
デプロイ単位の集約 1マイクロサービス = 1 ECS Service の形にこだわらない ドメイン単位やプロダクト単位でのデプロイ集約を検討 Universal Binary や ECS Managed Instance を活用したインフラ集約 デプロイ待ち・レートリミット等のリソース制約を回避 12
アラート増加への対応 (検討中) © LayerX Inc. 解決に向けた取り組み リソース使用率ではなくユーザ影響を軸にした監視へ移行 一律で自動生成するメトリクス監視をやめる 重要エンドポイントやリクエスト成功率・レイテンシに着目する ログ出力に関するポリシー決め
Datadog Error Tracking などの活用 緊急度に応じた Critical / Error / Warn などの使い分けを統一 必要なログのみを出力・監視することで、費用と運用コストを最適化 これまでの仕組みを一から見直し、監視ポリシーを再設計 13
今後の進化を支えるために
AI/LLM を組み込んだ機能開発が増加 © LayerX Inc. 今後の進化を支えるために 2025年7月に AI 申請レビュー 機能をリリース
申請作成時に LLM が内容をリアルタイムでレビュー 15
AI 時代のプロダクト開発を支える基盤 © LayerX Inc. 今後の進化を支えるために Temporal Workflow 分散ワークフローエンジンの Temporal
を導入 非同期処理の呼び出し、ロングタスクをプロダクトに組み込みやすく Langfuse LLM 機能の開発や検証を支える基盤として構築 LLM 実行結果のトレース、モデルごとの精度検証・比較などで活用されている 既存基盤の改善を行いつつ、今後に向けた取り組みも同時に進行中 16
さいごに
まとめ © LayerX Inc. まとめ 初期は機能していた仕組みが、スケールに伴い一部ボトルネックに 自動生成の仕組みを軸とした開発プラットフォーム リソースの上限制約や運用面の課題に直面 定期リリースに数時間かかる状態 さらなるスケールに備えた再設計のタイミングが来た
サービス数の増加に伴うリソース集約 デプロイサイクルやアラート基準の見直し 同時に、プロダクトの進化を止めないための対応 AI/LLM による非同期処理や可視化要求への備え 18
エンジニア積極採用中! We are hiring! SRE を含めた幅広い職種で募集中です! やれること・やりたいことが沢山あります 0→1、1→10 などフェーズの異なるプロダクトに関われます Open
Door 募集中 30分のカジュアル面談をどなたでも申し込めます LayerX や SRE について気になることがあればお気軽に! © LayerX Inc. 19