Lock in $30 Savings on PRO—Offer Ends Soon! ⏳
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
バクラクにおける可観測性向上の取り組み
Search
yuu26
October 30, 2024
Technology
4
2.1k
バクラクにおける可観測性向上の取り組み
SRE NEXT 2024をふりかえって 〜学びをもとにした取り組み事例紹介〜
https://layerx.connpass.com/event/328643/
yuu26
October 30, 2024
Tweet
Share
More Decks by yuu26
See All by yuu26
LLM 機能を支える Langfuse / ClickHouse のサーバレス化
yuu26
9
4.3k
Datadog 関数クイズ (初級編)
yuu26
0
110
AWS アーキテクチャクイズ
yuu26
3
1.4k
EMになって半年でやったこと
yuu26
1
3k
ローカル開発環境をAWSへ移行して爆速にした
yuu26
14
11k
AWS Systems Manager で実現する SSH レスでセキュアなクラウド運用
yuu26
2
4.8k
Other Decks in Technology
See All in Technology
Amazon Quick Suite で始める手軽な AI エージェント
shimy
1
1.8k
100以上の新規コネクタ提供を可能にしたアーキテクチャ
ooyukioo
0
250
Building Serverless AI Memory with Mastra × AWS
vvatanabe
0
510
日本の AI 開発と世界の潮流 / GenAI Development in Japan
hariby
1
390
AWS re:Invent 2025~初参加の成果と学び~
kubomasataka
0
190
2025年のデザインシステムとAI 活用を振り返る
leveragestech
0
190
テストセンター受験、オンライン受験、どっちなんだい?
yama3133
0
150
「図面」から「法則」へ 〜メタ視点で読み解く現代のソフトウェアアーキテクチャ〜
scova0731
0
490
[Data & AI Summit '25 Fall] AIでデータ活用を進化させる!Google Cloudで作るデータ活用の未来
kirimaru
0
3.8k
子育てで想像してなかった「見えないダメージ」 / Unforeseen "hidden burdens" of raising children.
pauli
2
320
20251219 OpenIDファウンデーション・ジャパン紹介 / OpenID Foundation Japan Intro
oidfj
0
490
なぜ あなたはそんなに re:Invent に行くのか?
miu_crescent
PRO
0
200
Featured
See All Featured
Testing 201, or: Great Expectations
jmmastey
46
7.8k
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
16
1.8k
How to Align SEO within the Product Triangle To Get Buy-In & Support - #RIMC
aleyda
1
1.3k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
12
1.4k
Game over? The fight for quality and originality in the time of robots
wayneb77
1
66
Build your cross-platform service in a week with App Engine
jlugia
234
18k
Product Roadmaps are Hard
iamctodd
PRO
55
12k
Effective software design: The role of men in debugging patriarchy in IT @ Voxxed Days AMS
baasie
0
170
Agile Leadership in an Agile Organization
kimpetersen
PRO
0
55
Conquering PDFs: document understanding beyond plain text
inesmontani
PRO
4
2.1k
brightonSEO & MeasureFest 2025 - Christian Goodrich - Winning strategies for Black Friday CRO & PPC
cargoodrich
2
65
What’s in a name? Adding method to the madness
productmarketing
PRO
24
3.8k
Transcript
© LayerX Inc. バクラクにおける可観測性向上の取り組み 2024/10/30 SRE NEXT 2024をふりかえって 〜学びをもとにした取り組み事例紹介〜
© LayerX Inc. 2 株式会社LayerX バクラク事業部 Platform Engineering 部 DevOps
グループ m_on_yu yuu26jp 職歴 SIer インフラエンジニア Web サービス SRE x 3社 LayerX アカウント 上原 佑介 ⾃⼰紹介
3 © LayerX Inc. 「すべての経済活動を、デジタル化する。」をミッションに掲げ、 法⼈⽀出管理サービス「バクラク」や企業内業務のデジタル化を⽀援するサービスを提供しています。 事業紹介 バクラク事業 企業活動のインフラとなる法⼈⽀ 出管理(BSM)SaaSを開発‧提供
Fintech事業 ソフトウェアを駆使したアセットマネジ メント‧証券事業を合弁会社にて展開 AI‧LLM事業 ⽂書処理を中⼼とした、LLMの活⽤によ るプロセスのリデザイン
⽬次 Agenda • バクラクが抱えていた可観測性の課題 • SRE NEXT 2024 で得られたこと •
取り組んだこと • Datadog を⽤いた運⽤改善 • 今後の取り組み
© LayerX Inc. 5 • ⽇々開発が進むプロダクトが多数あり、プロダクトの負荷傾向も常に変化している • 個別のインフラ監視等はできているが、最終的なユーザー影響度を把握しづらい • 積み上げてきたモニターの総量が多く、ノイズとなっているアラートがある
これらの状況を改善するため、 DevOps として「サービスインフラの可観測性を⾼め、改善する」という⽬標を⽴てた 解決策のヒントを得るために SRE NEXT 2024 へ参加 バクラクが抱えていた可観測性の課題
© LayerX Inc. 6 可観測性や運⽤改善に関するセッションで印象に残った部分 • SLOの理解を深めて、ユーザーエクスペリエンスを向上する⽅法 https://sre-next.dev/2024/schedule/#sp008 ◦ すべての値がいい
SLI になるわけではない ◦ いい SLI とはユーザー体験に紐づいているもの (レスポンス成功率やレイテンシ等) • Enabling Client-side SLO https://sre-next.dev/2024/schedule/#jp005 ◦ 現場のエンジニアに寄り添ったアラートチューニング ◦ ⽂化醸成のためにダッシュボードを作成して定期的に確認する場を設けた これらのセッションから得たヒントを元に運⽤改善へ SRE NEXT 2024 で得られたこと
© LayerX Inc. 7 • 取得できている情報の棚卸し ◦ プロダクトごとに開発時期やアーキテクチャが異なり、取得できている情報がバラバラ ◦ 情報が取れているように⾒えても、計測範囲や単位
(秒やミリ秒) が揃っていない • プラットフォームの改善 ◦ Enabling チームによるログフォーマットの統⼀ ▪ レスポンスコードや処理時間を全プロダクト同じ基準で収集可能になった ▪ 今後プロダクトが増えても同じ基準で収集できる ◦ アプリケーション調査⽤の Datadog APM や Profiler を全プロダクトへ展開 ◦ Datadog 監視コスト増を抑えるための設定⾒直し 取り組んだこと
© LayerX Inc. 8 全プロダクト横断ダッシュボードを整備 • 統⼀された評価軸で1ページに集約 • リクエスト成功率を仮指標として設定 •
本番環境の変更時は必ず⾒る運⽤とした 得られた効果 • 本番変更後の異常検知が早まった • 複数プロダクトに影響する異常を検知し やすくなった Datadog を⽤いた運⽤改善
© LayerX Inc. 9 • プロダクトごとにより適切な SLI を模索する ◦ 重視したい体験を軸に、開発チームや
PdM と詳細を詰める ◦ 守るべき指標を定めることでより効率的な監視ができる • ユーザー体験への影響度に合わせた監視の整備 ◦ レイテンシやエラー率など体験に直結する値を重視 ◦ 数⽇以内の対応でよいものなどは、通知⽅法を⾒直して割り込みを減らす • パフォーマンス関連 ◦ 性能問題が発⽣した場合の調査材料を増やす (APM / Profiler の活⽤等) ◦ ⼤規模テナントや特定のユースケース単位での可視化の⼟台作り 今後の取り組み
© LayerX Inc. 10 30分のカジュアル⾯談をどなたでも申し込めます LayerX や DevOps について気になることがあればお気軽に! https://jobs.layerx.co.jp/0cc0b754363d428eaca0f2d9922c941c
LayerX Open Door やってます!
Thank you!