Slide 1

Slide 1 text

© LayerX Inc. バクラクにおける可観測性向上の取り組み 2024/10/30 SRE NEXT 2024をふりかえって 〜学びをもとにした取り組み事例紹介〜

Slide 2

Slide 2 text

© LayerX Inc. 2 株式会社LayerX バクラク事業部 Platform Engineering 部 DevOps グループ   m_on_yu   yuu26jp 職歴 SIer インフラエンジニア Web サービス SRE x 3社 LayerX アカウント 上原 佑介 ⾃⼰紹介

Slide 3

Slide 3 text

3 © LayerX Inc. 「すべての経済活動を、デジタル化する。」をミッションに掲げ、 法⼈⽀出管理サービス「バクラク」や企業内業務のデジタル化を⽀援するサービスを提供しています。 事業紹介 バクラク事業 企業活動のインフラとなる法⼈⽀ 出管理(BSM)SaaSを開発‧提供 Fintech事業 ソフトウェアを駆使したアセットマネジ メント‧証券事業を合弁会社にて展開 AI‧LLM事業 ⽂書処理を中⼼とした、LLMの活⽤によ るプロセスのリデザイン

Slide 4

Slide 4 text

⽬次 Agenda ● バクラクが抱えていた可観測性の課題 ● SRE NEXT 2024 で得られたこと ● 取り組んだこと ● Datadog を⽤いた運⽤改善 ● 今後の取り組み

Slide 5

Slide 5 text

© LayerX Inc. 5 ● ⽇々開発が進むプロダクトが多数あり、プロダクトの負荷傾向も常に変化している ● 個別のインフラ監視等はできているが、最終的なユーザー影響度を把握しづらい ● 積み上げてきたモニターの総量が多く、ノイズとなっているアラートがある これらの状況を改善するため、 DevOps として「サービスインフラの可観測性を⾼め、改善する」という⽬標を⽴てた 解決策のヒントを得るために SRE NEXT 2024 へ参加 バクラクが抱えていた可観測性の課題

Slide 6

Slide 6 text

© LayerX Inc. 6 可観測性や運⽤改善に関するセッションで印象に残った部分 ● SLOの理解を深めて、ユーザーエクスペリエンスを向上する⽅法 https://sre-next.dev/2024/schedule/#sp008 ○ すべての値がいい SLI になるわけではない ○ いい SLI とはユーザー体験に紐づいているもの (レスポンス成功率やレイテンシ等) ● Enabling Client-side SLO https://sre-next.dev/2024/schedule/#jp005 ○ 現場のエンジニアに寄り添ったアラートチューニング ○ ⽂化醸成のためにダッシュボードを作成して定期的に確認する場を設けた これらのセッションから得たヒントを元に運⽤改善へ SRE NEXT 2024 で得られたこと

Slide 7

Slide 7 text

© LayerX Inc. 7 ● 取得できている情報の棚卸し ○ プロダクトごとに開発時期やアーキテクチャが異なり、取得できている情報がバラバラ ○ 情報が取れているように⾒えても、計測範囲や単位 (秒やミリ秒) が揃っていない ● プラットフォームの改善 ○ Enabling チームによるログフォーマットの統⼀ ■ レスポンスコードや処理時間を全プロダクト同じ基準で収集可能になった ■ 今後プロダクトが増えても同じ基準で収集できる ○ アプリケーション調査⽤の Datadog APM や Profiler を全プロダクトへ展開 ○ Datadog 監視コスト増を抑えるための設定⾒直し 取り組んだこと

Slide 8

Slide 8 text

© LayerX Inc. 8 全プロダクト横断ダッシュボードを整備 ● 統⼀された評価軸で1ページに集約 ● リクエスト成功率を仮指標として設定 ● 本番環境の変更時は必ず⾒る運⽤とした 得られた効果 ● 本番変更後の異常検知が早まった ● 複数プロダクトに影響する異常を検知し やすくなった Datadog を⽤いた運⽤改善

Slide 9

Slide 9 text

© LayerX Inc. 9 ● プロダクトごとにより適切な SLI を模索する ○ 重視したい体験を軸に、開発チームや PdM と詳細を詰める ○ 守るべき指標を定めることでより効率的な監視ができる ● ユーザー体験への影響度に合わせた監視の整備 ○ レイテンシやエラー率など体験に直結する値を重視 ○ 数⽇以内の対応でよいものなどは、通知⽅法を⾒直して割り込みを減らす ● パフォーマンス関連 ○ 性能問題が発⽣した場合の調査材料を増やす (APM / Profiler の活⽤等) ○ ⼤規模テナントや特定のユースケース単位での可視化の⼟台作り 今後の取り組み

Slide 10

Slide 10 text

© LayerX Inc. 10 30分のカジュアル⾯談をどなたでも申し込めます LayerX や DevOps について気になることがあればお気軽に! https://jobs.layerx.co.jp/0cc0b754363d428eaca0f2d9922c941c LayerX Open Door やってます!

Slide 11

Slide 11 text

Thank you!