Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Tamach-sre-3_ANDPAD-shimaison93

 Tamach-sre-3_ANDPAD-shimaison93

Tamachi.sre#3におけるアンドパッド発表分のスライド

Avatar for shimaison93

shimaison93

March 09, 2026
Tweet

More Decks by shimaison93

Other Decks in Programming

Transcript

  1. © 2026 ANDPAD All Rights Reserved. Confidential 1 極端に遅いリクエストとの戦い 2026/03/19 Tamachi.sre

    #3 株式会社アンドパッド 開発本部 サービス品質管理部 CRE Lead 島根 雄也
  2. © 2026 ANDPAD All Rights Reserved. Confidential 2 1. パフォーマンス課題

    2. 監視体制の変化 3. 改善のための仕組み化 4. 課題と今後やっていきたいこと Agenda
  3. © 2026 ANDPAD All Rights Reserved. Confidential Confidential • 2016年

    新卒で百貨店に総合職として入社 • 2018年 Horizontal SaaSのベンダーに入社 • 2021年 アンドパッドにCREとして入社 • 2023年 退社 → 24年にアンドパッドに再入社 💪 カレー、PlayStation、ボディビルが好き 島根 雄也 / Yuya Shimane @YEngine8 Profile| 経 歴 3 自己紹介
  4. © 2026 ANDPAD All Rights Reserved. Confidential Confidential 5 ANDPADとは

    現場の効率化から経営改善まで一元管理できる クラウド型建設プロジェクト管理サービス 社 内 社 外 営業 / 監督 / 設計 事務 / 管理職 職人 / 業者 メーカー / 流通
  5. © 2026 ANDPAD All Rights Reserved. Confidential Confidential 6 マルチプロダクト戦略

    現場管理を効率化したい 工事写真の撮影・整理・台帳作成を効率化したい 顧客と円滑にコミュニケーションしたい ・ 顧客への提出物をスムーズに作成したい 工程管理の手間を 減らしたい 円滑にコミュニケーショ ンしたい 検査や是正指示を 効率化したい 経営・営業データを 可視化したい 受発注・請求書受領を 効率化したい z 社内での承認フローを 効率化したい 断熱リフォームの効果を 可視化したい 現地調査を効率化したい 現場訪問の回数を 減らしたい 安全衛生管理を 徹底したい 社外リソースを 活用したい システム連携で効率性を 上げたい 施工管理 案件概要 資料 ボード 写真 写真台帳 黒板 黒板 AI作成 豆図AI キャプチャー デジタル サイン 報告出力 レイアウト 電子納品 おうちノート 工程表 横断 マイルストーン チャット 報告 図面 検査 Analytics 引合粗利管理 受発注 請求管理 資料承認 サーモ 3Dスキャン 遠隔臨場 入退場管理 BPO API連携 アプリ マーケット
  6. © 2026 ANDPAD All Rights Reserved. Confidential Confidential 7 極端に遅いリクエストとは何か

    処理が完了するまで数十秒~数分以上も要す るような、ユーザー体験を著しく損なう HTTPリクエストのこと 非効率なデータベースクエリや大量のデータ に対する集計処理などにより、応答時間が極 端に長くなるようなケースが該当する 事業成長に伴い、機能・ユーザー数・データ 量も増え、リリース当初は高速だった処理で あっても徐々に劣化し、結果的に処理が重く なってしまうことも…
  7. © 2026 ANDPAD All Rights Reserved. Confidential Confidential 担当者の思考や作業が分断し、積み上がると膨大 な待機時間(人件費の無駄)が発生し、組織全体

    の生産性が著しく低下する • 業務効率の劇的な 低下とコスト増 8 なぜ遅いリクエストが事業インパクトに繋がるのか:ユーザー側 ユーザーは数秒の待機で離脱することもあり、本 来得られたはずの売上を直接的に失うこともある システム遅延によりエンドユーザーに影響が発生 し、企業のブランド毀損に直結する場合がある • 機会損失 • 社会的信頼の失墜
  8. © 2026 ANDPAD All Rights Reserved. Confidential Confidential 重くて使えないという体験は即時の解約につなが らなくとも、NPSを下げ、新規獲得の難易度を上

    げることにもなり得る • Churnと収益悪化 9 なぜ遅いリクエストが事業インパクトに繋がるのか:アンドパッド側 非効率な処理を力技でさばくべく、ハイスペック サーバーへの増強で一時的にしのぐ場合があり、 売上に寄与しない原価率の上昇を招き得る 障害対応やパフォーマンス改善にエンジニアのリ ソースが奪われ、新機能のリリースが遅れ、市場 競争力が低下することにも繋がり得る • インフラコストの肥大化 • 市場競争力の低下
  9. © 2026 ANDPAD All Rights Reserved. Confidential Confidential 11 監視体制の変遷:2021年頃まで

    プロジェクトチームが発足 遅いリクエストの監視スタート 運用をCREチームに移管 Slack通知 > 人力調査 > 集計 プロダクトチームに連携 2020年頃 2021年頃 ~
  10. © 2026 ANDPAD All Rights Reserved. Confidential Confidential 特定のエンジニア以外はSlack上で通知された検知を さほど見てすらいない状況だった

    • 対応の属人化 12 2021年頃までのオペレーションにおける課題 検知はされている...エンドポイントもどこか分かる... しかしながら、ユーザーがどのように使っていて、 どの程度影響があるかの解像度が高くなかった 影響の度合いが読めないので、プロダクトチームに 共有してもリリースの対応や修正作業等に追われ、 優先順位がどんどん後回しにされてしまっていた • 影響の度合いが不明瞭 • 優先順位が後回しに なりがち
  11. © 2026 ANDPAD All Rights Reserved. Confidential Confidential 13 ANDPADのCREとは

    Customer Reliability Engineer 一般的にサービスを利用するユーザーに対してサービスの信頼性を保つことが求められ ており、アンドパッドでは顧客がサービスを利用して業務を円滑に進められるよう、技 術的アプローチにより顧客の不安を迅速に解決することをミッションとしている。 メンバー単位で見るとプロダクト毎に担当を割り当てつつ、CREチームとしては部門を 横断する様な動きをしている。プロダクト単体では解決しづらい課題もCREを介すこと でプロダクト間のコミュニケーションをより円滑に進めることが期待される。 SRE • サービスの信頼性をコードや自動化で担保することが主責務 CRE • 顧客システムの信頼性向上を支援することが主責務
  12. © 2026 ANDPAD All Rights Reserved. Confidential Confidential ユーザーが何をしたかったのかという業務コンテキストを心得ている ため、遅延が発生した際、Bug起因なのか、ユーザーが意図的にデータ

    を一括ダウンロードしようとしたのかなど判別でき、False Positiveを フィルタリングして、本当に改修が必要な課題を届けやすくできる • ユーザーの文脈で ログを解釈できる 14 なぜCREが担当すべきか 顧客の契約プランや利用状況を把握しやすいため、技術的な影響度だ けでなくビジネス上の影響度を加味した判断が下せる • ログから原因を特定し、開発者と対等に議論しつつ、同時にCS担当 へ顧客にどう説明すべきかを翻訳して伝えることができる • これにより、影響が深刻な場合でも初動対応と顧客コミュニケー ションをスムーズに行うことが期待できる • 業務影響に基づいて 優先順位付けできる • 開発者と Biz の翻 訳者としての役割
  13. © 2026 ANDPAD All Rights Reserved. Confidential Confidential 15 監視体制の変遷:2025年まで

    プロジェクトチームが発足 遅いリクエストの監視スタート 運用をCREチームに移管 Slack通知 > 人力調査 > 集計 プロダクトチームに連携 エンタープライズの利用 監視条件の詳細化 自動化 2020年頃 2021年頃 ~ 2024 ~ 2025年 記録の集計から本質的な改善に向けてリソースを集中
  14. © 2026 ANDPAD All Rights Reserved. Confidential Confidential 17 CREチームで改善したこと

    1. 検知体制の再考 a. 検知する度に調査する運用 → 検知数を集計して優先度を判断する運用 i. エンドポイントの傾向や事象の背景などが把握でき、様々な判断がし易くなった 2. 共有方法の再考 a. どうなった時点で、どこで、誰に対して、どの情報を共有するかを整理した 3. 効果検証 a. 検知 → 調査 → 共有 → 修正 を繰り返した結果としてその後どう変わったかを検証 4. 業務平準化 a. どのメンバーであっても立ち回れるように業務フローを平準化 検知体制の再考 共有方法の再考 効果検証 業務平準化
  15. © 2026 ANDPAD All Rights Reserved. Confidential Confidential 1 検知

    • Datadogから一定時間以上要したリクエストやエンタープライズの環境で遅 いリクエストデータを自動で探す 2 集計・通知 • 初検知の問題なのか or 既知の問題なのかを識別し、スプレッドシートに自動 で書き込む • チームメンバーから営業日毎に輪番で担当を1名割り振り、今日の担当者に Slackで集計結果を通知する 3 共有・修正 • 問題を抱えたエンドポイントを所管するプロダクトチームに情報を共有し、 必要に応じて修正対応を依頼 18 2026年2月時点の運用
  16. © 2026 ANDPAD All Rights Reserved. Confidential Confidential 19 一連の流れ

    Logの取得 集計&書き込み 毎営業日に通知 Google App Script 一連の処理をGASで制御 参考:ANDPAD TECH BLOG CREがエンジニアリングで業務効率化 をおこなった話 〜Datadogから異常 に重いリクエスト数を自動集計
  17. © 2026 ANDPAD All Rights Reserved. Confidential Confidential 22 課題

    モニタリングで事象を検知してから、事象が改善されるまでの 一連の対応を画一的に取り組むことができているプロダクトは 30以上展開しているプロダクトの中でも一部に留まっている… ※ モニタリング対象のプロダクトと本スライド上のアイコンは関係ありません
  18. © 2026 ANDPAD All Rights Reserved. Confidential Confidential 23 今後やっていきたいこと

    • 同様の改善活動を横展開していきたい ◦ 展開していないプロダクトにも展開したい • フロントエンドでもモニタリングを強化したい • そもそも遅いリクエストを本番環境で発生させな いようにするための環境作りに寄与したい ◦ 負荷テストの強化など 何をどのようにやるかなどの具体策を絶賛検討中
  19. © 2026 ANDPAD All Rights Reserved. Confidential Confidential 1 極端に遅いリクエストは、業務効率と収益を著しく損ないます

    2 CREは顧客信頼性の維持をミッションとし、技術的に貢献します 24 まとめ 3 4 検知体制を再構築し、GASで自動化運用を確立しました 今後は遅いリクエストを生じさせないよう、未然防止に注力します
  20. © 2026 ANDPAD All Rights Reserved. Confidential Confidential 25 We

    are hiring ! https://engineer.andpad.co.jp/