Upgrade to Pro — share decks privately, control downloads, hide ads and more …

dipにおけるSRE変革の軌跡

 dipにおけるSRE変革の軌跡

More Decks by ディップ株式会社

Other Decks in Technology

Transcript

  1. Copyright © DIP Corporation, All rights reserved. 2 Agenda 1.はじめに(自己紹介)

    2.今まで:“インフラエンジニア”でした 3.転換期:SREチームへ 4.今:ユーザ体験を創るために 5.未来:SRE+AIへ
  2. Copyright © DIP Corporation, All rights reserved. 自己紹介 大賀 光輝

    (おおが ひかる) 入社:2024年4月 (新卒2年目) 担当プロダクト: 趣味:写真、ポータブルオーディオ、コーヒー ソリューション開発本部 プラットフォーム開発統括部 プラットフォーム部 SRE・AI1課 SRE+AIエンジニア 4
  3. ビジョン “Labor force solution company” 人材サービスとDXサービスの提供を通して、労働市場における諸課題を解決し、 誰もが働く喜びと幸せを感じられる社会の実現を目指します。 × DX事業 Digital

    labor force solution バイトコミュニケーションアプリ『バイトルトーク』や、 機能を絞ったシンプルなSaaS型の『コボット』を通じて、 職場環境やコミュニケーション課題を解決しています。 人材サービス事業 Human work force solution ユーザーファーストな独自機能を搭載した、 求人情報・人材紹介サービスの提供を通じて、 ユーザーの就業課題を解決しています。 ディップ株式会社とは Copyright © DIP Corporation, All rights reserved. 5
  4. Copyright © DIP Corporation, All rights reserved. 6 開発組織と技術スタック およそ150名

    開発組織の規模 プロダクトのアーキテクチャ例 PHP / Laravel / Go / Next.js / React / Vue.js / Ruby on Rails / Swift / Kotlin / Python など 開発環境 AWS / GCP / Zabbix / New Relic / Hinemos / Oracle / PostgreSQL / Terraform / Ansible など インフラ環境
  5. DX事業 人材サービス事業 Copyright © DIP Corporation, All rights reserved. 8

    DXプロダクト開発統括部 システム統括部 2024年時点の開発組織 それぞれの事業部に別々の開発・インフラチーム
  6. Copyright © DIP Corporation, All rights reserved. 9 当時のインフラチームの日常 依頼ベースの作業

    開発「サーバ立ててください」 ↓ インフラ「はい、立てます」 インフラ指標での障害対応 アラート「CPU使用率90%超え!」 ↓ インフラ「再起動します!ポチ」 ⇨
  7. 課題①:そびえ立つ組織の壁 Copyright © DIP Corporation, All rights reserved. 開発 「なんか遅い...インフラの問題かも?」

    インフラ 「サーバは正常です。アプリでは?」 課題 コミュニケーションの壁 お互いの領域のブラックボックス化 結果、ユーザ影響が長引く 10
  8. 課題②:知らぬうちに「同じこと」問題 Copyright © DIP Corporation, All rights reserved. 人材サービス事業インフラ 「よし、Aの取り組みをするぞ!」

    DX事業インフラ 「よし、Bの取り組みをするぞ!」 課題 事業部ごとに組織が独立 ⇩ 知見が共有されず、同じ仕事を別々 に... 11
  9. 課題③:サーバは元気。でもユーザは... Copyright © DIP Corporation, All rights reserved. インフラ 「CPU

    OK!メモリOK!LAもいい感じ!」 ユーザ 「サイトが表示されない...」 「ボタンが押せない...」 課題 インフラ指標の監視だけではユーザ が本当に体感している問題に気づけ ない 知らないうちにユーザの信頼を失う リスク 12
  10. dip Tech Vision Copyright © DIP Corporation, All rights reserved.

    ユーザに最速で価値を届けるためのチームへ 16
  11. 役割とマインドセットの変化 Copyright © DIP Corporation, All rights reserved. Before After

    役割・分業 チームトポロジ 依頼ベース プラットフォーム提供 インフラ中心 ユーザ体験中心 サイロ化 コラボレーション 19
  12. Copyright © DIP Corporation, All rights reserved. 22 取り組み①: 「肌感」から「データ」へ

    SREのプラクティスに沿って推進 CUJを定義。 導入するSLI/SLOの優先順位づけを実施。重要なCUJからSLOの定義を策定中。 New Relicの各種機能(APM/Infra/Brouser/Mobile/Synthetic Monitoring)を用いて計測。 協働 開発チーム/企画チームを巻き込んでPJ化。 ユーザに近い観点での計測導入に向けて早い段階で共通認識の醸成/フロー化を図る。 ⇩ ユーザのご意見を汲んでからの対応ではなくプロダクトとして早期に対応できるように
  13. 取り組み②: 「ヒーロー」から「チーム」へ Copyright © DIP Corporation, All rights reserved. 障害対応フローを再構築

    IC OL CL IC (Incident Commander) 障害対応の指揮 OL (Ops Lead) 復旧作業者 CL (Communications Lead) 社内調整者 23
  14. 取り組みによって期待している変化 Copyright © DIP Corporation, All rights reserved. Before After

    気づけなかった障害 ユーザ体験の劣化を即時検知 長引く原因調査 ボトルネックの特定の迅速化 属人的な対応 チームで再現性のある対応 なんとなくの運用 エラーバジェットに基づいた意思決定 24
  15. Copyright © DIP Corporation, All rights reserved. 25 その他の取り組み IaC標準化(Terraform)

    2019年からTerraformを利用 ・密結合なコード ・低い可読性 ・属人的な運用 ⇩ Terragrunt/tflint/trivy/GHA をはじめ、ツール導入・リファクタ・ ルール整備により改善 コスト・セキュリティ向上 ・AWS Quick Sight + Amazon Qを 活用したコスト分析 ・AWS Security Hub/GuardDutyに よるセキュリティ向上 etc...
  16. SRE+AIでこんな未来を創りたい Copyright © DIP Corporation, All rights reserved. 信頼性の測定と管理 キャパシティプランニングとパフォーマンス

    チューニング コスト・セキュリティ Toilの排除 インシデント管理とポストモーテム ⇨ AI活用で自動化・自律的な改善へ 27
  17. 感じている課題 Copyright © DIP Corporation, All rights reserved. 文化形成 SRE+AIは他社事例も少ない

    ⇩ 文化形成が鍵 Toilのさらなる削減 まだまだ残る手作業を どう削減していくか AI活用のためのデータ整備 AIに学習させるための 質の高いデータの集め方 etc... 29 文化形成
  18. Copyright © DIP Corporation, All rights reserved. 31 まとめ 今まで(~2025/2)

    縦割り組織で非効率/属人的なインフラ運用 転換期(2025/3~) dip Tech Visionをきっかけにチームトポロジへ変革 今(2025/7) 未来 SLI/SLOを武器にユーザ体験へアプローチ SRE+AIでさらにプロアクティブなSREへ