Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
SRE改善サイクルはチームを超えて - ダッシュボードを眺める会の取り組み/SRE impro...
Search
Sponsored
·
SiteGround - Reliable hosting with speed, security, and support you can count on.
→
AEON
September 18, 2024
Technology
4.4k
1
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
SRE改善サイクルはチームを超えて - ダッシュボードを眺める会の取り組み/SRE improvement cycle across teams
2024年9月18日開催「一休×AEON 事業会社のサービスを支える基盤開発トーク」の登壇資料です。
https://ikyu.connpass.com/event/327095/
AEON
September 18, 2024
More Decks by AEON
See All by AEON
iAEONの段階的リアーキテクト戦略 / iAEON's_Gradual_Re-architecture_Strategy
aeonpeople
0
260
イオンスマートテクノロジーの「SRE×AI」実践録 -インシデントからIaC、可観測性まで-/Aeon Smart Technology’s SRE × AI in Practice
aeonpeople
0
80
AI時代から振り返るTerraform drift運用の歴史 / AI Age Reflections on the History of Terraform Drift Operations
aeonpeople
2
690
New Relic MCPを活用した能動的オブザーバビリティユーザの拡大 / Scaling Active Observability with New Relic MCP
aeonpeople
0
180
Copilot CLI・IDE・Web・スマホで途切れない開発フローを目指して / One Copilot flow - CLI IDE Web Mobile
aeonpeople
1
1.4k
1人目SREが開発組織のトポロジーを変えるまでの実践知/the-first-sre-changed-team-topology
aeonpeople
0
640
AzureのIaC管理からログ調査まで、随所に役立つSkillsとCustom-Instructions / Boosting IaC and Log Analysis with Skills
aeonpeople
0
550
ASTのGitHub CopilotとCopilot CLIの現在地をお話しします/How AST Operates GitHub Copilot and Copilot CLI
aeonpeople
1
390
遊びで始めたNew Relic MCP、気づいたらChatOpsなオブザーバビリティボットができてました/From New Relic MCP to a ChatOps Observability Bot
aeonpeople
1
640
Other Decks in Technology
See All in Technology
4人目のSREはAgent
tanimuyk
0
220
Flow 不死:AI 時代 DevOps 的不變本質
cheng_wei_chen
2
530
作る力から、見極める力へ — AI時代に広がるエンジニアの価値と役割
rince
0
350
AI-DLCを “そのまま導入しなかった”話 ~組織に合わせてアジャストした 私たちの実践共有~
hiroramos4
PRO
1
430
2026 AI Memory Architecture
nagatsu
0
450
AIに障害切り分けを全部やってもらった。 。 。 。
estie
0
200
【FinOps】データドリブンな意思決定を目指して
z63d
2
420
本当の”仕事”を手放せる未来が見えた
mu7889yoon
0
150
Deep Data Security 機能解説
oracle4engineer
PRO
2
220
AI時代のコスト管理を考えよう〜明日から使える実践AWSノウハウ~
yoshimi0227
0
910
水を運ぶ人としてのリーダーシップ
izumii19
4
1k
AIエージェントとPhysical AIが拓く製造業の変革(ハノーバーメッセリキャップ)
iotcomjpadmin
0
150
Featured
See All Featured
Taking LLMs out of the black box: A practical guide to human-in-the-loop distillation
inesmontani
PRO
3
2.3k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
12
1.7k
Git: the NoSQL Database
bkeepers
PRO
432
67k
The Mindset for Success: Future Career Progression
greggifford
PRO
0
370
Ruling the World: When Life Gets Gamed
codingconduct
0
260
The Power of CSS Pseudo Elements
geoffreycrofte
82
6.3k
How People are Using Generative and Agentic AI to Supercharge Their Products, Projects, Services and Value Streams Today
helenjbeal
1
220
The Limits of Empathy - UXLibs8
cassininazir
1
370
Documentation Writing (for coders)
carmenintech
77
5.4k
Designing for Timeless Needs
cassininazir
1
260
Agile Leadership in an Agile Organization
kimpetersen
PRO
0
170
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
49
10k
Transcript
SRE改善サイクルはチームを超えて - ダッシュボードを眺める会の取り組み - イオンスマートテクノロジー株式会社 DevSecOps Div SREチーム 林 如弥
一休×AEON 事業会社のサービスを支える基盤開発トーク 2024年9月18日
Agenda • 各種紹介(自己、グループ、会社) • SREへどう向き合うか • 可観測性(Observability)の実装 • 可観測性(Observability)の展開 o
ダッシュボードを眺める会 • まとめ
自己紹介
もりはや aka 林 如弥(@morihaya55) イオンスマートテクノロジー株式会社 DevSecOps Div SREチーム所属 (2024/3入社) 趣味:Podcast鑑賞・映画鑑賞・読書・ジョギング
おすすめのPodcast 「COTENラジオ」 おすすめの書籍 「数理思考モデルで紐解く RULE DESIGN」 おすすめの映画 「RRR」
イオングループ紹介
イオングループ紹介 - 関連数字 https://www.aeon.info/company/ - "INFOGRAPHICS 数字で見るイオングループ"
イオングループ紹介 - イオンの主な事業 https://www.aeon.info/company/message/profile/ - "イオン会社案内2024 - イオンの主な事業"
会社紹介
会社紹介
会社紹介
iAEONアプリについて 膨大なIDと購買データを集約したアプリ「iAEON」 iAEON(アイイオン)はイオングループが提供する決済機能やポイントプログラムを1つにまとめたアプリです。 イオングループ内の多数の事業会社がもつ顧客IDを一つのアプリに統合しています。 提供開始から約3年で、iAEONは940万人以上の会員を抱え(24年9月時点)、総ダウンロード数は1000万を2024年6月に突破しました。
IAEONアプリについて - おすすめ機能 レシートレス機能 - 2024/6/21にリリース!!! https://www.aeon.com/aeonapp/service/digitalreceipt/ - "レシートレス機能"
イオンで利用している技術スタック(一部) https://speakerdeck.com/aeonpeople/aeon-engineer-recruitment-deck - "イオングループエンジニア向け会社紹介資料 P19"
SREへどう向き合うか
SREへどう向き合うか 「こんにちは!SREのもりはやです!!」 リリース管理 インシデントレスポンス コスト削減
SREへどう向き合うか SREについて、私たちは常に理解のための 反復を続ける必要を感じています。 https://aeon.connpass.com/event/310105/ - "大企業経営におけるSREの重要性 | AEON TECH HUB
#3"
SREへどう向き合うか SREには優れたWeb(英語)や書籍が提供されています。 And more...
SREへどう向き合うか SREには優れたWeb(英語)や書籍が提供されています。 上記の書籍だけで 総ページ数: 2,570 P 総計金額: 26,180円
SREへどう向き合うか 「全てを完全に理解するには人生は短すぎる...」 「ダニング=クルーガー効果の最初の山の頂はどこだ?」 https://biz.moneyforward.com/payroll/basic/63123/ - "ダニングクルーガー効果とは?原因や対処法を具体例を用いて解説!"
SREへどう向き合うか とりあえずの一冊を個人的にあげるとすれば 『SREエンタープライズロードマップ - Google - Site Reliability Engineering』 https://sre.google/intl/ALL_jp/resources/practices-and-processes/enterprise-roadmap-to-sre/
SREへどう向き合うか • Webで日本語化されてPDFで公開(無料) • ページ数は64Pのみ • 『SRE本』と『ワークブック』をベースに • 訳者はGoogleのSREである山口 能迪氏
• 序文のメッセージの心強さ 「職種に関係なく、技術システムを設計、実装、また は保守している方なら、きっとお役に立てることがあ るはずです。」 https://sre.google/intl/ALL_jp/resources/practices-and-processes/enterprise-roadmap-to-sre/
SREへどう向き合うか この発表は"第1章 エンタープライズ SRE ことはじめ"の以 下をテーマとしています。 https://sre.google/intl/ALL_jp/resources/practices-and-processes/enterprise-roadmap-to-sre/
可観測性(Observability) の実装
可観測性(Observability)の実装 ASTではNew Relicによる可観測性を実装しています。 https://zenn.dev/aeonpeople/articles/3de631bafd1631 - FutureStack Tokyo 2023に登壇しました
可観測性(Observability)の実装 選定から実装に至る流れ(抜粋) https://speakerdeck.com/aeonpeople/ionnotesitarusihutozhan-lue-wozhi-eru-newrelichuratutohuomunodao-ru-toxiao-guo-1bef3f5a-3d81-4b8d-b587-f92c7800f364
可観測性(Observability)の実装 広がり続けているNew Relicの利用ユーザは300人を超えています。 (Basicなど全てのタイプを含む) ※最近ではMicrosoft Entra IDでのSSOにより展開スピードも向上
可観測性(Observability) の展開 - ダッシュボードを眺める会
可観測性(Observability)の展開 このようにして、 New Relicの実装により「システムの状態をみたい時 に見れる土台」はできつつあります。
可観測性(Observability)の展開 利用するユーザも増え続けており、 APMを利用できる有料ユーザは、 常に枯渇気味な程の人気ぶりです。
可観測性(Observability)の展開 さてここで、 みなさんにも問い掛けたい。
可観測性(Observability)の展開 お手元からアクセス可能な 「可観測性を高めるツール」、 ”平時”でも確認していますか?
可観測性(Observability)の展開 • アラートが発生した • お客様などから問題報告を受けた • リリースなどの変更を行う こんな時だけ見ていませんか?
可観測性(Observability)の展開 ”非常時”・”戦時”に活用するのはもちろん正 しい利用方法。 ただし急ぎの時にいきなり活用できるほどシ ステムもツールもシンプルではない...。
可観測性(Observability)の展開 定点観測会、親しみを込めて 「ダッシュボードを眺める会」の取り組み。
可観測性(Observability)の展開 特別なことはしていません。 • 週次で定期的に実施 • 参加者は開発・SREなど2チーム以上 • 発生したアラートの棚卸し • APMを中心に各項目をざっと見る
• コストの増減もチェック
可観測性(Observability)の展開 例1: アラートにならなかった異常を補足 グラフ: コンテナリスタートの数
可観測性(Observability)の展開 例1: アラートにならなかった異常を補足 • KubernetesのPodが特定のタイミングで一斉にリスタートした • Podのリスタート自体のアラートは入れていない • 今回のケースではDBのメンテナンスによるアプリケーションのヘルス チェックがエラーになったことで再起動が起きていた
可観測性(Observability)の展開 例2: 想定された変化を再確認 グラフ: モバイルアプリのバージョンが入れ替わっていく
可観測性(Observability)の展開 例2: 想定された変化を再確認 • モバイルアプリのリリースを2日目から行った • およそ4日目には最新バージョンが90%以上展開された • 一定の割合で古いバージョンは残り続けている
可観測性(Observability)の展開 例3: 放置すると危険な処理速度の予兆を発見 グラフ: とあるサービスのトランザクション時間
可観測性(Observability)の展開 例3: 放置すると危険な処理速度の予兆を発見 • 徐々にレスポンスが遅くなっていく典型的なグラフの上がり方 • Active Usersなどと比較しても比例がなかった • データ量やキャッシュなどの単純増加するケースでこのような動きが
• ワーニングアラートになる前に気付けてみんな嬉しい
可観測性(Observability)の展開 例4: プラス効果の変化も捉えられる グラフ: とあるサービスのトランザクション時間
可観測性(Observability)の展開 例4: プラス効果の変化も捉えられる • 3日目から全体の処理時間が半分程度に低下 • 水色部分の処理が明確に低下している • とあるDBのメンテナンス効果が出ていた
可観測性(Observability)の展開 このような変化を見つけて原因について議論 をし、必要な取り組みを検討することでダッ シュボードおよびNew Relicへの感度が上 がっていく手応えがある。 会を続けることで未然に障害を防いだ成果も 少なくない。
可観測性(Observability)の展開 さらには副次的な効果も • 課題作成・課題の棚卸し • 直近タスクのトピックなどの共有 • アイスブレイク・雑談 • 「ザイオンス効果(単純接触効果)」で互
いの仕事がやりやすく!
可観測性(Observability)の展開 この素晴らしい取り組みは私の入社前から 脈々と続いており、すでに開催数は ”50回以上” となり、定番の場として定着しつつも、予想 外の発見ができる場としても続いています。
可観測性(Observability)の展開 ここで再掲。「生成的な文化が必要」とありました。 https://sre.google/intl/ALL_jp/resources/practices-and-processes/enterprise-roadmap-to-sre/
可観測性(Observability)の展開 「生成」には、”ものを生み出す”意味のほかに、 ”成長”や”状態の変化”の意味もあります。 この取り組みの結果をまとめているConfluenceのページの トップには以下の文言が記載されています。 本発表の準備を通して、理想・変化に向けて挑戦を続けて いくとの気持ちを新たにしました。
まとめ
• SREの情報は多くある中で、個人的なおすすめは 『SREエンタープライズロードマップ - Google - Site Reliability Engineering』 •
イオンスマートテクノロジーではNew Relicで可観測性を実装 • 可観測性の展開として、チームを跨いで広げる「ダッシュボードを眺める会」 • 展開の後でSREが不在で良くなることも目指す • SREの成功に不可欠な「生成的な文化」を持って柔軟に変化を起こしていきたい まとめ
告知
募集しています!