Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
SRE改善サイクルはチームを超えて - ダッシュボードを眺める会の取り組み/SRE impro...
Search
AEON
September 18, 2024
Technology
1
3.8k
SRE改善サイクルはチームを超えて - ダッシュボードを眺める会の取り組み/SRE improvement cycle across teams
2024年9月18日開催「一休×AEON 事業会社のサービスを支える基盤開発トーク」の登壇資料です。
https://ikyu.connpass.com/event/327095/
AEON
September 18, 2024
Tweet
Share
More Decks by AEON
See All by AEON
【内製開発Summit 2025】イオンスマートテクノロジーの内製化組織の作り方/In-house-development-summit-AST
aeonpeople
2
1.3k
【ITmedia DX Summit 23/基調講演】イオンが構築する超大規模データ基盤と、その活用戦略
aeonpeople
2
380
イオングループ プロダクト人材向け会社紹介資料 / AEON Product Talent Recruitment Deck
aeonpeople
0
140
DevOpsに向けたテスト方針/Testing Policy for DevOps
aeonpeople
1
110
HCP TerraformとAzure:イオンスマートテクノロジーのインフラ革新 / HCP Terraform and Azure AEON Smart Technology's Infrastructure Innovation
aeonpeople
3
1.5k
イオンスマートテクノロジーとTerraformの歩み、そしてPlaftorm Engineering/AEON Smart Technology with Terraform
aeonpeople
3
790
2025年に活用していきたいAzure関連のブラウザ拡張 / Azure-Related Browser Extensions to Leverage in 2025
aeonpeople
1
350
NerdGraph APIに入門する/Getting Started with the NerdGraph API
aeonpeople
1
430
BizDevOps加速のカギ/the key to accelerating BizDevOps
aeonpeople
0
380
Other Decks in Technology
See All in Technology
VPoEの引き継ぎでやったこと、わかったこと
saitoryc
1
110
Linuxのブートプロセス
sat
PRO
6
100
株式会社Awarefy(アウェアファイ)会社説明資料 / Awarefy-Company-Deck
awarefy
3
12k
困難を「一般解」で解く
fujiwara3
9
2.9k
アウトカムを最大化させるプロダクトエンジニアの動き
hacomono
PRO
0
120
AI-Driven-Development-20250310
yuhattor
3
320
Cracking the Coding Interview 6th Edition
gdplabs
14
28k
エンジニアのキャリアパスと、 その中で自分が大切にしていること
noteinc
3
3.1k
早くて強い「リアルタイム解析基盤」から広げるマルチドメイン&プロダクト開発
plaidtech
PRO
1
120
スクラムというコンフォートゾーンから抜け出そう!プロジェクト全体に目を向けるインセプションデッキ / Inception Deck for seeing the whole project
takaking22
3
310
OPENLOGI Company Profile for engineer
hr01
1
21k
プルリクエストレビューを終わらせるためのチーム体制 / The Team for Completing Pull Request Reviews
nekonenene
4
2k
Featured
See All Featured
XXLCSS - How to scale CSS and keep your sanity
sugarenia
248
1.3M
Site-Speed That Sticks
csswizardry
4
420
Measuring & Analyzing Core Web Vitals
bluesmoon
6
270
Scaling GitHub
holman
459
140k
Automating Front-end Workflow
addyosmani
1369
200k
Optimising Largest Contentful Paint
csswizardry
34
3.1k
ReactJS: Keep Simple. Everything can be a component!
pedronauck
666
120k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
33
2.8k
Principles of Awesome APIs and How to Build Them.
keavy
126
17k
Fontdeck: Realign not Redesign
paulrobertlloyd
83
5.4k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
115
51k
Large-scale JavaScript Application Architecture
addyosmani
511
110k
Transcript
SRE改善サイクルはチームを超えて - ダッシュボードを眺める会の取り組み - イオンスマートテクノロジー株式会社 DevSecOps Div SREチーム 林 如弥
一休×AEON 事業会社のサービスを支える基盤開発トーク 2024年9月18日
Agenda • 各種紹介(自己、グループ、会社) • SREへどう向き合うか • 可観測性(Observability)の実装 • 可観測性(Observability)の展開 o
ダッシュボードを眺める会 • まとめ
自己紹介
もりはや aka 林 如弥(@morihaya55) イオンスマートテクノロジー株式会社 DevSecOps Div SREチーム所属 (2024/3入社) 趣味:Podcast鑑賞・映画鑑賞・読書・ジョギング
おすすめのPodcast 「COTENラジオ」 おすすめの書籍 「数理思考モデルで紐解く RULE DESIGN」 おすすめの映画 「RRR」
イオングループ紹介
イオングループ紹介 - 関連数字 https://www.aeon.info/company/ - "INFOGRAPHICS 数字で見るイオングループ"
イオングループ紹介 - イオンの主な事業 https://www.aeon.info/company/message/profile/ - "イオン会社案内2024 - イオンの主な事業"
会社紹介
会社紹介
会社紹介
iAEONアプリについて 膨大なIDと購買データを集約したアプリ「iAEON」 iAEON(アイイオン)はイオングループが提供する決済機能やポイントプログラムを1つにまとめたアプリです。 イオングループ内の多数の事業会社がもつ顧客IDを一つのアプリに統合しています。 提供開始から約3年で、iAEONは940万人以上の会員を抱え(24年9月時点)、総ダウンロード数は1000万を2024年6月に突破しました。
IAEONアプリについて - おすすめ機能 レシートレス機能 - 2024/6/21にリリース!!! https://www.aeon.com/aeonapp/service/digitalreceipt/ - "レシートレス機能"
イオンで利用している技術スタック(一部) https://speakerdeck.com/aeonpeople/aeon-engineer-recruitment-deck - "イオングループエンジニア向け会社紹介資料 P19"
SREへどう向き合うか
SREへどう向き合うか 「こんにちは!SREのもりはやです!!」 リリース管理 インシデントレスポンス コスト削減
SREへどう向き合うか SREについて、私たちは常に理解のための 反復を続ける必要を感じています。 https://aeon.connpass.com/event/310105/ - "大企業経営におけるSREの重要性 | AEON TECH HUB
#3"
SREへどう向き合うか SREには優れたWeb(英語)や書籍が提供されています。 And more...
SREへどう向き合うか SREには優れたWeb(英語)や書籍が提供されています。 上記の書籍だけで 総ページ数: 2,570 P 総計金額: 26,180円
SREへどう向き合うか 「全てを完全に理解するには人生は短すぎる...」 「ダニング=クルーガー効果の最初の山の頂はどこだ?」 https://biz.moneyforward.com/payroll/basic/63123/ - "ダニングクルーガー効果とは?原因や対処法を具体例を用いて解説!"
SREへどう向き合うか とりあえずの一冊を個人的にあげるとすれば 『SREエンタープライズロードマップ - Google - Site Reliability Engineering』 https://sre.google/intl/ALL_jp/resources/practices-and-processes/enterprise-roadmap-to-sre/
SREへどう向き合うか • Webで日本語化されてPDFで公開(無料) • ページ数は64Pのみ • 『SRE本』と『ワークブック』をベースに • 訳者はGoogleのSREである山口 能迪氏
• 序文のメッセージの心強さ 「職種に関係なく、技術システムを設計、実装、また は保守している方なら、きっとお役に立てることがあ るはずです。」 https://sre.google/intl/ALL_jp/resources/practices-and-processes/enterprise-roadmap-to-sre/
SREへどう向き合うか この発表は"第1章 エンタープライズ SRE ことはじめ"の以 下をテーマとしています。 https://sre.google/intl/ALL_jp/resources/practices-and-processes/enterprise-roadmap-to-sre/
可観測性(Observability) の実装
可観測性(Observability)の実装 ASTではNew Relicによる可観測性を実装しています。 https://zenn.dev/aeonpeople/articles/3de631bafd1631 - FutureStack Tokyo 2023に登壇しました
可観測性(Observability)の実装 選定から実装に至る流れ(抜粋) https://speakerdeck.com/aeonpeople/ionnotesitarusihutozhan-lue-wozhi-eru-newrelichuratutohuomunodao-ru-toxiao-guo-1bef3f5a-3d81-4b8d-b587-f92c7800f364
可観測性(Observability)の実装 広がり続けているNew Relicの利用ユーザは300人を超えています。 (Basicなど全てのタイプを含む) ※最近ではMicrosoft Entra IDでのSSOにより展開スピードも向上
可観測性(Observability) の展開 - ダッシュボードを眺める会
可観測性(Observability)の展開 このようにして、 New Relicの実装により「システムの状態をみたい時 に見れる土台」はできつつあります。
可観測性(Observability)の展開 利用するユーザも増え続けており、 APMを利用できる有料ユーザは、 常に枯渇気味な程の人気ぶりです。
可観測性(Observability)の展開 さてここで、 みなさんにも問い掛けたい。
可観測性(Observability)の展開 お手元からアクセス可能な 「可観測性を高めるツール」、 ”平時”でも確認していますか?
可観測性(Observability)の展開 • アラートが発生した • お客様などから問題報告を受けた • リリースなどの変更を行う こんな時だけ見ていませんか?
可観測性(Observability)の展開 ”非常時”・”戦時”に活用するのはもちろん正 しい利用方法。 ただし急ぎの時にいきなり活用できるほどシ ステムもツールもシンプルではない...。
可観測性(Observability)の展開 定点観測会、親しみを込めて 「ダッシュボードを眺める会」の取り組み。
可観測性(Observability)の展開 特別なことはしていません。 • 週次で定期的に実施 • 参加者は開発・SREなど2チーム以上 • 発生したアラートの棚卸し • APMを中心に各項目をざっと見る
• コストの増減もチェック
可観測性(Observability)の展開 例1: アラートにならなかった異常を補足 グラフ: コンテナリスタートの数
可観測性(Observability)の展開 例1: アラートにならなかった異常を補足 • KubernetesのPodが特定のタイミングで一斉にリスタートした • Podのリスタート自体のアラートは入れていない • 今回のケースではDBのメンテナンスによるアプリケーションのヘルス チェックがエラーになったことで再起動が起きていた
可観測性(Observability)の展開 例2: 想定された変化を再確認 グラフ: モバイルアプリのバージョンが入れ替わっていく
可観測性(Observability)の展開 例2: 想定された変化を再確認 • モバイルアプリのリリースを2日目から行った • およそ4日目には最新バージョンが90%以上展開された • 一定の割合で古いバージョンは残り続けている
可観測性(Observability)の展開 例3: 放置すると危険な処理速度の予兆を発見 グラフ: とあるサービスのトランザクション時間
可観測性(Observability)の展開 例3: 放置すると危険な処理速度の予兆を発見 • 徐々にレスポンスが遅くなっていく典型的なグラフの上がり方 • Active Usersなどと比較しても比例がなかった • データ量やキャッシュなどの単純増加するケースでこのような動きが
• ワーニングアラートになる前に気付けてみんな嬉しい
可観測性(Observability)の展開 例4: プラス効果の変化も捉えられる グラフ: とあるサービスのトランザクション時間
可観測性(Observability)の展開 例4: プラス効果の変化も捉えられる • 3日目から全体の処理時間が半分程度に低下 • 水色部分の処理が明確に低下している • とあるDBのメンテナンス効果が出ていた
可観測性(Observability)の展開 このような変化を見つけて原因について議論 をし、必要な取り組みを検討することでダッ シュボードおよびNew Relicへの感度が上 がっていく手応えがある。 会を続けることで未然に障害を防いだ成果も 少なくない。
可観測性(Observability)の展開 さらには副次的な効果も • 課題作成・課題の棚卸し • 直近タスクのトピックなどの共有 • アイスブレイク・雑談 • 「ザイオンス効果(単純接触効果)」で互
いの仕事がやりやすく!
可観測性(Observability)の展開 この素晴らしい取り組みは私の入社前から 脈々と続いており、すでに開催数は ”50回以上” となり、定番の場として定着しつつも、予想 外の発見ができる場としても続いています。
可観測性(Observability)の展開 ここで再掲。「生成的な文化が必要」とありました。 https://sre.google/intl/ALL_jp/resources/practices-and-processes/enterprise-roadmap-to-sre/
可観測性(Observability)の展開 「生成」には、”ものを生み出す”意味のほかに、 ”成長”や”状態の変化”の意味もあります。 この取り組みの結果をまとめているConfluenceのページの トップには以下の文言が記載されています。 本発表の準備を通して、理想・変化に向けて挑戦を続けて いくとの気持ちを新たにしました。
まとめ
• SREの情報は多くある中で、個人的なおすすめは 『SREエンタープライズロードマップ - Google - Site Reliability Engineering』 •
イオンスマートテクノロジーではNew Relicで可観測性を実装 • 可観測性の展開として、チームを跨いで広げる「ダッシュボードを眺める会」 • 展開の後でSREが不在で良くなることも目指す • SREの成功に不可欠な「生成的な文化」を持って柔軟に変化を起こしていきたい まとめ
告知
募集しています!