Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[SRE NEXT 2023]エンタープライズ企業でのSRE立ち上げ挑戦の際に意識した事と気付...

AEON
October 09, 2023
5.1k

[SRE NEXT 2023]エンタープライズ企業でのSRE立ち上げ挑戦の際に意識した事と気付き、 現在地とこれから

AEON

October 09, 2023
Tweet

More Decks by AEON

Transcript

  1. ©AEON Smart Technology Co., Ltd. All rights reserved. イオンスマートテクノロジー株式会社 AEON

    Smart Technology イオンスマートテクノロジー株式会社 CTO室 SREチーム 齋藤光 SRE NEXT 2023 エンタープライズ企業でのSRE⽴ち上げ挑戦の際に意識した事と気付き、 現在地とこれから
  2. 1 ©AEON Smart Technology Co., Ltd. All rights reserved. イオンスマートテクノロジー株式会社

    AEON Smart Technology ⾃⼰紹介 齋藤光 イオンスマートテクノロジー株式会社 CTO室 SREチーム所属 (2022/5⼊社) 経歴: SIer2社(通信業PJ、⾦融業PJ) → ネット系⾦融会社のインフラ運⽤部⾨責任者/プロダクトマネージャ → ⼩売業で⾃動化推進、プライベートクラウド基盤の運⽤ → 現職でSREチーム⽴ち上げ、組織に対するSREのインストール 趣味︓ヨガ
  3. 2 ©AEON Smart Technology Co., Ltd. All rights reserved. イオンスマートテクノロジー株式会社

    AEON Smart Technology アジェンダ • 会社紹介 • 背景 • やってきたこと • 意識したこと • しくじり事例で学ぶ、気づき・気をつけること • まとめ
  4. 3 ©AEON Smart Technology Co., Ltd. All rights reserved. イオンスマートテクノロジー株式会社

    AEON Smart Technology 会社紹介 イオンスマートテクノロジー株式会社とは︖ • イオンのデジタルシフト戦略を担う位置付けで2020年10⽉に設⽴ • お客様のお買い物体験向上と店舗DXを進める。
  5. 7 ©AEON Smart Technology Co., Ltd. All rights reserved. イオンスマートテクノロジー株式会社

    AEON Smart Technology 会社の⼤まかな状況と取り組み • 設⽴して3年⽬ • 設⽴当時は、外部ベンダ委託による開発がほとんどだったが、内製化に取り組んでおり、 内製化範囲拡⼤に向けて邁進中 • 約100名の社員のうち、半数の50名はエンジニア ◦ マーケティング部⾨・ビジネス企画部⾨・営業部⾨もあり、⼀体となり開発 • オンプレミスはなく、全てのプロダクトをAzure上で構築・運⽤ ◦ ほぼ全てのアプリケーションをコンテナで。 ◦ ⼀部はマイクロサービスで開発 ◦ メインプロダクトであるiAEONに関するワークロードは AKS上で稼働 ! " # $ % 開 発 ( ) * ! " # $ % 開 発 ( ) * ! " # $ % 開 発 ( ) * ! " # $ % 開 発 ( ) * ! " # $ % 開 発 ( ) * ! " # $ % 開 発 ( ) * ! " # $ % 開 発 ( ) * ! " # $ % 開 発 ( ) * ! " # $ % 開 発 ( ) * 運⽤保守チーム SREチーム QAチーム TechLeadチーム 組織体制イメージ
  6. 8 ©AEON Smart Technology Co., Ltd. All rights reserved. イオンスマートテクノロジー株式会社

    AEON Smart Technology ⼈はエンタープライズに何を想像するか • 運⽤と開発の分離 • 温もり溢れるExcelの⼿順書 • GUIポチポチ⾄上主義おじ様 • オーナーシップの⽋如 • “変わりたくない”、”変えたくない” おじ様 • たくさんの承認 • 多くのステークホルダー • “⼝頭で依頼”おじ様 • ダブルチェック︕︕ダメならトリプルチェックだ︕︕
  7. 9 ©AEON Smart Technology Co., Ltd. All rights reserved. イオンスマートテクノロジー株式会社

    AEON Smart Technology イオンスマートテクノロジーは、エンタープライズでもありスタートアップでもある Cloud・内製化・マイクロサービスを採⽤しているが、これらはあくまでHowであり、それを活かす構造になるにはまだや るべきことがある • Cloudを使っているが、組織構成はCloud Nativeに最適となっているのか︖ • 開発〜運⽤のフローを最適化できているか︖ • マイクロサービス、コンテナを使っているが、ルールや仕組みはそれに合っているのか︖ • 様々なスキルや背景を持つ⼈間が集まっている。 • 古き良き運⽤で⽀えられている部分もある。 • 多数のグループ会社が関わるが故のステークホルダーの多さ、影響範囲の⼤きさ • 様々なPJ体制・構造 ◦ iAEONアプリを動かすだけでも複数のシステムが関連する。システムごとに体制が違う。
  8. 10 ©AEON Smart Technology Co., Ltd. All rights reserved. イオンスマートテクノロジー株式会社

    AEON Smart Technology SREチーム創設時の状態とその後 • インフラチームをSREチーム化 • ⾃⾝の守備範囲(インフラ)における⾃動化は熱⼼でIaCを実践していた。 • 組織構造は、オンプレであるような機能レイヤカットの構成 ◦ 監視︖運⽤チームが⾒てくれるでしょ︖ ◦ 開発チームはリリースすることで評価される。アラート︖運⽤チームさんが受けてくれるんですよね︖ ◦ アプリでエラーが起きた︕︖インフラさん調べてください。 2020/10 設⽴ (インフラチーム。 社員2名) 2022/4 SREチーム発⾜ 2022/5 ワイ⼊社 (3⼈⽬) 2023/8 4⼈⽬join 2023/9 5⼈⽬join
  9. 11 ©AEON Smart Technology Co., Ltd. All rights reserved. イオンスマートテクノロジー株式会社

    AEON Smart Technology チームの役割定義 • サイトの信頼性を横断チーム頼みになる状況を避ける ◦ この瞬間丸投げが⽣まれる。 • ゲートキーパーの存在にならないようにしたい ◦ 弊社はこの先、開発量が増えることが予想される。 ◦ そもそもSREの実践において、SREチームの存在は必須ではない。 • チームトポロジーにおける、enablerとplatformerを⽬指す。 ◦ ストリームアラインドチームとしてのフローを最適化していく ◦ 開発チームにオーナシップを持たせる SREチーム プロダクト開発チーム Platformer Enabler モニタリング基盤の整備 全体的なインフラ基盤設計 個別システムのインフラ設計 基盤のセキュリティ強化 CICDプラットフォームの整備 など SRE実践のサポート ・ポストモーテム ・モニタリング定点観測 など https://amzn.asia/d/9e7akXD
  10. 12 ©AEON Smart Technology Co., Ltd. All rights reserved. イオンスマートテクノロジー株式会社

    AEON Smart Technology やっていくにあたり • 組織に変化を起こすのは常に1⼈の⾏動から。 • ⼩さく始める ◦ 重要なところから ◦ 条件的にやりやすいところから • 満点は不可能 ◦ 今⽇より良くなることを積み上げる。 • ⼈が関わる以上、タイミングが必要な場合もある。準備をしながら機会を伺う。 ◦ 正論は時に⼈を傷つける ◦ どんなに優れた⼿段・戦略も実⾏⼒(組織⼒)がないと意味がない。 • その改善は、組織・サービスに良い影響をもたらすか︖ “まず、あなたが、 ⾃分のいる場所から始めよう” https://amzn.asia/d/bJjFkDN
  11. 14 ©AEON Smart Technology Co., Ltd. All rights reserved. イオンスマートテクノロジー株式会社

    AEON Smart Technology やってきたことの例 • 「相談」から「作業依頼」へ。 ◦ 作業依頼をフォーマット化 • 作業依頼からセルフサービス化へ ◦ SREチームは承認だけすれば良いという作業を増やす。 ◦ 真っ先にやったのはアカウント作成 • Terraformコードのリファクタリング ◦ お世辞にもイケてるコードではなかった。 ◦ ⾜回りの整備は短期的には成果につながらないが、中⻑期的観点ではすぐやらなければならないと判断 ◦ import祭りは⾟い(⾟い) ◦ Hashi Talks Japan 2022「Terraform 構成管理 NG祭」で検索︕ https://www.youtube.com/watch?v=-w6oujPDTpc&list=PL81sUbsFNc5aWJJrpaclnwARJAzf1- 2bV&index=17
  12. 15 ©AEON Smart Technology Co., Ltd. All rights reserved. イオンスマートテクノロジー株式会社

    AEON Smart Technology やってきたことの例 • ポストモーテムの習慣化 • コストモニタリングの仕組みづくり ◦ 「Azureのコスト?インフラだからSREチームが⾒てね」のマインドからの脱却 ◦ コストモニタリングの⼤枠の仕組み(View、アラート)を整え、プロダクト開発チーム⾃⾝が責任を持つ体制へ ◦ プロダクト開発チームのオーナシップを意識させた好例 ◦ 共通基盤はまだ課題がある。 • 監視・モニタリング基盤の統⼀ ◦ システムごとでバラバラだった監視ツールをNew Relicに統⼀ ◦ Mobileからbackendまでの情報を1つのプラットフォームに集めて、障害調査の短縮化/誰もがデータを元に調査で きる状況へ。 ◦ これを契機に、開発チームと定点観測会を実施するように。 ◦ モニタリング・オブザーバビリティのオーナシップをプロダクト開発チームに持たせていく。 • アプリケーションリリースのCI/CD化 ◦ ⾃分たちでできないチームに対してはSREチームが作りに⾏く。 ◦ CI・CDの標準や技術要素はSREで定める。
  13. 17 ©AEON Smart Technology Co., Ltd. All rights reserved. イオンスマートテクノロジー株式会社

    AEON Smart Technology 意識したこと(1)︓意思決定者へ⽬指す⽅向を共有する。 • 副社⻑や本部⻑以上に対して、何を⽬指すか取り組んでいくかを共有する定例 ◦ SREという⾔葉に期待があった事は、運が良かった。 • 正しい理解が必要。だが、SREの実践に正解はない ◦ 会社の重要な課題から潰していく。 ◦ 重要な課題は何なのか︖をそこで認識合わせる。 • 直接意思決定者と⼤⽅針を決められるのはスピード感の点で⼤きい • 各チームへの共有も必要 これやります︕ ええで
  14. 18 ©AEON Smart Technology Co., Ltd. All rights reserved. イオンスマートテクノロジー株式会社

    AEON Smart Technology 意識したこと(2)︓説明よりも動くものを⽤意する。 • 「変えたくない」おじ様はどこにでもいる ◦ まずはメリットを説明していく ◦ 場合によっては「仕事を奪う」存在と⾒られる • 事前説明や情報取得が⼤変だったり、重厚な説明をするくらいなら、動くものを作ってしまい、説明する。 ◦ もちろん守るべきものは守る。 ◦ 技術的な理解が追いつかなさそうな相⼿の場合は説明よりもデモの⽅が伝わる。 ◦ もしも相⼿のやること⾃体に変更がなければ⽂句は出にくい。 • 有益なものであるならば、勝⼿に⼈はそれに乗っかってくる。
  15. 19 ©AEON Smart Technology Co., Ltd. All rights reserved. イオンスマートテクノロジー株式会社

    AEON Smart Technology 意識したこと(3)︓コミュニケーション • 「仕組みは作った︕周知した︕後はよろしく︕」は悪⼿ ◦ ガイドは必要だが、ガイドだけで動くなら苦労はしない。 • オープンに話せる場を作っておく ◦ 弊社の場合はSlackチャンネル。 ◦ 作った仕組みに対する質問やチケットに対するフォローはそこで⾏う。 ◦ フランクさが超重要 • 同じ⽬標を持つ状況を作り出し、協⼒する。 ◦ 障害対応や有事の取り組みには、積極的に参加する ◦ 同じ⽬的・⽬標に向かって進む機会を増やす。 ◦ 短期的であればヒーロー的⾏動は効果的 • 結局は信頼関係が⼤事。相⼿の役に⽴つ事を積み上げる。
  16. 20 ©AEON Smart Technology Co., Ltd. All rights reserved. イオンスマートテクノロジー株式会社

    AEON Smart Technology しくじり事例で学ぶ、気づき・気をつけること
  17. 21 ©AEON Smart Technology Co., Ltd. All rights reserved. イオンスマートテクノロジー株式会社

    AEON Smart Technology しくじり事例(1)︓フロー全体を意識する • 構成管理もCI/CDもできていなかったk8sのリリースをSREで整えた。 • しかし、PRの前の段階で無駄な情報のやり取りが⾏われていた・・・。 フローの⼀部プロセスの⾃動化・効率化では不⼗分なケースがある。 ⾃チームの範囲を超えてフロー全体を意識して、組織のフロー向上を考える。 効率化・⾃動化のポイントは「不要な作業」をなくすこと ⼿動作業A ⼿動作業B 連携作業 連携作業 ⼿動作業C ⾃動 作業A ⾃動 作業B ⾃動 作業C ⾃動 作業A ⾃動 作業B ⾃動 作業C 温もりのある 連携作業 謎のブリッジ Git Create PR Pipelines 各種パイプライン Trigger Developer ⼈類の叡智 現状がこうだ としたら・・・ 理想 これは意味 がない
  18. 22 ©AEON Smart Technology Co., Ltd. All rights reserved. イオンスマートテクノロジー株式会社

    AEON Smart Technology しくじり事例(2)︓ツールの使い⽅をミスるとツール⾃体が悪にされがち問題 • 某IaCツールを利⽤していたが、設定ミスで意図せずapplyが発⽣し障害に。 ◦ 要因は複合的ではあるものの、ツール設定が適切なら問題を⾷い⽌められた。 • ツール⾃体が悪になり、 ツールの⼊れた⽬的を台無しにするような再発防⽌を求められることも。 仕組みを悪にするではなく、仕組みの改善ベースで話を持っていけるように。 こういう事態を避けるために守るべきところは守る。 (⼀度やらかすと信頼関係も含めて⾯倒なことに)
  19. 23 ©AEON Smart Technology Co., Ltd. All rights reserved. イオンスマートテクノロジー株式会社

    AEON Smart Technology しくじり事例(3)︓⽀援という⾔葉が先⾏しすぎて責任分界点が曖昧に • 「⽀援」という⾔葉により、チームの責任分掌が曖昧になる。 ◦ ⼈により解釈が異なる。 • この設定は誰が責任を持つのか︖ ◦ 実はお互いが影響するケースもある。 • 明確にしておかないと、都度「これはどのチームがやるものですか︖」の会話が⽣まれる。
  20. 24 ©AEON Smart Technology Co., Ltd. All rights reserved. イオンスマートテクノロジー株式会社

    AEON Smart Technology しくじり事例(4)︓⽀援という役割に固執すると、崩壊するチームもある。 • 開発チームのコンディションは様々 ◦ どこも⼈は⾜りていない。 • 「SREは⽀援なので」論を振りかざしても状況は進まない場合がある。 • 短期的には、SREチームがパワーをかけて⽴て直していく場⾯は必要。 ◦ ⼈が⾜りません
  21. 26 ©AEON Smart Technology Co., Ltd. All rights reserved. イオンスマートテクノロジー株式会社

    AEON Smart Technology 展望 • SLI/SLOの策定と管理 ◦ まずはCUJから・・・ • トイルをちゃんと分析して解決するフローを回す状態にする ◦ 今は明らかに⼤きい課題が多いので、それを⽚付けている • SREとしてビジネス貢献する。 • まだ1〜2合⽬ ◦ 開発チームがオーナーシップを持てるようなプラットフォームの磨き込み ◦ SREプラクティス実践の拡⼤ 少数プロダクトで 実践 全てのプロダクト で実践 会社の⽂化に まだここ
  22. 27 ©AEON Smart Technology Co., Ltd. All rights reserved. イオンスマートテクノロジー株式会社

    AEON Smart Technology まとめ • どのような環境でも、変化は1⼈⽬から起こすもの。 ◦ 始めているからこそ2⼈⽬以降の仲間が活躍できる。 • SREの取り組みは運⽤を磨き込むもの • SREの実践を通して⽂化は変わり、⽂化が変わった良い組織は良いプロダクトを作る
  23. 28 ©AEON Smart Technology Co., Ltd. All rights reserved. イオンスマートテクノロジー株式会社

    AEON Smart Technology Weʼre Hiring!! イオンスマートテクノロジーではエンジニアを絶賛採⽤中です︕ https://hrmos.co/pages/ast