Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Fanstaの1年を大解剖! 一人SREはどこまでできるのか!?
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
syossan27
December 18, 2024
Technology
870
2
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
Fanstaの1年を大解剖! 一人SREはどこまでできるのか!?
syossan27
December 18, 2024
More Decks by syossan27
See All by syossan27
一人SREが歩んだPlatform Engineeringスモールスタート実践録 ~ クラウドネイティブ会議版 ~
syossan27
4
2k
プロポーザル サポートガイドを読み解いていこう!
syossan27
3
810
幻滅期を越える サイトリライアビリティ エンジニアリング
syossan27
1
230
一人SREが歩んだ Platform Engineering スモールスタート実践録
syossan27
2
1.8k
SREって何? 現場で学んだサイト信頼性の第一歩
syossan27
5
1.6k
知識0からカンファレンスやってみたらこうなった!
syossan27
5
710
突然のメモリ使用率上昇へ対応! k8sカスタムコントローラー開発事例
syossan27
2
550
監視 やばい
syossan27
12
11k
最先端を追う前に、まず広めよう! 〜AIツールの普及活動のすすめ〜
syossan27
2
1.6k
Other Decks in Technology
See All in Technology
TypeScript Compiler APIとPHP-Parserを活用し、TypeScriptとPHPで型を共有する
shuta13
0
370
Rancherの紹介&Update情報(RancherJP Online Meetup #09)
yoshiyuki_kono
0
130
あなたの AI ワークスペースに、 専門コーダーを連れてくる - Amazon Quick Desktop 最新情報
kawaji_scratch
1
110
SIer20年! 培ったスキルがスタートアップで輝く時
shucho0103
0
690
新規ゲーム開発におけるAI駆動開発のリアル
202409e2
0
2.9k
Agentic ERPをどう設計するか ー 受発注エージェントを動かす、現場の知見と設計思想ー
recerqainc
1
1.9k
BigQuery の Cross-cloud Lakehouse への歩み
phaya72
2
600
ブロックチェーン / Blockchain
ks91
PRO
0
110
Terraformモジュールは、なぜ「魔境」化するのか
hayama17
2
220
Chart.js が簡単に使えるようになっていたので OGP 画像生成に使った話
kamekyame
0
170
React、まだ楽しくて草
uhyo
7
4.2k
探して_入れて_作って_使う_Agent_Skills___LT.pdf
peintangos
2
180
Featured
See All Featured
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
194
17k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
287
14k
Everyday Curiosity
cassininazir
0
220
Exploring anti-patterns in Rails
aemeredith
3
400
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
49
10k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
PRO
201
75k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
333
22k
Bioeconomy Workshop: Dr. Julius Ecuru, Opportunities for a Bioeconomy in West Africa
akademiya2063
PRO
1
140
XXLCSS - How to scale CSS and keep your sanity
sugarenia
250
1.3M
世界の人気アプリ100個を分析して見えたペイウォール設計の心得
akihiro_kokubo
PRO
71
40k
Rebuilding a faster, lazier Slack
samanthasiow
85
9.5k
Impact Scores and Hybrid Strategies: The future of link building
tamaranovitovic
0
300
Transcript
©MIXI Fanstaの1年を大解剖! 一人SREはどこまでできるのか!? 株式会社MIXI 井上 翔太
©MIXI 自己紹介 名前:しょっさん X(旧: Twitter)/ mixi2:@syossan27 所属:MIXI 活動: • SRE
Kaigi • SRE Magazine • ゆるSRE勉強会
©MIXI 宣伝!① 2025/01/26にSRE Kaigiというカンファレンスを開催します!!!!! 参加チケット絶賛発売中!!!!!
©MIXI 宣伝!② SRE Magazine 第6号発刊しました! 寄稿していただける方も常時募集中!!!!
©MIXI 宣伝!③ ゆるSRE勉強会、来年もやっていきます! 今年最後の開催の様子はTogetterでチェック!!
©MIXI ここから本題
©MIXI Fanstaのご紹介 • スポーツ観戦ができる飲食店に特化した検索サービス • スポーツ観戦できる飲食店をエリアやチーム、放映予定から検索し、予約できる • お店にとってはスポーツ観戦ができることを告知し、集客することができる ©Fansta
©MIXI 皆様 今年もお疲れ様でした
©MIXI 今年振り返りまし た?
©MIXI Fanstaでは四半期ごとに振り返り タイムライン KPT
©MIXI SREに絞って 1年を振り返ってみよ う
©MIXI 前提
©MIXI SREチーム:
©MIXI SREチーム:1名
©MIXI 1年でどこまでやれた か!?
©MIXI Jan Feb Mar Apr May Jun TerraformでIaC DMARC対応
Google Cloud 料金改定 Postmaster Tools 導入 やったこと 起こったこと SREについて チームに解説 APIサーバの コネクション プール枯渇 GitHub Copilot Chatの調査 大きめのディレクトリ トラバーサル攻撃に遭遇 Firebase Remote ConfigをIaC化 Four keysの 調査・検討 退職時対応 チェックシー トの整備 Four keysの実装 新規案件をお助けに スクラム自動化ツール 作成 OpenTelemetr yの実装 Four keys について チームに 解説
©MIXI DMARC対応
©MIXI DMARC対応 Googleが「メール送信者のガイドライン」を制定し、準拠しない場合に はメール送達が規制されるようになりました。 やらない と... ▪ メールの到達率や開封率の低下 ▪ なりすましメールの対象になりやすい
やること • DMARCレコードの追加 • 認証失敗時の処理方法を徐々に厳しくする (none → quarantine → reject)
©MIXI TerraformでIaC
©MIXI TerraformでIaC プロジェクトの初期から着手したかったTerraformにやっと手を付けれ ました。すべてのリソースをIaCにできてはいませんが、徐々に拡大中 やらない と... ▪ GCリソースの管理の難化 ▪ 開発チームのGCリソース作成へのハードル
やったこと • 一部のGCリソースをIaC化 • HCP Terraformを利用して、よりTerraformを管理しやすい形に
©MIXI GitHub Copilot Chat
©MIXI 去年にGitHub Enterprise Cloudへorgを移行し、GitHub Copilotを組織 として使えるようになり、GitHub Copilot Chatの可能性を模索した GitHub Copilot
Chat 調査 ▪ 初期は日本語入力がおかしかった → GH側に問い合わせ ▪ Knowledge basesはうーん・・・
©MIXI 去年にGitHub Enterprise Cloudへorgを移行し、GitHub Copilotを組織として使えるよう になり、GitHub Copilot Chatの可能性を模索した GitHub Copilot
Chat 調査 ▪ 初期は日本語入力がおかしかった → GH側に問い合わせ ▪ 開発チームのGCリソース作成へのハードル やったこと • 一部のGCリソースをIaC化 • HCP Terraformを利用して、よりTerraformを管理しやすい形に 報告してすぐに直してもらいました GitHub公式コミュニティのDiscussions、皆も使おう!
©MIXI GitHub Copilot Chat 可能性 • 日本語に強くなってきたらワンチャン? • アタッチするKnowledge baseを最適化したらもっと良くなる?
調査 ▪ 初期は日本語入力がおかしかった → GH側に問い合わせ ▪ Knowledge basesはうーん・・・ 去年にGitHub Enterprise Cloudへorgを移行し、GitHub Copilotを組織 として使えるようになり、GitHub Copilot Chatの可能性を模索した
©MIXI Firebase Remote Configを IaC化
©MIXI Terraformでは全てのリソースが扱えるわけではなく、Firebase Remote ConfigはIaCできなかったので無理くりなんとかしてみた Firebase Remote ConfigをIaC化 やったこと • テンプレートの変更のみが管理できればよかった
• GitHub Actions, Firebase Admin SDKを使って実現 やらない と... ▪ FRCテンプレートの変更をコンソールからやらなければな らない (オペミスを防ぐための同期的なダブルチェックが必要)
©MIXI Four keysの実装
©MIXI 昨今、開発生産性が声高に叫ばれていますね。SREsとしてFour keysを 計測できるようにしましたが、正直上手く扱えていないというのが現状 です。(難しい...) Four keysの実装 ▪ Four keysの学習,
実装, 啓蒙 ▪ Findy Team+などを使わず、GHA, BigQueryを用いた計測 やったこと • 優先度を上げなければいけないタスクが増えてきた • 継続的なメンテナンス, 運用にはリソースが必要 • 小規模ビジネスには必要ないのでは?という懐疑 問題
©MIXI やったこと 起こったこと Aug Jul Sep Oct Nov
Dec OpenSSHの 脆弱性対応 OpenTelemetryの実装 CVE-2024-6387 発生 再び別の新規案件へ・・・ テストカバレッ ジ レポートの実装 GraphQLの破壊的 変更をCIで検出 NGINXのupstream が不通になる問題の 調査・対応 マージベースの変更 でApprove済みのPR のマージがブロック される問題の調査 GCのコスト最適化 ArgoCDを ArgoCDで 管理 Cloud SQL for MySQL v5.7の サポート延長料金が・・・ MySQL v8 アップグレード 調査 Rails 新メンテナン スポリシー発表 GitHub Copilot Chat knowledge basesの運用 Slack botの実 装 Cloud Runの Sidecar/http 2対応 デカめインシデント 発生
©MIXI OpenTelemetryの実装
©MIXI o11yに対する施策として、OpenTelemetry(以下、OTel)の実装を行 いました。FE/BEの一貫したトレースログが取れるようになり、インシ デント時等に役立てています。 OpenTelemetryの実装 ▪ FEでは手動計装、BEでは自動計装で実装 ▪ トレースはCloud Traceに送信し、収集
やったこと • 自動計装は一瞬で終わったが、手動計装がめちゃくちゃ時間か かった • とりあえず導入したという感じなので、Attrの内容とか詰めたい • ピャッとやるならDatadog, New Relic, Splunkだがお金が・・・ 結果
©MIXI NGINXのupstreamが不通に なる問題の調査・対応
©MIXI ある日を境に、急にNGINX → APIの疎通が1〜2sほど取れなくなるよう に・・・稀な発生で、致命な問題には繋がらなかったが対応することに NGINXのupstreamが不通になる問題の調査・対応 ▪ NGINXの設定を見直したが効果なし(keep-aliveなど) ▪ 発生前にGKEのアップグレードが走っていたため、リリースノート
から怪しい修正箇所があるverまでアップグレード(効果なし) ▪ k8sのISSUEを洗い出し、kube-proxyの初期化におけるバグが怪し かったため、GKEを最新verまでアップグレード (https://github.com/kubernetes/kubernetes/pull/126689) 調査 • 直った!が、原因調査でk8sの調査に至るまで時間がかかった • kube-proxyの動きなど、なあなあの理解で済ませていたのでk8s をもっと学ばねばいけない 結果
©MIXI MySQL v8 アップグレード調査
©MIXI Cloud SQL for MySQLにv5.7の延長サポート開始が迫ってきました。 これを機に、MySQL v8へのアップグレードを行うためにまずは調査から 。 MySQL v8
アップグレード調査 ▪ vCPU単位で課金が発生(1vCPU = $66.43/month) ▪ 3年経過でさらに倍の課金額に やらない と... • Upgrade Checker Utilityを用いてアップグレード時に問題になり そうな箇所を洗い出し • デフォルト照合順序の変更, インプレース アップグレードなど必 要になりそうな要素を学習 やっていき
©MIXI Slack botの実装
©MIXI 「GCの一時権限が気軽に付与できたらいいなー」という声があり、 チーム向けのSlack botを作成してIAMに対して一時権限を付与する機能 を実装 Slack botの実装 ▪ GCの条件付きロール バインディングを利用して、特定期間
のみ機能するロールを付与する やったこと • 開発チーム, QAチームの抱えていたトイルの解決 • 今後のSlack botの利活用 結果
©MIXI 振り返ってみると 一人でも色々やることができ た
©MIXI これだけじゃないぞ!
©MIXI Jan Feb Mar Apr May Jun Aug Jul
Sep Oct Nov Dec カンファレンス準備 カンファレンス準備 ゆるSRE勉強 会 ゆるSRE勉強 会 ゆるSRE勉強 会 ゆるSRE勉強 会 ゆるSRE勉強 会 SRE Magazine SRE Magazine SRE Magazine SRE Magazine SRE Magazine SRE Magazine
©MIXI Jan Feb Mar Apr May Jun Aug Jul
Sep Oct Nov Dec カンファレンス準備 カンファレンス準備 ゆるSRE勉強 会 ゆるSRE勉強 会 ゆるSRE勉強 会 ゆるSRE勉強 会 ゆるSRE勉強 会 SRE Magazine SRE Magazine SRE Magazine SRE Magazine SRE Magazine SRE Magazine プライベートもめちゃくちゃ忙しかった!!!!
©MIXI それでも人間なんとかなる!
©MIXI それでも人間なんとかなる! ➧ 気合と根性があれば
©MIXI 仕事もプライベートもやりたい ことがあったら何でもやろ う!!
©MIXI ご清聴ありがとうございました