フィットする暮らしを支えるSRE 2021
by
ryosukes
Link
Embed
Share
Beginning
This slide
Copy link URL
Copy link URL
Copy iframe embed code
Copy iframe embed code
Copy javascript embed code
Copy javascript embed code
Share
Tweet
Share
Tweet
Slide 1
Slide 1 text
フィットする暮らしを支えるSRE 2021 Monthly Hygge 2021-01-29 Ryosuke Sasaki(@ryosukes) 1
Slide 2
Slide 2 text
Profile - 出身: 宮城 - 趣味: 音楽 - 最近: 引越しました(ネット回線難民) 2
Slide 3
Slide 3 text
Index 1. SREって? 2. 2020年を軽く振り返る 3. 2021年の課題 4. その先は 3
Slide 4
Slide 4 text
4 SREって?
Slide 5
Slide 5 text
5
Slide 6
Slide 6 text
SREって? - Site Reliability Engineeringの略 - Googleで培われたシステム管理とサービス運用の方法論 - サイトの信頼性を高め、サービスの収益・ブランドを支える役割 - 定常業務、インフラ構築、障害管理、パフォーマンス管理などの自動化・ 自律化の仕組み整備をソフトウェア開発を通して行う 6
Slide 7
Slide 7 text
クラシコムのSREの役割は? - 安定して高速でデリバリーできる状態を継続的に作る - サービスが「ちゃんと動いているかどうか」がわかる状態にする - 変更容易性に優れたシステム環境の土台を作る - 適切なコストでパフォーマンスの良いシステム環境を作る - 夜も安心して眠れる状態を作る💤 7
Slide 8
Slide 8 text
イメージは - 高速道路 - アプリ/サイトの機能が車。コンテンツが載ってる - 道路、ガードレール、ETC、SA/PA、オービスなど 継続的なメンテナンス・変更・改善が不可欠 - 一度作ったら終わりではない 8
Slide 9
Slide 9 text
9 2020年を振り返る
Slide 10
Slide 10 text
2020年を振り返る① - 負荷試験・キャパシティプランニング - パフォーマンスチェックと改善 - 試験手法のラーニング - AWSのアカウントまわり見直し - AWSのマルチアカウント化 - 本番とその他用途の環境の分離による事故防止 - セキュリティの向上 - IAMユーザー・ロールなど権限管理の効率化 10
Slide 11
Slide 11 text
2020年を振り返る② - Infrastructure as Code(Terraform, ecspressoなど) - バージョン管理 - ブラックボックス解消 - レビューしやすく品質も向上 - コンテナ技術(ECS/Docker)への移行 - 状態を持たないため安定稼働する - 他エンジニアへの権限移譲 - 開発のしやすさ、開発速度の向上 11
Slide 12
Slide 12 text
2020年を振り返る③ - モニタリングツール活用(Mackerel, Datadog...etc) - 問題の早期発見 - 障害対応の迅速化 - ログ管理の整備(Logentries → CWL移行) - 調査スピードの改善 - ログの種類を増やしやすくした - DBをRDSからAuroraへ - パフォーマンス改善(最大MySQLの5倍の処理速度) - データ消失リスクの軽減 - 高速フェイルオーバー 12
Slide 13
Slide 13 text
13 2021年の課題
Slide 14
Slide 14 text
2021年の課題 1. DevSecOps的な何か 2. 検証環境作成の簡易化・自動化 3. インフラコストの管理・最適化 14
Slide 15
Slide 15 text
検証環境作成の簡易化・自動化 - 開発途中のものを他の人に見せたりチェックするとき、どこかのサーバー にあげないといけない - 現状、検証環境を扱えるエンジニアは権限・時間的制約などがあり限られ ている - 今後エンジニアの人数、並行して動く施策が増えていく可能性を考える と、整備しておく必要がある 15
Slide 16
Slide 16 text
解決するには - ブランチ単位で環境を作成できるような新たな仕組み等を作る - 個人が環境を持っていて簡単に反映できる、というのでもまずは良いとは 思う 16
Slide 17
Slide 17 text
インフラコストの管理・最適化 - サービスが成長する毎にスケールアウト、アップするサーバー達や増えて いく各種サービス達(AWS・GCP・他SaaS) - コストが適切かどうか把握・改善できる体制は中長期的に整備しておきた い 17
Slide 18
Slide 18 text
解決するには - クォーターごとの予算立て、振り返り - AWSのアカウント単位でバジェットの設定見直し - 小さめな工数でやれそうなことをまずやる - Savings Plan - 不要なリソースのチェック - 不要なときに落とせるものは落とす(Aurora serverlessとか) など 18
Slide 19
Slide 19 text
他やりたいこと - IaC(Terraform化)を進める - 踏み台サーバーの改善 - CI/CDの改善 など 19
Slide 20
Slide 20 text
20 その先は
Slide 21
Slide 21 text
その先は - SLO・エラーバジェットの設定と運用 - SREの民主化、SREの解体 - 佐々木、アプリケーション開発に復帰?🙌 21
Slide 22
Slide 22 text
22 ありがとうございました