Upgrade to Pro — share decks privately, control downloads, hide ads and more …

フィットする暮らしを支えるSRE 2021

ryosukes
February 17, 2021

フィットする暮らしを支えるSRE 2021

株式会社クラシコムの社内勉強会 Monthly Hygge
2021年1月29日発表時の資料

ryosukes

February 17, 2021
Tweet

More Decks by ryosukes

Other Decks in Programming

Transcript

  1. フィットする暮らしを支えるSRE 2021
    Monthly Hygge
    2021-01-29
    Ryosuke Sasaki(@ryosukes)
    1

    View full-size slide

  2. Profile
    - 出身: 宮城
    - 趣味: 音楽
    - 最近: 引越しました(ネット回線難民)
    2

    View full-size slide

  3. Index
    1. SREって?
    2. 2020年を軽く振り返る
    3. 2021年の課題
    4. その先は
    3

    View full-size slide

  4. 4
    SREって?

    View full-size slide

  5. SREって?
    - Site Reliability Engineeringの略
    - Googleで培われたシステム管理とサービス運用の方法論
    - サイトの信頼性を高め、サービスの収益・ブランドを支える役割
    - 定常業務、インフラ構築、障害管理、パフォーマンス管理などの自動化・
    自律化の仕組み整備をソフトウェア開発を通して行う
    6

    View full-size slide

  6. クラシコムのSREの役割は?
    - 安定して高速でデリバリーできる状態を継続的に作る
    - サービスが「ちゃんと動いているかどうか」がわかる状態にする
    - 変更容易性に優れたシステム環境の土台を作る
    - 適切なコストでパフォーマンスの良いシステム環境を作る
    - 夜も安心して眠れる状態を作る💤
    7

    View full-size slide

  7. イメージは
    - 高速道路
    - アプリ/サイトの機能が車。コンテンツが載ってる
    - 道路、ガードレール、ETC、SA/PA、オービスなど
    継続的なメンテナンス・変更・改善が不可欠
    - 一度作ったら終わりではない
    8

    View full-size slide

  8. 9
    2020年を振り返る

    View full-size slide

  9. 2020年を振り返る①
    - 負荷試験・キャパシティプランニング
    - パフォーマンスチェックと改善
    - 試験手法のラーニング
    - AWSのアカウントまわり見直し
    - AWSのマルチアカウント化
    - 本番とその他用途の環境の分離による事故防止
    - セキュリティの向上
    - IAMユーザー・ロールなど権限管理の効率化
    10

    View full-size slide

  10. 2020年を振り返る②
    - Infrastructure as Code(Terraform, ecspressoなど)
    - バージョン管理
    - ブラックボックス解消
    - レビューしやすく品質も向上
    - コンテナ技術(ECS/Docker)への移行
    - 状態を持たないため安定稼働する
    - 他エンジニアへの権限移譲
    - 開発のしやすさ、開発速度の向上
    11

    View full-size slide

  11. 2020年を振り返る③
    - モニタリングツール活用(Mackerel, Datadog...etc)
    - 問題の早期発見
    - 障害対応の迅速化
    - ログ管理の整備(Logentries → CWL移行)
    - 調査スピードの改善
    - ログの種類を増やしやすくした
    - DBをRDSからAuroraへ
    - パフォーマンス改善(最大MySQLの5倍の処理速度)
    - データ消失リスクの軽減
    - 高速フェイルオーバー 12

    View full-size slide

  12. 13
    2021年の課題

    View full-size slide

  13. 2021年の課題
    1. DevSecOps的な何か
    2. 検証環境作成の簡易化・自動化
    3. インフラコストの管理・最適化
    14

    View full-size slide

  14. 検証環境作成の簡易化・自動化
    - 開発途中のものを他の人に見せたりチェックするとき、どこかのサーバー
    にあげないといけない
    - 現状、検証環境を扱えるエンジニアは権限・時間的制約などがあり限られ
    ている
    - 今後エンジニアの人数、並行して動く施策が増えていく可能性を考える
    と、整備しておく必要がある
    15

    View full-size slide

  15. 解決するには
    - ブランチ単位で環境を作成できるような新たな仕組み等を作る
    - 個人が環境を持っていて簡単に反映できる、というのでもまずは良いとは
    思う
    16

    View full-size slide

  16. インフラコストの管理・最適化
    - サービスが成長する毎にスケールアウト、アップするサーバー達や増えて
    いく各種サービス達(AWS・GCP・他SaaS)
    - コストが適切かどうか把握・改善できる体制は中長期的に整備しておきた

    17

    View full-size slide

  17. 解決するには
    - クォーターごとの予算立て、振り返り
    - AWSのアカウント単位でバジェットの設定見直し
    - 小さめな工数でやれそうなことをまずやる
    - Savings Plan
    - 不要なリソースのチェック
    - 不要なときに落とせるものは落とす(Aurora serverlessとか)
    など
    18

    View full-size slide

  18. 他やりたいこと
    - IaC(Terraform化)を進める
    - 踏み台サーバーの改善
    - CI/CDの改善 など
    19

    View full-size slide

  19. 20
    その先は

    View full-size slide

  20. その先は
    - SLO・エラーバジェットの設定と運用
    - SREの民主化、SREの解体
    - 佐々木、アプリケーション開発に復帰?🙌
    21

    View full-size slide

  21. 22
    ありがとうございました

    View full-size slide