SRE大全 スタディスト編 後半 #hbstudy 85 / SRE Taizen Studist 2

C0479b152c326746e911be790617f75b?s=47 katsuhisa_
October 31, 2018

SRE大全 スタディスト編 後半 #hbstudy 85 / SRE Taizen Studist 2

#hbstudy 85 「SRE大全 スタディスト編」で登壇した際の資料(後半)です。
前半の資料はこちら。
https://speakerdeck.com/katsuhisa91/sre-taizen-studist-1

C0479b152c326746e911be790617f75b?s=128

katsuhisa_

October 31, 2018
Tweet

Transcript

  1. 5.

    スタディスト SRE スキルマップ(一部) Ops DevOps Security Other 設計・構築 監視 障害対応

    データ分析 思想 ツール Hashicorp AWS Linux/Ubuntu/shell Stackdriver NewRelic Elastic Stack Terraform Packer Ansible Serverspec git, docker, Circle CI 可用性 負荷分散 SLI/SLO OnCall Postmortem Deep Security ドメイン知 識 Code Series サービス構成 Rails Inspector,CloudTrail, Guard Duty, WAF Redshift Athena BigQuery Redash CloudWatch RDBMS
  2. 6.

    スタディスト SRE スキルマップ(一部) Ops DevOps Security Other 設計・構築 監視 障害対応

    データ分析 思想 ツール Hashicorp AWS Linux/Ubuntu/shell Stackdriver NewRelic Elastic Stack Terraform Packer Ansible Serverspec git, docker, Circle CI 可用性 負荷分散 SLI/SLO OnCall Postmortem Deep Security ドメイン知 識 Code Series サービス構成 Inspector,CloudTrail, Guard Duty, WAF Redshift Athena BigQuery Redash CloudWatch ここだけでもボリューム めちゃくちゃでかい Rails RDBMS
  3. 7.

    スタディスト SRE スキルマップ(一部) Ops DevOps Security Other 設計・構築 監視 障害対応

    データ分析 思想 ツール Hashicorp AWS Linux/Ubuntu/shell Stackdriver NewRelic Elastic Stack Terraform Packer Ansible Serverspec git, docker, Circle CI 可用性 負荷分散 SLI/SLO OnCall Postmortem Deep Security ドメイン知 識 Code Series サービス構成 Inspector,CloudTrail, Guard Duty, WAF Redshift Athena BigQuery Redash CloudWatch 他に書いていないスキル e.g. 負荷試験, 運用自動化, Log ... Rails RDBMS
  4. 11.
  5. 13.

    スタディストSRE の優先順位 • SRE の共通言語を持てている • OnCall 要員が持つスキルの逆算 ◦ サービス構成の理解

    ▪ AWS 構成 • EC2, ELB, RDS(Aurora), S3, CloudFront, ... ▪ Rails, RDBMS ◦ ドメイン知識 • インフラコードを自由にさわることができる ◦ Ansible / Serverspec / Packer / Terraform / Docker
  6. 14.

    実際の業務は? • スキルの組合せで行うことが多いので、 一つができれば、業務にすぐ活きるわけではない ◦ また、新規 XX 導入時のDesign Review や、

    既存 XX を移行する計画策定は スキルに留まらない視点が求められる • とはいえ、一つずつ階段を登るしかないので、 スキルマップは頭の片隅に
  7. 17.

    前提: 組織のマネージャー職とは • 組織づくりができてナンボ ◦ 採用 ◦ チームづくり ◦ ToBe

    を描いて共有する ◦ ToBe 期限からの逆算 • そして、メンバーの市場価値を上げる
  8. 24.
  9. 25.
  10. 26.
  11. 27.
  12. 28.
  13. 29.
  14. 34.

    SRE に必要な能力 • Software Skills • Systems & Networks ◦

    General “Linux” Skills ◦ Low Level Systems Knowledge ◦ Do you know how staff is put together • Architecture ◦ Tradeoffs • Troubleshooting ◦ Logical Thinking ◦ Depth of knowledge • Soft skills ◦ Customer Service ◦ Priorization
  15. 35.

    SRE に必要な能力 • Software Skills • Systems & Networks ◦

    General “Linux” Skills ◦ Low Level Systems Knowledge ◦ Do you know how staff is put together • Architecture ◦ Tradeoffs • Troubleshooting ◦ Logical Thinking ◦ Depth of knowledge • Soft skills ◦ Customer Service ◦ Priorization 個人的には、納得感ある分類
  16. 37.

    Onsite Interview • 業務内容から業務を深掘りし、状況質問する ◦ ◯◯の時、なぜその判断をしたか ▪ 選択肢としては、A やB もあったのでは?

    • システムの振る舞いをホワイトボードに 記述してもらう ◦ 個別の技術要素も質問する • 自社カルチャーとの相性もこの時に見る
  17. 38.

    Onsite Interview • 業務内容から業務を深掘りし、状況質問する ◦ ◯◯の時、なぜその判断をしたか ▪ 選択肢としては、A やB もあったのでは?

    • システムの振る舞いをホワイトボードに 記述してもらう ◦ 個別の技術要素も質問する • 自社カルチャーとの相性もこの時に見る 構造化面接など、面接精度を上げる 取り組みはこれから整備
  18. 42.

    Onboarding: 1 month • ランチ設定 • キャリアポートフォリオ策定 • SRE にとって大事なマインド共有

    • 輪読: SRE 本、インフラエンジニアの教科書2 • サービス研修: Teachme Biz のプロダクト価値を知る
  19. 43.

    Onboarding: 1 month • 開発ツール研修: Teachme Biz を動かす • プロダクト研修:

    Teachme Biz システムのドメイン知識 • CRE 研修: 顧客要望や問い合わせ内容の例を知る • AWS 研修 • Teachme Biz 構築研修: AWS に同じ構成を再現する • Onboarding 報告会 • Onboarding おつかれさま会: 振り返りと今後の意識共有
  20. 44.
  21. 48.
  22. 61.

    短期(今期) • 10+ Deploys Per Day へ ◦ デプロイにまつわる意思決定のツール化 ▪

    安全なDB migration をツールで担保する ◦ インフラ/ミドルウェア変更修正の 反映リードタイムの高速化
  23. 64.

    Envoy 開発者Matt のDevOps 定義 DevOps is the practice of developers

    being responsible for operating their services in production, 24/7. This includes development using shared infrastructure primitives, testing, on-call, reliability engineering, disaster recovery, defining SLOs, monitoring setup and alarming, debugging and performance analysis, incident root cause analysis, provisioning and deployment, etc. 「The human scalability of “DevOps”」 https://medium.com/@mattklein123/the-human-scalability-of-devops-e36c37d3db6a
  24. 65.

    Self-Service Is More Than A Button • OaaS ( Operation

    as a Service ) ◦ 必要なオペレーションは、 Self-Service で扱えるように • SRE チームがどうなるかはまだ見えていない ◦ OaaS のPlatform をつくるチームと、 OaaS 周辺の問題解決に専門性を持つチーム に大きく分かれる?
  25. 67.

    Copyright (C) 2018 Studist Corporation. All Rights Reserved 67 #devsumiE

    自己紹介 We are hiring!! スタディストでは、 いっしょに闘ってくれるSRE を募集中