Upgrade to Pro — share decks privately, control downloads, hide ads and more …

SRE session #2 Welcome Talk 'Eliminating Toil'

SRE session #2 Welcome Talk 'Eliminating Toil'

Naoyuki Yamada

June 05, 2019
Tweet

More Decks by Naoyuki Yamada

Other Decks in Technology

Transcript

  1. ⾃⼰紹介 • ⼭⽥直⾏(Naoyuki YAMADA) • サイバーエージェント アドテク本部
 Strategic Infrastructure Agency

    いろいろなプロダクトのインフラ‧SRE業務 アドバイス業務もあるがほとんどは実務 • XTech Startup Studio エンジニア(個⼈事業主)
 新規プロダクトのバックエンド(サーバーサイド‧インフラ開発) • 来週6/12からのSREcon Asia/Pacificに参加予定です !TBUVMMZ DIPLLPZBNBEB
  2. 今⽇のテーマ: Eliminating Toil • トイル(Toil)とは? ʲ1໊ʳ 1.͍ۤ͠࢓ࣄɺࠎંΓɺ࿑ۤ ʲ1ࣗಈʳ 1.ࠎંͬͯಇ͘ 2.ɾHe

    had to toil all night and day to finish the job. : ൴͸ɺ࢓ࣄΛऴ͑ΔͨΊʹன΋໷΋ͣͬͱਫ਼Λग़ͯ͠ಇ͔ͳͯ͘͸ͳΓ·ͤ ΜͰͨ͠ɻ ʲ1ଞಈʳ 1.ʙΛർΕͤ͞Δ ʲ2໊ʳ 1.ʤ֫෺ΛัΒ͑ΔͨΊͷʥ໢ɺωοτ ʲ2ଞಈʳ 1.ʤ֫෺Λʥ໢ʦωοτʧͰัΒ͑Δ ʲϨϕϧʳ7ɺʲൃԻʳtɔ́il、ʲˏʳτΠϧɺʲมԽʳʬಈʭtoils ʛ toiling ʛ toiled ʢtoilͷҙຯɾ࢖͍ํʛӳࣙ࿠ on the WEBɿΞϧΫ https://eow.alc.co.jp/search?q=toilʣ
  3. • GitHubレポジトリ120個 • サーバー(&コンテナ)500台 • オンプレミス(ベアメタルサーバー、KVM), OpenStack(バージョン2系 統)、Docker Swarm, GCP(Kubernetes)などオールスター状態

    • chefサーバー4系統, Ansibleも利⽤ • Jenkinsマスター10台以上 • PHP, Rails, Go⾔語が⼊り乱れる • ミドルウェア‧ライブラリはほとんどが2011年〜2016年 • でも致命的な障害なく動き続けていて、利益も⽣んでいる
 (レガシーだけどHA構成はしっかりしてる)
  4. 発⽣しているトイル • ディスクがいっぱいになる • プロセスが多重起動してOOMになる • Dockerコンテナがなぜか落ちる • 急激な負荷増⼤に対応を迫られる •

    ログをsshログインしてtailして⾒る • chatworkに⾶んだアラートがどこから送信されたのか、から調査 • ビジネスロジックの追加のたびにnginxの設定ファイルに追加作業 • 脆弱性対応(外部組織の監査で指摘を受けたものを改修)