Slide 1

Slide 1 text

クラウド移行を通じた SRE/DevOps の実践

Slide 2

Slide 2 text

バックエンドエンジニア → インフラエンジニア、 SREs 現在はマッハバイト インフラ担当。 趣味: 限界まで安い手段で海外旅行に行くこと mom0tomo 渡辺もも テクノロジカルマーケティング部 インフラストラクチャーグループ Copyright © Livesense Inc.

Slide 3

Slide 3 text

About Livesense Invent The Next Common. Copyright © Livesense Inc.

Slide 4

Slide 4 text

Livesenseの事業 Copyright © Livesense Inc.

Slide 5

Slide 5 text

Copyright © Livesense Inc. ● 社員数 ○ 正社員 214名(2023年6月30日現在) ● エンジニア社員数 ○ 全体 63名 正社員 40名 ○ 正社員だけで見るとエンジニア職が1/5を 占める 社員数・組織規模

Slide 6

Slide 6 text

インフラグループ Copyright © Livesense Inc. ● 事業部に属さない全社横断組織 ● 6人+兼務2人 ● 各事業部に対し、1-2人が窓口担当になる (DevOps/SRE的な動きもする) ● リブセンス全体で利用する基盤・プラット フォームも管轄する

Slide 7

Slide 7 text

本日話すこと 1 クラウド移行の背景 2 移行前の課題 3 移行で改善できたこと 4 今後の課題 Copyright © Livesense Inc.

Slide 8

Slide 8 text

クラウド移行の背景 Copyright © Livesense Inc.

Slide 9

Slide 9 text

クラウド移行の背景 フルリモートワーク化からのオフィス移転 ● 創業期から契約しているデータセンターがある ○ 創業当時からのサービスであるマッハバイト(旧ジョブセンス)では、ほとんどのシステムがオンプ レで運用されてきた ● 新しい事業はクラウドで運用されているものも多い ○ knew(マッチングサービス)、 batonn(面接最適化サービス)、 IESHIL(不動産事業)などは最初か らクラウド上で運用されている ○ 転職会議・転職ドラフトもほぼオンプレから AWSに移行済み ● コロナ禍で全社フルリモートワーク化し、オフィスを WeWorkに移転した ○ オフィス内のサーバールームで運用してきた開発環境を急遽クラウドに移行した ○ これを契機にクラウド移行の機運が加速した ● 2023年末をもってクラウド移行が完了する予定 Copyright © Livesense Inc.

Slide 10

Slide 10 text

クラウド移行の背景 Copyright © Livesense Inc. https://made.livesense.co.jp/entry/2022/12/21/083000

Slide 11

Slide 11 text

移行前の課題 Copyright © Livesense Inc.

Slide 12

Slide 12 text

● 開発(アプリケーションエンジニア)と運用(インフラエンジニア)の間に壁があった ● 権限の壁 ○ オンプレミスのサーバーの設定変更はインフラチームに作業依頼が必要 ■ sudo権限がないとインフラの設定変更ができない ■ VM構築(サーバー準備)はインフラの担当 etc.. ○ アプリケーション側の変更はアプリケーション開発チームに作業依頼が必要 ■ リポジトリがたくさんあってデプロイ方法も統一されておらず複雑 ■ 一部システムは監査対応のための特別な承認フローがある etc… ● コミュニケーションの壁 ○ プロジェクト・チームごとに Slackチャンネルが分かれていて気軽に声をかけづらい ○ 隔週の定例が正式なコミュニケーションの場だが、シャンシャンと終わりがち 移行前の課題 「開発」と「運用」の分断 Copyright © Livesense Inc.

Slide 13

Slide 13 text

● サービスの信頼性への責任が曖昧になる ○ 共用インフラ基盤の調査はインフラエンジニアが担当する ■ 開発エンジニアが直接 L7LBのログを見られない etc. ○ 監視・モニタリングサービスの導入はインフラチームが担当する ■ 何かアラートがなったとき、設定した人(インフラチーム)が対応しがち ● 作業待ちが発生してデリバリーに時間がかかる ○ 「インフラチームがVM構築終わったらデプロイができる」(開発エンジニアは自分でサーバー構築 できない)etc. ● アプリケーションの本質的な改善が進まない ○ アプリケーションのコードを直せば解決する問題でも、リソースを増やすなどインフラ側でなんとか してしまい、保守性が下がる 移行前の課題 分断による悪影響 Copyright © Livesense Inc.

Slide 14

Slide 14 text

移行で改善できたこと Copyright © Livesense Inc.

Slide 15

Slide 15 text

● 権限を見直す ○ インフラエンジニアしかサーバの rootを取れない→AWSのIAMグループを利用して適切な権限を 付与する ● コミュニケーションチャネルを見直す ○ Slackチャンネルを整理、統合してコミュニケーションの活性化を図る ○ Work Out Loudの文化を伝える ■ インフラチームEMの方がマッハバイトの EMを兼務してくれたことでスムーズに導入された ● 信頼性向上に取り組むための土台を作る ○ 共同で勉強会を開催してインフラ・モニタリングに関する知識を伝達する ■ AWS勉強会、Datadog勉強会 移行で改善できたこと SRE/DevOpsの実践 Copyright © Livesense Inc.

Slide 16

Slide 16 text

● 複雑なリリースフローを改善する ○ GitHub Actionsを利用してPRベースのデプロイワークフローを組む ○ GitHubのリリース機能を利用し、リリースフローを省略する ● IaCを徹底する ○ インフラ構成のコードをリポジトリにまとめ、開発エンジニアも contributeできるようにする ■ 開発エンジニアもレビューを受けて自由にインフラの構成変更ができる ● モブプロでクラウド移行を加速する ○ 協働してCI/CDワークフローを整備する ○ 移行で邪魔になるデッドコードの削除、アーキテクチャの変更などその場で話し合って素早い意思 決定を行う 移行で改善できたこと SRE/DevOpsの実践 Copyright © Livesense Inc.

Slide 17

Slide 17 text

→ “越境文化”はSREっぽい! https://recruit.livesense.co.jp/lp/engineer/overview Copyright © Livesense Inc.

Slide 18

Slide 18 text

今後の課題 Copyright © Livesense Inc.

Slide 19

Slide 19 text

今後の課題 これからやりたいこと ● サービスレベル(SLI/SLO)の策定と実践 ○ 足元の整備中 ■ Datadogを活用する ■ エラーバジェットを定義する ● 誰でも障害対応できる体制づくり ○ メトリクス・モニター・ダッシュボードのノウハウを共有する ○ 障害対応を振り返り、ベテランの動きを学ぶ ○ 詳しくないシステムで障害が起こったときに「シャドー」になる Copyright © Livesense Inc.

Slide 20

Slide 20 text

Copyright © Livesense Inc. ● エンジニアブログ ○ https://made.livesense.co.jp/ ● Livesense Engineering Handbook ○ https://livesense-inc.gitbook.io/livesense-e ngineering-handbook/ エンジニアによる発信の ご紹介

Slide 21

Slide 21 text

クラウド移行の取り組みも発信中 https://made.livesense.co.jp/entry/2023/06/27/080000 https://made.livesense.co.jp/entry/2023/06/14/080000 https://made.livesense.co.jp/entry/2023/08/25/083000 Copyright © Livesense Inc.

Slide 22

Slide 22 text

No content