Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
CircleCI 2.0を支える2つのコンテナクラスター
Search
Kim, Hirokuni
April 16, 2019
Technology
2
4.4k
CircleCI 2.0を支える2つのコンテナクラスター
Kim, Hirokuni
April 16, 2019
Tweet
Share
More Decks by Kim, Hirokuni
See All by Kim, Hirokuni
How We Migrated K8S Without Downtime
kimh
0
180
エンジニアが起業する意味: 起業経験ゼロから電動キックボード 事業を創る話
kimh
0
1.1k
K8sとTraefikでつくるマイクロフロントエンド
kimh
14
2.7k
CI/CDを使い倒して数段上のソフトウェア開発をしよう (デブサミ関西)
kimh
2
920
デブサミ福岡: CI/CDを使い倒して数段上のソフトウェア開発をしよう
kimh
0
500
CircleCI 2.0を支える2つの コンテナクラスターとSRE
kimh
6
6.1k
なぜ今CI/CDがアジャイル組織に必要とされるのか?
kimh
0
330
CircleCI 2.0を支えるインフラとSREの役割
kimh
5
2.2k
Orbsを使ってAWSへ簡単デプロイ
kimh
1
1.6k
Other Decks in Technology
See All in Technology
TSKaigi 2024 の登壇から広がったコミュニティ活動について
tsukuha
0
160
株式会社ログラス − エンジニア向け会社説明資料 / Loglass Comapany Deck for Engineer
loglass2019
3
31k
re:Invent をおうちで楽しんでみた ~CloudWatch のオブザーバビリティ機能がスゴい!/ Enjoyed AWS re:Invent from Home and CloudWatch Observability Feature is Amazing!
yuj1osm
0
120
Oracle Cloudの生成AIサービスって実際どこまで使えるの? エンジニア目線で試してみた
minorun365
PRO
4
270
統計データで2024年の クラウド・インフラ動向を眺める
ysknsid25
2
830
Microsoft Azure全冠になってみた ~アレを使い倒した者が試験を制す!?~/Obtained all Microsoft Azure certifications Those who use "that" to the full will win the exam! ?
yuj1osm
1
110
オプトインカメラ:UWB測位を応用したオプトイン型のカメラ計測
matthewlujp
0
170
20241220_S3 tablesの使い方を検証してみた
handy
3
220
私なりのAIのご紹介 [2024年版]
qt_luigi
1
120
Snowflake女子会#3 Snowpipeの良さを5分で語るよ
lana2548
0
220
KubeCon NA 2024 Recap: How to Move from Ingress to Gateway API with Minimal Hassle
ysakotch
0
200
開発生産性向上! 育成を「改善」と捉えるエンジニア育成戦略
shoota
1
230
Featured
See All Featured
Raft: Consensus for Rubyists
vanstee
137
6.7k
Designing for Performance
lara
604
68k
GraphQLの誤解/rethinking-graphql
sonatard
67
10k
Site-Speed That Sticks
csswizardry
2
190
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
6
510
How to Think Like a Performance Engineer
csswizardry
22
1.2k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
32
2.7k
Fireside Chat
paigeccino
34
3.1k
For a Future-Friendly Web
brad_frost
175
9.4k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
159
15k
Building Adaptive Systems
keathley
38
2.3k
How To Stay Up To Date on Web Technology
chriscoyier
789
250k
Transcript
1 CircleCI 2.0を支える2つの コンテナクラスター #CNDF2019 #circlecijp
2 I love Fukuoka...
3 I love Fukuoka because I can ride 電動キックボード!
4 キックボードが好きすぎて、、、 電動キックボードを安全に体験できるサービス Hop-on! を運営 • 日本で唯一のサービス(のはず) • みなとみらいで体験できます •
続きは https://hop-on.jp で!
5 CircleCIについて • クラウド型のCI/CDのリーダー • 2019年最大規模のCI/CDプラットフォームの一つ • 日本にもたくさんのお客様にご利用いただいています
モダンソフトウェアデリバリの3つの柱
モダンソフトウェアデリバリの3つの柱 本番環境
モダンソフトウェアデリバリの3つの柱 Continuous Delivery 本番環境
9 CircleCI 2.0: 完全コンテナベースのCI/CD • Dockerコンテナ上でビルド可能 • 好きなコンテナイメージを使うことができる • 複数のサービスコンテナを追加可能
• 2016年の夏にBeta版運用開始
10 CircleCI 2.0について 1日120万ビルドのCI/CDプラットフォーム
11 CircleCI 2.0について • 5万ビルド / 1hr • ~8000ビルド /
1min • ~130ビルド / 1 sec 1日120万 どのようにしてこれらのビルドをハンドリングしているか
12 技術編: 2つのクラスター 組織編: SREチームの紹介
13 自己紹介 Kim, Hirokuni (金 洋国) • CircleCI Japan Tech
Lead • 日本支社の立ち上げ • カンファレンス登壇 • 採用活動 • 記事執筆 • コミュニティー運営 ”この発言は個人の見解ではなく所属する組 織を代表しています” Twitter: https://twitter.com/kimhirokuni
14 自己紹介 ”この発言は個人の見解ではなく所属する組 織を代表しています” Kim, Hirokuni (金 洋国) • CircleCI
Japan Tech Lead • 日本支社の立ち上げ • カンファレンス登壇 • 採用活動 • 記事執筆 • コミュニティー運営 • 元プロダクトチーム • 現SREチーム Twitter: https://twitter.com/kimhirokuni
15 CircleCI Japanのご紹介 • 日本語サポート • ドキュメントの日本語化 • ユーザーコミュニティー CircleCI初の海外支社
@CircleCIJapan FB Community Group
16 技術編: 2つのクラスター 組織編: SREチームの紹介
17 2つのコンテナクラスター • Kubernetes ◦ マイクロサービス用のコンテナを管理 • Nomad ◦ ビルド用のコンテナを管理
18 2つのコンテナクラスター Services - フロントエンド - 課金 - ユーザー管理 -
WebHook処理 - etc, Executions - Docker ImageのPull - コードのcheckout - ビルドコマンドの実行 - Artifactsの保存 二つを分けることでセキュリティーを担保している
19 Kubernetes CircleCI 2.0のマイクロサービスを支えるクラスター
20 Kubernetes • 全てのマイクロサービスが動いている (約60サービス) • 自前でEC2上で管理 (後述) • サービス間通信にはgRPCとRabbitMQを使用
21 マイクロサービス間の通信: 非同期 • RabbitMQを使用 • 非同期通信が推奨 • 可能限りこちらを使う •
分散システムでは非同期のほうがよい • 毎秒何千ものリクエストを処理
22 マイクロサービス間の通信: 同期 • gRPCを使用 • 元々はビルドログをストリーミングするのに使用 • 現在、サービス間通信のデフォルト •
スケールするには一工夫必要 (次スライド)
23 問題: k8sでのgRPCロードバランス • HTTP2を使うgrpc-javaはコネクションを使い回す • K8s Serviceは複数PODをまとめるVIPを提供 • 同じPODにつながる
• 結果、サービスをスケールしてもアクセスされない
24 K8s Serviceの場合 gRPC Client Service Pod1 10.0.0.1 K8s service
foo.svc.cluster.local 10.0.0.100 Service Pod2 10.0.0.2 Cluster IP (VIP) こっちにはいかない L4・ロードバランス
25 解決: k8sでのgRPCロードバランス • K8s Headless Serviceを使う • HeadlessはPODのIPをDNSラウンドロビンで返す •
結果、grpc-clientは異なるPODにつながる
26 K8s Headless Service の場合 gRPC Client Service Pod1 10.0.0.1
headless service foo.svc.cluster.loc al 10.0.0.1 10.0.0.2 Service Pod2 10.0.0.2 DNSラウンドロビン クライアント・ロードバランス
27 K8S on EC2の問題点 • Master nodeのマネージメント ◦ Etcd ◦
証明書の管理 • 認証・セキュリティー ◦ Public API endpointの安全性 ◦ ユーザーの管理 • アップグレード問題
28 今後の課題: EKSへの移行検討中 • Master nodeのマネージメント ◦ Etcd ✔ ◦
証明書の管理 ✔ • 認証・セキュリティー ◦ Public API endpointの安全性✔ ◦ ユーザーの管理 ✔ • アップグレード問題 △
29 Nomad CircleCI 2.0のExecutionを支えるクラスター
30 Nomad について
31 Nomad アーキテクチャー Servers • K8sのマスターに相当 • コーディネーション • マルチリージョン対応
• Consulを使用 Clients • K8sのワーカーに相当 • ジョブを実際に実行
32 CircleCIの使い方 Nomad Client Build 1 Build 2 Build 3
• Dockerドライバー • 各クライアントでビルドが実行 される
33 CircleCIの使い方 Nomad Client Build 1 Build 2 Build 3
• Dockerドライバー • 各クライアントでビルドが実行 される • バッチジョブを使用
34 CircleCI ジョブ == Nomad ジョブ Nomad Job1 Nomad Job2
Nomad Job3 CircleCIのジョブは最終的にNomadのジョブの単位で実行される * 実際はもう少し複雑
35 職人の感 + 人の手 注:イメージです
36 人間の手 + 職人の感 @ CircleCI 1.0 注:イメージです
37 • Datadogモニタリング • Autoscalerサービス • AWS ASG スケーリング@CircleCI 2.0
AutoScaler 1.0時代に比べてAWSコストの大幅な削減
38 なぜNomadか? • Nomadはバッチ処理がk8sより得意だった (2016年の時点) • 現時点ではk8sもよくなっている (らしい) • シンプルなアーキテクチャー
(単一Goバイナリ) • Hashicorp Toolとの親和性 (ConsulやVaultなど) 詳しくは https://speakerdeck.com/kimh/cdpuratutohuomu
39 運用してわかったこと1 シングルバイナリは正義! • 簡単に開発環境で使える • スケールしやすい • オンプレでも管理が簡単
40 運用してわかったこと 2 効率のよいスケジューリング • 1.0時代よりも少ないマシンでより多く のビルドをできる • Resource ClassはNomad単体の機
能で実装することができた
41 運用してわかったこと 3 とても安定している • CircleCIでは0.6くらいから使用 • Nomad自身のバグが少ない
42 ビルドが実行されるまで GitHub $ Git Push
43 ビルドが実行されるまで k8s GitHub $ Git Push webhook Service Service
Service Service Service
44 ビルドが実行されるまで k8s GitHub Service Service Service Service Service To
Nomad $ Git Push webhook
45 ビルドが実行されるまで Nomad Server Nomad Server Nomad Server
46 ビルドが実行されるまで Nomad Server Nomad Server Nomad Server Nomad Client
Nomad Client Nomad Client Nomad Client Nomad Client
47 ビルドが実行されるまで Docker Nomad Server Nomad Server Nomad Server Nomad
Client Nomad Client Nomad Client Nomad Client Nomad Client
48 ビルドが実行されるまで Docker Nomad Server Nomad Server Nomad Server Nomad
Client Nomad Client Nomad Client Nomad Client Nomad Client Output processor
49 ビルドが実行されるまで Docker Nomad Server Nomad Server Nomad Server Nomad
Client Nomad Client Nomad Client Nomad Client Nomad Client Output processor
50 技術編: 2つのクラスター 組織編: SREチームの紹介
51 SREの役割 • 安定したインフラの運用 • プロダクトの開発に集中できるようにサポート • プロダクトエンジニアとのペアリング・コードレビュー • 問題調査・障害対応
52 SREチーム構成 • 現在10人弱のチーム • 4カ国にまたがる
53 ボーイング方式 • ワーキング・トュギャザー • 時差の有効活用 • 継続的なペアリング • 無理のないアラート対応
• 障害時対応
54 障害対応フロー #investigation 故障かな?と思ったら
55 障害対応フロー #investigation #incident 故障かな?と思ったら - ユーザー影響あり - 障害用のZoom開始 -
@メンションされる
56 障害対応フロー #investigation #incident https://status.circleci.com 故障かな?と思ったら - ユーザー影響あり - 障害用のZoom開始
- @メンションされる
57 障害対応フロー #investigation #incident https://status.circleci.com Incident Commander Communication Commander Note
Taker 故障かな?と思ったら - ユーザー影響あり - 障害用のZoom開始 - @メンションされる 役割分担 (後述)
58 障害対応フロー #investigation #incident https://status.circleci.com Incident Commander Communication Commander Note
Taker 20分ごとにアップデート 故障かな?と思ったら - ユーザー影響あり - 障害用のZoom開始 - @メンションされる 役割分担 (後述) - できるだけリアルタイム情報 - バナーに表示される
59 障害対応フロー #investigation #incident https://status.circleci.com Incident Commander Communication Commander Note
Taker 20分ごとにアップデート 故障かな?と思ったら - ユーザー影響あり - 障害用のZoom開始 - @メンションされる 役割分担 (後述) - できるだけリアルタイム情報 - バナーに表示される - 30分様子見 - 問題なければクローズ
60 障害対応チーム構成 Incident Commander Communication Commander Note Taker Incident Response
Team 障害復旧の責任者 広報係 障害復旧チーム 書記係
61 役割分担: Incident Commander • 障害復旧の責任者 • 問題解決に必要なリソースを確保 • SREである必要はない
62 役割分担: Communication Commander • ユーザーへ現状を伝える • ユーザーから障害範囲を聞く • Status
Pageをアップデートする
63 役割分担: Note Taker • 時系列をまとめる • What/Who/When/How を記録する
64 役割分担: Incident Response Team • 問題に詳しいエンジニアで構成 • IC, CCと連携して最善の解決策を探す
65 今後の課題
66 今後の課題: チームの拡大 • Platform Engineeringの設立 • SREチームの拡大 • プロアクティブなSRE業
67 WE ARE HIRING!!
68 SRE Team in Japan こんな人募集 • CircleCIに興味がある • 大規模インフラを面倒みたい
• コンテナをガチでやりたい • 海外のチームと働きたい
69 Developers in Japan こんな人募集 • CircleCIに興味がある • Clojureを書きたい •
海外のチームと働きたい
70 CircleCI Culture • Remote By Default • All Hands、Small
Hands • 多様性 • 柔軟な働き方
71 CircleCIでワーキング・トュギャザーしませんか? ”こうした部品メーカーと航空会社を巻き込んだワーキング・トュギャザーの取り 組みは、技術者たちの率直なコミュニケーションを生み出すことに成功しまし た。 利害の壁が取り払われ、情報や喜び、世界観や理解を分かち合いながら238 のチームで最前の飛行機作りが進められていきました。” 出典: 航空機を作る -
世界の知恵が集まったB777のテクノロジー 山中俊治 著
Thank you. 72 Optional Name
73 明後日開催: CircleCI コミュニティミートアップ in 福岡