Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
CircleCI 2.0を支える2つのコンテナクラスター
Search
Kim, Hirokuni
April 16, 2019
Technology
2
4.5k
CircleCI 2.0を支える2つのコンテナクラスター
Kim, Hirokuni
April 16, 2019
Tweet
Share
More Decks by Kim, Hirokuni
See All by Kim, Hirokuni
How We Migrated K8S Without Downtime
kimh
0
190
エンジニアが起業する意味: 起業経験ゼロから電動キックボード 事業を創る話
kimh
0
1.1k
K8sとTraefikでつくるマイクロフロントエンド
kimh
14
2.7k
CI/CDを使い倒して数段上のソフトウェア開発をしよう (デブサミ関西)
kimh
2
950
デブサミ福岡: CI/CDを使い倒して数段上のソフトウェア開発をしよう
kimh
0
520
CircleCI 2.0を支える2つの コンテナクラスターとSRE
kimh
6
6.2k
なぜ今CI/CDがアジャイル組織に必要とされるのか?
kimh
0
340
CircleCI 2.0を支えるインフラとSREの役割
kimh
5
2.3k
Orbsを使ってAWSへ簡単デプロイ
kimh
1
1.6k
Other Decks in Technology
See All in Technology
技術負債の「予兆検知」と「状況異変」のススメ / Technology Dept
i35_267
1
1k
スクラムのイテレーションを導入してチームの雰囲気がより良くなった話
eccyun
0
110
まだ間に合う! エンジニアのための生成AIアプリ開発入門 on AWS
minorun365
PRO
4
580
スタートアップ1人目QAエンジニアが QAチームを立ち上げ、“個”からチーム、 そして“組織”に成長するまで / How to set up QA team at reiwatravel
mii3king
1
1.1k
Ask! NIKKEIの運用基盤と改善に向けた取り組み / NIKKEI TECH TALK #30
kaitomajima
1
450
MC906491 を見据えた Microsoft Entra Connect アップグレード対応
tamaiyutaro
1
480
Oracle Base Database Service 技術詳細
oracle4engineer
PRO
6
57k
AndroidデバイスにFTPサーバを建立する
e10dokup
0
240
君も受託系GISエンジニアにならないか
sudataka
1
370
Kubernetes x k6 で負荷試験基盤を開発して 負荷試験を民主化した話 / Kubernetes x k6
sansan_randd
2
730
モノレポ開発のエラー、誰が見る?Datadog で実現する適切なトリアージとエスカレーション
biwashi
6
770
室長と気ままに学ぶマイクロソフトのビジネスアプリケーションとビジネスプロセス
ryoheig0405
0
320
Featured
See All Featured
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
232
17k
Optimising Largest Contentful Paint
csswizardry
34
3.1k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
33
2.8k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
27
1.9k
Six Lessons from altMBA
skipperchong
27
3.6k
Gamification - CAS2011
davidbonilla
80
5.1k
Why You Should Never Use an ORM
jnunemaker
PRO
55
9.2k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
PRO
12
950
Faster Mobile Websites
deanohume
306
31k
The Language of Interfaces
destraynor
156
24k
Building a Modern Day E-commerce SEO Strategy
aleyda
38
7.1k
Side Projects
sachag
452
42k
Transcript
1 CircleCI 2.0を支える2つの コンテナクラスター #CNDF2019 #circlecijp
2 I love Fukuoka...
3 I love Fukuoka because I can ride 電動キックボード!
4 キックボードが好きすぎて、、、 電動キックボードを安全に体験できるサービス Hop-on! を運営 • 日本で唯一のサービス(のはず) • みなとみらいで体験できます •
続きは https://hop-on.jp で!
5 CircleCIについて • クラウド型のCI/CDのリーダー • 2019年最大規模のCI/CDプラットフォームの一つ • 日本にもたくさんのお客様にご利用いただいています
モダンソフトウェアデリバリの3つの柱
モダンソフトウェアデリバリの3つの柱 本番環境
モダンソフトウェアデリバリの3つの柱 Continuous Delivery 本番環境
9 CircleCI 2.0: 完全コンテナベースのCI/CD • Dockerコンテナ上でビルド可能 • 好きなコンテナイメージを使うことができる • 複数のサービスコンテナを追加可能
• 2016年の夏にBeta版運用開始
10 CircleCI 2.0について 1日120万ビルドのCI/CDプラットフォーム
11 CircleCI 2.0について • 5万ビルド / 1hr • ~8000ビルド /
1min • ~130ビルド / 1 sec 1日120万 どのようにしてこれらのビルドをハンドリングしているか
12 技術編: 2つのクラスター 組織編: SREチームの紹介
13 自己紹介 Kim, Hirokuni (金 洋国) • CircleCI Japan Tech
Lead • 日本支社の立ち上げ • カンファレンス登壇 • 採用活動 • 記事執筆 • コミュニティー運営 ”この発言は個人の見解ではなく所属する組 織を代表しています” Twitter: https://twitter.com/kimhirokuni
14 自己紹介 ”この発言は個人の見解ではなく所属する組 織を代表しています” Kim, Hirokuni (金 洋国) • CircleCI
Japan Tech Lead • 日本支社の立ち上げ • カンファレンス登壇 • 採用活動 • 記事執筆 • コミュニティー運営 • 元プロダクトチーム • 現SREチーム Twitter: https://twitter.com/kimhirokuni
15 CircleCI Japanのご紹介 • 日本語サポート • ドキュメントの日本語化 • ユーザーコミュニティー CircleCI初の海外支社
@CircleCIJapan FB Community Group
16 技術編: 2つのクラスター 組織編: SREチームの紹介
17 2つのコンテナクラスター • Kubernetes ◦ マイクロサービス用のコンテナを管理 • Nomad ◦ ビルド用のコンテナを管理
18 2つのコンテナクラスター Services - フロントエンド - 課金 - ユーザー管理 -
WebHook処理 - etc, Executions - Docker ImageのPull - コードのcheckout - ビルドコマンドの実行 - Artifactsの保存 二つを分けることでセキュリティーを担保している
19 Kubernetes CircleCI 2.0のマイクロサービスを支えるクラスター
20 Kubernetes • 全てのマイクロサービスが動いている (約60サービス) • 自前でEC2上で管理 (後述) • サービス間通信にはgRPCとRabbitMQを使用
21 マイクロサービス間の通信: 非同期 • RabbitMQを使用 • 非同期通信が推奨 • 可能限りこちらを使う •
分散システムでは非同期のほうがよい • 毎秒何千ものリクエストを処理
22 マイクロサービス間の通信: 同期 • gRPCを使用 • 元々はビルドログをストリーミングするのに使用 • 現在、サービス間通信のデフォルト •
スケールするには一工夫必要 (次スライド)
23 問題: k8sでのgRPCロードバランス • HTTP2を使うgrpc-javaはコネクションを使い回す • K8s Serviceは複数PODをまとめるVIPを提供 • 同じPODにつながる
• 結果、サービスをスケールしてもアクセスされない
24 K8s Serviceの場合 gRPC Client Service Pod1 10.0.0.1 K8s service
foo.svc.cluster.local 10.0.0.100 Service Pod2 10.0.0.2 Cluster IP (VIP) こっちにはいかない L4・ロードバランス
25 解決: k8sでのgRPCロードバランス • K8s Headless Serviceを使う • HeadlessはPODのIPをDNSラウンドロビンで返す •
結果、grpc-clientは異なるPODにつながる
26 K8s Headless Service の場合 gRPC Client Service Pod1 10.0.0.1
headless service foo.svc.cluster.loc al 10.0.0.1 10.0.0.2 Service Pod2 10.0.0.2 DNSラウンドロビン クライアント・ロードバランス
27 K8S on EC2の問題点 • Master nodeのマネージメント ◦ Etcd ◦
証明書の管理 • 認証・セキュリティー ◦ Public API endpointの安全性 ◦ ユーザーの管理 • アップグレード問題
28 今後の課題: EKSへの移行検討中 • Master nodeのマネージメント ◦ Etcd ✔ ◦
証明書の管理 ✔ • 認証・セキュリティー ◦ Public API endpointの安全性✔ ◦ ユーザーの管理 ✔ • アップグレード問題 △
29 Nomad CircleCI 2.0のExecutionを支えるクラスター
30 Nomad について
31 Nomad アーキテクチャー Servers • K8sのマスターに相当 • コーディネーション • マルチリージョン対応
• Consulを使用 Clients • K8sのワーカーに相当 • ジョブを実際に実行
32 CircleCIの使い方 Nomad Client Build 1 Build 2 Build 3
• Dockerドライバー • 各クライアントでビルドが実行 される
33 CircleCIの使い方 Nomad Client Build 1 Build 2 Build 3
• Dockerドライバー • 各クライアントでビルドが実行 される • バッチジョブを使用
34 CircleCI ジョブ == Nomad ジョブ Nomad Job1 Nomad Job2
Nomad Job3 CircleCIのジョブは最終的にNomadのジョブの単位で実行される * 実際はもう少し複雑
35 職人の感 + 人の手 注:イメージです
36 人間の手 + 職人の感 @ CircleCI 1.0 注:イメージです
37 • Datadogモニタリング • Autoscalerサービス • AWS ASG スケーリング@CircleCI 2.0
AutoScaler 1.0時代に比べてAWSコストの大幅な削減
38 なぜNomadか? • Nomadはバッチ処理がk8sより得意だった (2016年の時点) • 現時点ではk8sもよくなっている (らしい) • シンプルなアーキテクチャー
(単一Goバイナリ) • Hashicorp Toolとの親和性 (ConsulやVaultなど) 詳しくは https://speakerdeck.com/kimh/cdpuratutohuomu
39 運用してわかったこと1 シングルバイナリは正義! • 簡単に開発環境で使える • スケールしやすい • オンプレでも管理が簡単
40 運用してわかったこと 2 効率のよいスケジューリング • 1.0時代よりも少ないマシンでより多く のビルドをできる • Resource ClassはNomad単体の機
能で実装することができた
41 運用してわかったこと 3 とても安定している • CircleCIでは0.6くらいから使用 • Nomad自身のバグが少ない
42 ビルドが実行されるまで GitHub $ Git Push
43 ビルドが実行されるまで k8s GitHub $ Git Push webhook Service Service
Service Service Service
44 ビルドが実行されるまで k8s GitHub Service Service Service Service Service To
Nomad $ Git Push webhook
45 ビルドが実行されるまで Nomad Server Nomad Server Nomad Server
46 ビルドが実行されるまで Nomad Server Nomad Server Nomad Server Nomad Client
Nomad Client Nomad Client Nomad Client Nomad Client
47 ビルドが実行されるまで Docker Nomad Server Nomad Server Nomad Server Nomad
Client Nomad Client Nomad Client Nomad Client Nomad Client
48 ビルドが実行されるまで Docker Nomad Server Nomad Server Nomad Server Nomad
Client Nomad Client Nomad Client Nomad Client Nomad Client Output processor
49 ビルドが実行されるまで Docker Nomad Server Nomad Server Nomad Server Nomad
Client Nomad Client Nomad Client Nomad Client Nomad Client Output processor
50 技術編: 2つのクラスター 組織編: SREチームの紹介
51 SREの役割 • 安定したインフラの運用 • プロダクトの開発に集中できるようにサポート • プロダクトエンジニアとのペアリング・コードレビュー • 問題調査・障害対応
52 SREチーム構成 • 現在10人弱のチーム • 4カ国にまたがる
53 ボーイング方式 • ワーキング・トュギャザー • 時差の有効活用 • 継続的なペアリング • 無理のないアラート対応
• 障害時対応
54 障害対応フロー #investigation 故障かな?と思ったら
55 障害対応フロー #investigation #incident 故障かな?と思ったら - ユーザー影響あり - 障害用のZoom開始 -
@メンションされる
56 障害対応フロー #investigation #incident https://status.circleci.com 故障かな?と思ったら - ユーザー影響あり - 障害用のZoom開始
- @メンションされる
57 障害対応フロー #investigation #incident https://status.circleci.com Incident Commander Communication Commander Note
Taker 故障かな?と思ったら - ユーザー影響あり - 障害用のZoom開始 - @メンションされる 役割分担 (後述)
58 障害対応フロー #investigation #incident https://status.circleci.com Incident Commander Communication Commander Note
Taker 20分ごとにアップデート 故障かな?と思ったら - ユーザー影響あり - 障害用のZoom開始 - @メンションされる 役割分担 (後述) - できるだけリアルタイム情報 - バナーに表示される
59 障害対応フロー #investigation #incident https://status.circleci.com Incident Commander Communication Commander Note
Taker 20分ごとにアップデート 故障かな?と思ったら - ユーザー影響あり - 障害用のZoom開始 - @メンションされる 役割分担 (後述) - できるだけリアルタイム情報 - バナーに表示される - 30分様子見 - 問題なければクローズ
60 障害対応チーム構成 Incident Commander Communication Commander Note Taker Incident Response
Team 障害復旧の責任者 広報係 障害復旧チーム 書記係
61 役割分担: Incident Commander • 障害復旧の責任者 • 問題解決に必要なリソースを確保 • SREである必要はない
62 役割分担: Communication Commander • ユーザーへ現状を伝える • ユーザーから障害範囲を聞く • Status
Pageをアップデートする
63 役割分担: Note Taker • 時系列をまとめる • What/Who/When/How を記録する
64 役割分担: Incident Response Team • 問題に詳しいエンジニアで構成 • IC, CCと連携して最善の解決策を探す
65 今後の課題
66 今後の課題: チームの拡大 • Platform Engineeringの設立 • SREチームの拡大 • プロアクティブなSRE業
67 WE ARE HIRING!!
68 SRE Team in Japan こんな人募集 • CircleCIに興味がある • 大規模インフラを面倒みたい
• コンテナをガチでやりたい • 海外のチームと働きたい
69 Developers in Japan こんな人募集 • CircleCIに興味がある • Clojureを書きたい •
海外のチームと働きたい
70 CircleCI Culture • Remote By Default • All Hands、Small
Hands • 多様性 • 柔軟な働き方
71 CircleCIでワーキング・トュギャザーしませんか? ”こうした部品メーカーと航空会社を巻き込んだワーキング・トュギャザーの取り 組みは、技術者たちの率直なコミュニケーションを生み出すことに成功しまし た。 利害の壁が取り払われ、情報や喜び、世界観や理解を分かち合いながら238 のチームで最前の飛行機作りが進められていきました。” 出典: 航空機を作る -
世界の知恵が集まったB777のテクノロジー 山中俊治 著
Thank you. 72 Optional Name
73 明後日開催: CircleCI コミュニティミートアップ in 福岡