Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
CircleCI 2.0を支える2つのコンテナクラスター
Search
Kim, Hirokuni
April 16, 2019
Technology
2
4.4k
CircleCI 2.0を支える2つのコンテナクラスター
Kim, Hirokuni
April 16, 2019
Tweet
Share
More Decks by Kim, Hirokuni
See All by Kim, Hirokuni
How We Migrated K8S Without Downtime
kimh
0
180
エンジニアが起業する意味: 起業経験ゼロから電動キックボード 事業を創る話
kimh
0
1.1k
K8sとTraefikでつくるマイクロフロントエンド
kimh
14
2.7k
CI/CDを使い倒して数段上のソフトウェア開発をしよう (デブサミ関西)
kimh
2
940
デブサミ福岡: CI/CDを使い倒して数段上のソフトウェア開発をしよう
kimh
0
510
CircleCI 2.0を支える2つの コンテナクラスターとSRE
kimh
6
6.1k
なぜ今CI/CDがアジャイル組織に必要とされるのか?
kimh
0
340
CircleCI 2.0を支えるインフラとSREの役割
kimh
5
2.2k
Orbsを使ってAWSへ簡単デプロイ
kimh
1
1.6k
Other Decks in Technology
See All in Technology
2024年活動報告会(人材育成推進WG・ビジネスサブWG) / 20250114-OIDF-J-EduWG-BizSWG
oidfj
0
210
エンジニアリングマネージャー視点での、自律的なスケーリングを実現するFASTという選択肢 / RSGT2025
yoshikiiida
4
3.6k
【JAWS-UG大阪 reInvent reCap LT大会 サンバが始まったら強制終了】“1分”で初めてのソロ参戦reInventを数字で振り返りながら反省する
ttelltte
0
140
新卒1年目、はじめてのアプリケーションサーバー【IBM WebSphere Liberty】
ktgrryt
0
100
Cloudflareで実現する AIエージェント ワークフロー基盤
kmd09
0
290
Bring Your Own Container: When Containers Turn the Key to EDR Bypass/byoc-avtokyo2024
tkmru
0
850
AWSサービスアップデート 2024/12 Part3
nrinetcom
PRO
0
140
Copilotの力を実感!3ヶ月間の生成AI研修の試行錯誤&成功事例をご紹介。果たして得たものとは・・?
ktc_shiori
0
340
Accessibility Inspectorを活用した アプリのアクセシビリティ向上方法
hinakko
0
180
Git scrapingで始める継続的なデータ追跡 / Git Scraping
ohbarye
5
490
re:Invent 2024のふりかえり
beli68
0
110
GeometryReaderやスクロールを用いた表現と紐解き方
fumiyasac0921
0
100
Featured
See All Featured
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
28
2.2k
Fantastic passwords and where to find them - at NoRuKo
philnash
50
2.9k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
PRO
10
860
Improving Core Web Vitals using Speculation Rules API
sergeychernyshev
3
180
Into the Great Unknown - MozCon
thekraken
34
1.6k
The Language of Interfaces
destraynor
155
24k
How STYLIGHT went responsive
nonsquared
96
5.3k
Building Better People: How to give real-time feedback that sticks.
wjessup
366
19k
Building an army of robots
kneath
302
45k
Mobile First: as difficult as doing things right
swwweet
222
9k
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
3
240
The Cult of Friendly URLs
andyhume
78
6.1k
Transcript
1 CircleCI 2.0を支える2つの コンテナクラスター #CNDF2019 #circlecijp
2 I love Fukuoka...
3 I love Fukuoka because I can ride 電動キックボード!
4 キックボードが好きすぎて、、、 電動キックボードを安全に体験できるサービス Hop-on! を運営 • 日本で唯一のサービス(のはず) • みなとみらいで体験できます •
続きは https://hop-on.jp で!
5 CircleCIについて • クラウド型のCI/CDのリーダー • 2019年最大規模のCI/CDプラットフォームの一つ • 日本にもたくさんのお客様にご利用いただいています
モダンソフトウェアデリバリの3つの柱
モダンソフトウェアデリバリの3つの柱 本番環境
モダンソフトウェアデリバリの3つの柱 Continuous Delivery 本番環境
9 CircleCI 2.0: 完全コンテナベースのCI/CD • Dockerコンテナ上でビルド可能 • 好きなコンテナイメージを使うことができる • 複数のサービスコンテナを追加可能
• 2016年の夏にBeta版運用開始
10 CircleCI 2.0について 1日120万ビルドのCI/CDプラットフォーム
11 CircleCI 2.0について • 5万ビルド / 1hr • ~8000ビルド /
1min • ~130ビルド / 1 sec 1日120万 どのようにしてこれらのビルドをハンドリングしているか
12 技術編: 2つのクラスター 組織編: SREチームの紹介
13 自己紹介 Kim, Hirokuni (金 洋国) • CircleCI Japan Tech
Lead • 日本支社の立ち上げ • カンファレンス登壇 • 採用活動 • 記事執筆 • コミュニティー運営 ”この発言は個人の見解ではなく所属する組 織を代表しています” Twitter: https://twitter.com/kimhirokuni
14 自己紹介 ”この発言は個人の見解ではなく所属する組 織を代表しています” Kim, Hirokuni (金 洋国) • CircleCI
Japan Tech Lead • 日本支社の立ち上げ • カンファレンス登壇 • 採用活動 • 記事執筆 • コミュニティー運営 • 元プロダクトチーム • 現SREチーム Twitter: https://twitter.com/kimhirokuni
15 CircleCI Japanのご紹介 • 日本語サポート • ドキュメントの日本語化 • ユーザーコミュニティー CircleCI初の海外支社
@CircleCIJapan FB Community Group
16 技術編: 2つのクラスター 組織編: SREチームの紹介
17 2つのコンテナクラスター • Kubernetes ◦ マイクロサービス用のコンテナを管理 • Nomad ◦ ビルド用のコンテナを管理
18 2つのコンテナクラスター Services - フロントエンド - 課金 - ユーザー管理 -
WebHook処理 - etc, Executions - Docker ImageのPull - コードのcheckout - ビルドコマンドの実行 - Artifactsの保存 二つを分けることでセキュリティーを担保している
19 Kubernetes CircleCI 2.0のマイクロサービスを支えるクラスター
20 Kubernetes • 全てのマイクロサービスが動いている (約60サービス) • 自前でEC2上で管理 (後述) • サービス間通信にはgRPCとRabbitMQを使用
21 マイクロサービス間の通信: 非同期 • RabbitMQを使用 • 非同期通信が推奨 • 可能限りこちらを使う •
分散システムでは非同期のほうがよい • 毎秒何千ものリクエストを処理
22 マイクロサービス間の通信: 同期 • gRPCを使用 • 元々はビルドログをストリーミングするのに使用 • 現在、サービス間通信のデフォルト •
スケールするには一工夫必要 (次スライド)
23 問題: k8sでのgRPCロードバランス • HTTP2を使うgrpc-javaはコネクションを使い回す • K8s Serviceは複数PODをまとめるVIPを提供 • 同じPODにつながる
• 結果、サービスをスケールしてもアクセスされない
24 K8s Serviceの場合 gRPC Client Service Pod1 10.0.0.1 K8s service
foo.svc.cluster.local 10.0.0.100 Service Pod2 10.0.0.2 Cluster IP (VIP) こっちにはいかない L4・ロードバランス
25 解決: k8sでのgRPCロードバランス • K8s Headless Serviceを使う • HeadlessはPODのIPをDNSラウンドロビンで返す •
結果、grpc-clientは異なるPODにつながる
26 K8s Headless Service の場合 gRPC Client Service Pod1 10.0.0.1
headless service foo.svc.cluster.loc al 10.0.0.1 10.0.0.2 Service Pod2 10.0.0.2 DNSラウンドロビン クライアント・ロードバランス
27 K8S on EC2の問題点 • Master nodeのマネージメント ◦ Etcd ◦
証明書の管理 • 認証・セキュリティー ◦ Public API endpointの安全性 ◦ ユーザーの管理 • アップグレード問題
28 今後の課題: EKSへの移行検討中 • Master nodeのマネージメント ◦ Etcd ✔ ◦
証明書の管理 ✔ • 認証・セキュリティー ◦ Public API endpointの安全性✔ ◦ ユーザーの管理 ✔ • アップグレード問題 △
29 Nomad CircleCI 2.0のExecutionを支えるクラスター
30 Nomad について
31 Nomad アーキテクチャー Servers • K8sのマスターに相当 • コーディネーション • マルチリージョン対応
• Consulを使用 Clients • K8sのワーカーに相当 • ジョブを実際に実行
32 CircleCIの使い方 Nomad Client Build 1 Build 2 Build 3
• Dockerドライバー • 各クライアントでビルドが実行 される
33 CircleCIの使い方 Nomad Client Build 1 Build 2 Build 3
• Dockerドライバー • 各クライアントでビルドが実行 される • バッチジョブを使用
34 CircleCI ジョブ == Nomad ジョブ Nomad Job1 Nomad Job2
Nomad Job3 CircleCIのジョブは最終的にNomadのジョブの単位で実行される * 実際はもう少し複雑
35 職人の感 + 人の手 注:イメージです
36 人間の手 + 職人の感 @ CircleCI 1.0 注:イメージです
37 • Datadogモニタリング • Autoscalerサービス • AWS ASG スケーリング@CircleCI 2.0
AutoScaler 1.0時代に比べてAWSコストの大幅な削減
38 なぜNomadか? • Nomadはバッチ処理がk8sより得意だった (2016年の時点) • 現時点ではk8sもよくなっている (らしい) • シンプルなアーキテクチャー
(単一Goバイナリ) • Hashicorp Toolとの親和性 (ConsulやVaultなど) 詳しくは https://speakerdeck.com/kimh/cdpuratutohuomu
39 運用してわかったこと1 シングルバイナリは正義! • 簡単に開発環境で使える • スケールしやすい • オンプレでも管理が簡単
40 運用してわかったこと 2 効率のよいスケジューリング • 1.0時代よりも少ないマシンでより多く のビルドをできる • Resource ClassはNomad単体の機
能で実装することができた
41 運用してわかったこと 3 とても安定している • CircleCIでは0.6くらいから使用 • Nomad自身のバグが少ない
42 ビルドが実行されるまで GitHub $ Git Push
43 ビルドが実行されるまで k8s GitHub $ Git Push webhook Service Service
Service Service Service
44 ビルドが実行されるまで k8s GitHub Service Service Service Service Service To
Nomad $ Git Push webhook
45 ビルドが実行されるまで Nomad Server Nomad Server Nomad Server
46 ビルドが実行されるまで Nomad Server Nomad Server Nomad Server Nomad Client
Nomad Client Nomad Client Nomad Client Nomad Client
47 ビルドが実行されるまで Docker Nomad Server Nomad Server Nomad Server Nomad
Client Nomad Client Nomad Client Nomad Client Nomad Client
48 ビルドが実行されるまで Docker Nomad Server Nomad Server Nomad Server Nomad
Client Nomad Client Nomad Client Nomad Client Nomad Client Output processor
49 ビルドが実行されるまで Docker Nomad Server Nomad Server Nomad Server Nomad
Client Nomad Client Nomad Client Nomad Client Nomad Client Output processor
50 技術編: 2つのクラスター 組織編: SREチームの紹介
51 SREの役割 • 安定したインフラの運用 • プロダクトの開発に集中できるようにサポート • プロダクトエンジニアとのペアリング・コードレビュー • 問題調査・障害対応
52 SREチーム構成 • 現在10人弱のチーム • 4カ国にまたがる
53 ボーイング方式 • ワーキング・トュギャザー • 時差の有効活用 • 継続的なペアリング • 無理のないアラート対応
• 障害時対応
54 障害対応フロー #investigation 故障かな?と思ったら
55 障害対応フロー #investigation #incident 故障かな?と思ったら - ユーザー影響あり - 障害用のZoom開始 -
@メンションされる
56 障害対応フロー #investigation #incident https://status.circleci.com 故障かな?と思ったら - ユーザー影響あり - 障害用のZoom開始
- @メンションされる
57 障害対応フロー #investigation #incident https://status.circleci.com Incident Commander Communication Commander Note
Taker 故障かな?と思ったら - ユーザー影響あり - 障害用のZoom開始 - @メンションされる 役割分担 (後述)
58 障害対応フロー #investigation #incident https://status.circleci.com Incident Commander Communication Commander Note
Taker 20分ごとにアップデート 故障かな?と思ったら - ユーザー影響あり - 障害用のZoom開始 - @メンションされる 役割分担 (後述) - できるだけリアルタイム情報 - バナーに表示される
59 障害対応フロー #investigation #incident https://status.circleci.com Incident Commander Communication Commander Note
Taker 20分ごとにアップデート 故障かな?と思ったら - ユーザー影響あり - 障害用のZoom開始 - @メンションされる 役割分担 (後述) - できるだけリアルタイム情報 - バナーに表示される - 30分様子見 - 問題なければクローズ
60 障害対応チーム構成 Incident Commander Communication Commander Note Taker Incident Response
Team 障害復旧の責任者 広報係 障害復旧チーム 書記係
61 役割分担: Incident Commander • 障害復旧の責任者 • 問題解決に必要なリソースを確保 • SREである必要はない
62 役割分担: Communication Commander • ユーザーへ現状を伝える • ユーザーから障害範囲を聞く • Status
Pageをアップデートする
63 役割分担: Note Taker • 時系列をまとめる • What/Who/When/How を記録する
64 役割分担: Incident Response Team • 問題に詳しいエンジニアで構成 • IC, CCと連携して最善の解決策を探す
65 今後の課題
66 今後の課題: チームの拡大 • Platform Engineeringの設立 • SREチームの拡大 • プロアクティブなSRE業
67 WE ARE HIRING!!
68 SRE Team in Japan こんな人募集 • CircleCIに興味がある • 大規模インフラを面倒みたい
• コンテナをガチでやりたい • 海外のチームと働きたい
69 Developers in Japan こんな人募集 • CircleCIに興味がある • Clojureを書きたい •
海外のチームと働きたい
70 CircleCI Culture • Remote By Default • All Hands、Small
Hands • 多様性 • 柔軟な働き方
71 CircleCIでワーキング・トュギャザーしませんか? ”こうした部品メーカーと航空会社を巻き込んだワーキング・トュギャザーの取り 組みは、技術者たちの率直なコミュニケーションを生み出すことに成功しまし た。 利害の壁が取り払われ、情報や喜び、世界観や理解を分かち合いながら238 のチームで最前の飛行機作りが進められていきました。” 出典: 航空機を作る -
世界の知恵が集まったB777のテクノロジー 山中俊治 著
Thank you. 72 Optional Name
73 明後日開催: CircleCI コミュニティミートアップ in 福岡