Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
trocco SREチームの概要と取り組みについて
Search
dododo8m
May 14, 2021
Technology
0
4.3k
trocco SREチームの概要と取り組みについて
troccoSREチームの概要とその取り組みに関する説明になります
dododo8m
May 14, 2021
Tweet
Share
More Decks by dododo8m
See All by dododo8m
エンジニアメンバーとの連携が必要なCSタスクの管理について
dododo8m
1
890
Other Decks in Technology
See All in Technology
mikroBus HAT を用いた簡易ベアメタル開発
tarotene
0
330
Going down the RAT hole: Deep dive into the Vuln-derland of APT-class RAT Tools
nttcom
0
370
[CV勉強会@関東 ECCV2024 読み会] オンラインマッピング x トラッキング MapTracker: Tracking with Strided Memory Fusion for Consistent Vector HD Mapping (Chen+, ECCV24)
abemii
0
160
なぜ今 AI Agent なのか _近藤憲児
kenjikondobai
3
1.2k
ドメインの本質を掴む / Get the essence of the domain
sinsoku
2
140
QAEチームが辿った3年 ボクらが改善業務にスクラムを選んだワケ / 20241108_cloudsign_ques23
bengo4com
0
1.3k
メールサーバ管理者のみ知る話
hinono
1
110
B2B SaaS × AI機能開発 〜テナント分離のパターン解説〜 / B2B SaaS x AI function development - Explanation of tenant separation pattern
oztick139
2
150
3次元点群データ「VIRTUAL SHIZUOKA』のオープンデータ化による恩恵と協働の未来/FOSS4G Japan 2024
kazz24s
0
140
Terraform CI/CD パイプラインにおける AWS CodeCommit の代替手段
hiyanger
1
190
地理情報データをデータベースに格納しよう~ GPUを活用した爆速データベース PG-Stromの紹介 ~
sakaik
1
130
マイベストのデータ基盤の現在と未来 / mybest-data-infra-asis-tobe
mybestinc
2
2k
Featured
See All Featured
Measuring & Analyzing Core Web Vitals
bluesmoon
3
79
Automating Front-end Workflow
addyosmani
1366
200k
10 Git Anti Patterns You Should be Aware of
lemiorhan
654
59k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
169
50k
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
27
4.2k
[RailsConf 2023] Rails as a piece of cake
palkan
51
4.9k
Ruby is Unlike a Banana
tanoku
96
11k
Producing Creativity
orderedlist
PRO
341
39k
StorybookのUI Testing Handbookを読んだ
zakiyama
26
5.2k
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
26
2.1k
A Tale of Four Properties
chriscoyier
156
23k
Six Lessons from altMBA
skipperchong
27
3.5k
Transcript
2021/05/14 株式会社primeNumber 百々 太市 trocco SREチームの概要と取り組みについて 0
©2021 primeNumber Inc. All Rights Reserved. Confidential. 1 会社紹介と本日出席のメンバー紹介 ✔
株式会社primeNumber 2015年11月設立 ✔ データエンジニアリングに特化した開発事業を展開 ✔ 分析基盤の総合支援サービス trocco (トロッコ) の開発・運営 ✔ 執行役員CTO、エンジニア ✔ 鈴木健太 ✔ エンジニア ✔ 伊藤雄 ✔ プリセールス ✔ 中山浩平 ✔ カスタマーサクセス、エンジニア ✔ 百々太市(本日の発表者) 会社説明 本日の出席者
©2021 primeNumber Inc. All Rights Reserved. Confidential. troccoの基本機能の紹介 2 企業の様々なデータの活用を支援する
「日本発」のデータ統合自動化サービスです ✔ 様々な種類のデータソースに対して GUIを用いて簡単にデー タ転送パイプラインを構築できます ✔ データマート機能によりDWH管理を柔軟に行うことができま す ✔ 複雑なデータ転送パイプラインを GUI上で簡単に定義するこ とが出来ます
©2021 primeNumber Inc. All Rights Reserved. Confidential. troccoを安定稼働させる上での難しさ 3 様々な形式のデータ型に対してスキーマを自
動推論することが可能 スケーラビリティの考慮されたインフラで、高 速化や同時並列実行も問題なし 100種以上のDB・ストレージ・SaaSと連携可能 troccoの原則 安定運用させるためのポイント お客様固有のあらゆるデータに対応する必要 がある お客様のパフォーマンス要件に合わせたデー タ統合基盤であり続ける必要がある 様々なサードパーティ製のサービスに対して 品質良く連携し続ける必要がある troccoの原則がそのまま安定稼働の難しさに直結している
©2021 primeNumber Inc. All Rights Reserved. Confidential. troccoのアーキテクチャの紹介 4
©2021 primeNumber Inc. All Rights Reserved. Confidential. SREの目標設定 5 アプリケーションの品質向上(機能
要件) バグを限りなく少なくし、 troccoの信頼度を高める。 ・テストの充実化 ・アプリ起因の品質強化 ・バグ分析と品質向上に向けたフローの整備 troccoのパフォーマンス維持(非機 能要件) 顧客数の増大に対し、転送遅延などのパフォーマン スをキープすることで、データパイプラインとしての信 頼度を高める。 また、セキュリティを強化することで顧客が安心して データ転送を行える基盤をキープする。 ・パフォーマンス強化 ・セキュリティ強化 ・troccoコストの維持 trocco安定稼働 一部属人化している監視周りを組織化し、インシデン トの管理と品質へのフィードバックを含めたフローを 構築し、より障害の少ない安定した基盤を達成する。 ・監視の強化と自動化 ・インシデント管理と品質向上に向けたフローの整備 ・SLOダッシュボードのブラッシュアップ CSチームとの連携強化 顧客数増の計画に対し、顧客オンボーディング体制 の増強が急務。CSチームと協力し、ともにオンボー ディングを行い ・CREチームの組成し、CSチームと連携しながら顧 客の課題に対してテクニカルな観点で解決する 継続的なリファクタリングの実施 開発スピードを落とさないよう、継続的にコードベー ス・アーキテクチャの見直しを行っていく ・日々のリファクタ ・改善weekの実施
©2021 primeNumber Inc. All Rights Reserved. Confidential. 今回はこちら2つのトピックについて説明します 6 監視の強化と自動化
CSチームとの連携強化
©2021 primeNumber Inc. All Rights Reserved. Confidential. 監視の強化と自動化 〜New Relicによる監視強化〜
7 New Relic infrastructure k8s基盤の監視 AWS サービス(RDSなど)の監視 アプリケーションの監視 転送ジョブのアプリケーション監視 転送エンジン(embulk)のメモリ監視
©2021 primeNumber Inc. All Rights Reserved. Confidential. 監視の強化と自動化 〜New Relicメトリクスのダッシュボード化〜
8 アプリケーション(APM、Prometheus)やインフラのメトリクスをもとにNew Relicのダッシュボード機能を用いて可視化 ✔ New Relic infraの k8sのメトリクスを利 用した可視化 ✔ Cloudwatchのメトリ クスを利用した可視 化 ✔ Prometheusを用いたJVMの メモリの利用状況の可視化 ✔ APMのメトリクスを 利用した可視化
©2021 primeNumber Inc. All Rights Reserved. Confidential. 監視の強化と自動化 〜Redashを用いたダッシュボード化〜 9
Redashを使用したアプリケーションデータ起点での監視の強化 ✔ troccoのアプリケーションデータの見える化 ✔ 一部正常な動きでないアプリケーションデータの見 える化
©2021 primeNumber Inc. All Rights Reserved. Confidential. 監視の強化と自動化 〜Redashを用いたダッシュボード化〜 10
各ダッシュボードで見える化した要素をSlackにアラートする ✔ 一部正常な動きでないアプリケーションデータのア ラート ✔ New Relicメトリクスも用いたアラート
©2021 primeNumber Inc. All Rights Reserved. Confidential. 監視の強化と自動化 〜SLO /
SLAダッシュボードの作成〜 11 New Relicやアプリケーションのメトリクスをtroccoを利用して BigQueryに統合した上でDataportalを用いて可視化しています ✔ trocco UIとデータ転送基盤それぞれに対して アプリケーション、インフラの観点で SLO / SLAを定め て可視化する
©2021 primeNumber Inc. All Rights Reserved. Confidential. 監視の強化と自動化 〜効果〜 12
アプリケーション・インフラの様々な観点で見える化・アラートを実施 troccoの品質改善に繋がっており「troccoの原則」を守る上での重要な基盤になっている
©2021 primeNumber Inc. All Rights Reserved. Confidential. CSチームとの連携強化 〜営業×エンジニアの取り組み〜 13
監視メトリクスのみでなくお客様情報についても troccoを利用してBigQuery上に統合・分析をしております
©2021 primeNumber Inc. All Rights Reserved. Confidential. CSチームとの連携強化 〜営業×エンジニアの取り組み〜 14
収集した各データを用いてお客様毎にスコア値を算出し 利用状況を見える化しております
©2021 primeNumber Inc. All Rights Reserved. Confidential. CSチームとの連携強化 〜効果〜 15
お客様起点で様々なデータを統合・分析・可視化 チャーンの防止やさらなるtroccoの利用活性化につなげることができる
©2021 primeNumber Inc. All Rights Reserved. Confidential. まとめ 16 ①「troccoの原則」を守るために様々な情報を見える化し品質改善の活動に活か
している ② 各メトリクスとお客様データを組みわせることでお客様の満足度を向上させる取 り組みも行っている