Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
o11yツールを乗り換えた話
Search
Sponsored
·
Ship Features Fearlessly
Turn features on and off without deploys. Used by thousands of Ruby developers.
→
tak0x00
August 08, 2025
Technology
3.1k
2
Share
o11yツールを乗り換えた話
tak0x00
August 08, 2025
More Decks by tak0x00
See All by tak0x00
CDNのログでLPの可観測性を高めた話
tak0x00
1
210
Other Decks in Technology
See All in Technology
組織の中で自分を経営する技術
shoota
0
200
Dynamic Workersについて
yusukebe
0
150
AI時代から振り返るTerraform drift運用の歴史 / AI Age Reflections on the History of Terraform Drift Operations
aeonpeople
0
560
脅威をエンジニアリングの糧にして:恐怖を乗り越えた先にあったもの / Turn threats into fuel for engineering: what lay beyond overcoming fear
nrslib
1
340
インフラが苦手でも大丈夫! 紙芝居 Kubernetes -WWGT 10周年編-
aoi1
1
290
はじめてのAI-DLC
yoshidashingo
2
610
Amazon Bedrock 経由の Claude Cowork を試してみよう・MCP にも繋いでみよう
sugimomoto
0
240
管理アカウント単一運用からAWS Organizationsに移行するの大変で滅
hiramax
0
290
Spring Boot における AOT Cache 活用テクニックと 起動時間改善事例
ntt_dsol_java
0
160
大規模災害時でも高い信頼性を維持するアプリケーション基盤の実現/nikkei-tech-talk46
nikkei_engineer_recruiting
0
110
Don't Just Patch — MOTTAINAI! Learn Security from Laravel CVE Diffs
codmoninc
0
150
基礎から解説!Icebergで紐解くSnowflake×Databricks連携の現在地
cm_yasuhara
0
360
Featured
See All Featured
Bash Introduction
62gerente
615
210k
Navigating Team Friction
lara
192
16k
Unsuck your backbone
ammeep
672
58k
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
37
6.4k
It's Worth the Effort
3n
188
29k
Designing for humans not robots
tammielis
254
26k
Code Review Best Practice
trishagee
74
20k
世界の人気アプリ100個を分析して見えたペイウォール設計の心得
akihiro_kokubo
PRO
70
39k
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
28
3.5k
Organizational Design Perspectives: An Ontology of Organizational Design Elements
kimpetersen
PRO
1
710
Building Better People: How to give real-time feedback that sticks.
wjessup
370
20k
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
234
17k
Transcript
o11yツールを乗り換えた話 福本隆弘 (tak_0x00 )
自己紹介 名前: 福本 隆弘 Twitter (X): @tak_0x00 (趣味垢) 所属: 某リユース事業の会社の
SRE
今日の話は? o11yツールを乗り換えた話 - 何を目的として乗り換えたのか - 乗り換えするときに認識すべき事項 - 乗り換え作業前後のあれやこれや どちらが良い悪いという話ではなく、選択のポイントと移行準備の話です!
対象となったシステム - AWS/EC2で動作するLAMPで構成されたシステム - APサーバ(PHP環境)は10-100台で変動 - Datadogを用いたo11y環境を構築
どうして移行するに至ったのか - コスト - 全台モニタリングする環境を整えようとしたら費用がすごかった - EC2の台数変動が10~50台と幅広く、予算ブレがすごい - APMが導入できない -
詳細なパフォーマンス分析のために APMを導入したかった - 環境がそれなりに古かったため、 php moduleがインストールできない - 半年以上格闘したが、どうにか入れても seg faultで落ちる...
どうして移行するに至ったのか - コスト - 全台モニタリングする環境を整えようとしたら費用がすごかった →NewRelicならアカウント数依存 (ダッシュボード閲覧なら Free Userで可) -
APMが導入できない - 詳細なパフォーマンス分析のために APMを導入したかった →NewRelic APMを試験導入したところ問題なく動作した
どうして移行するに至ったのか - コスト - 全台モニタリングする環境を整えようとしたら費用がすごかった →NewRelicならアカウント数依存 (ダッシュボード閲覧なら Free Userで可) -
APMが導入できない - 詳細なパフォーマンス分析のために APMを導入したかった →NewRelic APMを試験導入したところ問題なく動作した Full Platformが必要なはずの APMもダッシュボード化すると閲 覧できた(当時) 元々OTELやdd-agentが導入され ておらず、完全新規導入なため 任意の選択を行いやすい状態
移行戦略を考える 試用期間 併用/切り替え準備 完全切り替え
移行戦略を考える -試用期間 試用期間 併用/切り替え準備 完全切り替え - SRE側作業 - 一部のサーバをAutoScalingグループから外し、手動で NewRelic環境を設定
- APMや各種メトリクス送信のチェック - 環境変更に伴う負荷増加やクラッシュが無いかチェック - エンジニア向けNewRelicダッシュボードの作成
移行戦略を考える -併用期間 試用期間 併用/切り替え準備 完全切り替え - SRE側作業 - NewRelic/Datadog両方をセットアップした EC2イメージに切り替え
- NewRelicのデータ使用量が想定通りかチェック - エンジニア側作業 - NewRelicの使用感確認・Datadogとの差についてSREにフィードバック
移行戦略を考える -切替完了へ向けて 併用・切り替え準備 試用期間 完全切り替え - SRE側作業 - NewRelicのみをセットアップした EC2イメージに切り替え
- エンジニア側作業 - 各種振り返り資料などの Datadogダッシュボードのキャプチャ取得 - 各ドキュメントのリンク修正
移行戦略のポイント - Datadogと同じ構成のダッシュボード を作成し、提供 - 「せっかく覚えた見方、また覚え直し?」の低減 - 単プロダクトだったため、ダッシュボード自体の枚数が少なかったことも大きい - 並行期間を充分に設ける(今回は3ヶ月ほど)
- 丸め誤差による表現の差など、 DatadogとNewRelicの差を実感・認識 してもらう - Datadog時代のキャプチャの取得 ・確保
移行してどうでした? - 予算 - (同条件だと)以前より安価に。安心して使えるようになった - 契約容量を超過する利用をしても、 2~3ヶ月以内に容量削減するか再契約するかを選択できる - o11y環境として
- APM/RUM導入により実環境でのパフォーマンスチェックが可能となった - サンプリングではなく、全台のモニタリングが可能となった - やや使い勝手は悪くなった - グラフ表現の多様性が低い - Full Platform/Basic Userの切り替えが面倒 - (当時)日中帯に破壊的UI変更があることが多く安定しない - (慣れるまで)NRQLがとっかかりづらい
移行してどうでした? - 予算 - (同条件だと)以前より安価に。安心して使えるようになった - 契約容量を超過する利用をしても、 2~3ヶ月以内に容量削減するか再契約するかを選択できる - o11y環境として
- APM/RUM導入により実環境でのパフォーマンスチェックが可能となった - サンプリングではなく、全台のモニタリングが可能となった - やや使い勝手は悪くなった - グラフ表現の多様性が低い - Full Platform/Basic Userの切り替えが面倒 - (当時)日中帯に破壊的UI変更があることが多く安定しない - (慣れるまで)NRQLがとっかかりづらい とはいえ、 見れないツールより見れるツール
まとめ -o11yツールを乗り換えてみたよ - - 課金体系・サポート対象のフレームワークなどに不満があり乗り換えた - 移行に際していくつかの施策を実施し、スムーズな移行をサポート - 並行期間を充分に設ける -
同じ体験を得られるダッシュボードの作成 - 各チームでやることの指示 - 無事に移行し、目的を達することができた
まとめ -o11yツールを乗り換えようとする時に考えること - 各プロダクトの相対評価を実施する - 課金体系の違い - ダッシュボード・グラフ表現の差 - 得意とするIaaSやサポートしているメトリクス・フレームワークの差
- (個人的には)NewRelicはAWSに、DataDogはGCPに強い印象 - 数ヶ月程度の並行期間を設ける - 実際の使用感をSRE以外でも確かめる - 旧ツールでの指標データの確保 を実施する - 新旧両方のツールで同時間の指標を取得し、 読み替えができる ようにする