Upgrade to Pro — share decks privately, control downloads, hide ads and more …

なにもしてないのにNew Relicのデータ転送量が増えていたときに確認したこと

Sponsored · Ship Features Fearlessly Turn features on and off without deploys. Used by thousands of Ruby developers.
Avatar for tk3fftk tk3fftk
September 10, 2024

なにもしてないのにNew Relicのデータ転送量が増えていたときに確認したこと

New Relic User Group Vol.11 ただのLT大会 - connpass
https://nrug.connpass.com/event/327828/

Avatar for tk3fftk

tk3fftk

September 10, 2024

More Decks by tk3fftk

Other Decks in Technology

Transcript

  1. 目次 © primeNumber Inc. 2 • 自己紹介とTROCCO®の紹介 • 今日話すことサマリ •

    見るべきポイント、検討すべきポイント • どんな発生ケースがあったか • まとめ
  2. 目次 © primeNumber Inc. 3 • 自己紹介とTROCCO®の紹介 • 今日話すことサマリ •

    見るべきポイント、検討すべきポイント • どんな発生ケースがあったか • まとめ
  3. © primeNumber Inc. 4 髙塚広貴 (@tk3fftk) 株式会社primeNumber Head of SRE

    • ヤフー株式会社 (2016 ~ 2022) ◦ CI/CDプラットフォーム Screwdriver.cd のSREチームのスクラムマスターやEM • 株式会社primeNumber (2022 ~ ) ◦ TROCCO®のSRE ◦ New Relic歴は2年くらい • 猫 ◦ アルくん (アビシニアン ♂ 4歳)
  4. 目次 © primeNumber Inc. 10 • 自己紹介とTROCCO®の紹介 • 今日話すことサマリ •

    見るべきポイント、検討すべきポイント • どんな発生ケースがあったか • まとめ
  5. © primeNumber Inc. 11 今日話すこと 「なにもしてないのにNew Relicのデータ転送量が増えていたときに確認したこと」 • 基本的には Understand

    and manage data ingest に書いてあること ◦ 雑にまとめると「いらんデータを特定して消せ!」という話が書いてある • どこを見て、どう特定し、何を減らせばいいか • 実際に起こった事象に対して何をやったか • “なにもしてないのに” == “心当たりがないのに” くらいで捉えてもらえると🙏
  6. 目次 © primeNumber Inc. 12 • 自己紹介とTROCCO®の紹介 • 今日話すことサマリ •

    見るべきポイント、検討すべきポイント • どんな発生ケースがあったか • まとめ
  7. © primeNumber Inc. 17 何が、いつから、が分かればリリース/更新内容を確認する 1. New Relic Agentまわりの設定が変わってないか? 2.

    アプリケーション、インフラともにagent versionを上げたタイミングではないか? 3. アプリケーションに何か大きめのアップデートはないか? 4. 他に何かデータ送信側に怪しげな兆候はないか? 5. 全部当てはまらないとき まずはここから
  8. © primeNumber Inc. 18 1. New Relic Agentまわりの設定が変わってないか? • 設定変更した結果、思ったよりデータ転送量増えちゃってる

    • 設定を元に戻したり、転送intervalを調整するなど 何もしてなくないパターン() なので、設定変更が原因の可能性大
  9. © primeNumber Inc. 19 2. Agent versionを上げたタイミングではないか? • 有効化フラグのデフォルト値が変わっている •

    新しいメトリクスを送るようになっている など… • 公式ドキュメントのリリースノートが充実しているので見てアタリをつけましょう ◦ Release notes | New Relic Documentation • Major versionを上げている場合はmigration guideも ◦ 例: Ruby agent 8.x to 9.x migration guide | New Relic Documentation ▪ 上げる前に読んでるだろうけど、見落としとか… アップグレードの際に意図しない設定が入ってる可能性を疑う👀
  10. © primeNumber Inc. 22 5. 全部当てはまらないとき • おめでとうございます 🎉 •

    それでもデータ転送減らしたいのであれば、ひたすらケチってみる ◦ リアルタイム性や細かいメトリクスがいらないのであればintervalを下げる ▪ 単純に量が多いならここが効く • interval倍にしたら単純計算で半分になる ◦ 普段見てない「とりあえず」で送っているメトリクスの棚卸し ◦ Drop dataしてみる (やったことはないですが…) ▪ Drop data using NerdGraph | New Relic Documentation • > Dropped data does not count towards your data ingest and so is not billable. プロダクトが順調に伸びているか、New Relicの活用が進んでいます (たぶん)
  11. 目次 © primeNumber Inc. 23 • 自己紹介とTROCCO®の紹介 • 今日話すことサマリ •

    見るべきポイント、検討すべきポイント • どんな発生ケースがあったか • まとめ
  12. © primeNumber Inc. 25 ① k8sのCompletedなJobが残り続けていた • “Infrastructure integrations” が倍増

    ◦ ≒ TROCCOのジョブ実行基盤のk8sのメトリクスが増え続けていた ▪ CompletedなJobが残り続けていたため • 3つのうち最も特定難しかったケース • 詳しくは👇 緊急SOS!KubernetesのCompletedな10万Jobぜんぶ消す
  13. © primeNumber Inc. 26 ② “Infrastructure processes” が有効になっていた • k8s

    agent管理を古来より受け継いだYAMLからHelmに移行した際に発生 • defaultがtrueになった値(enableProcessMetrics)の見逃し ◦ Infrastructure agent configuration settings | New Relic Documentation ▪ > Requires infrastructure agent version 1.12.0 or higher. Accounts created before July 20, 2020 and/or infrastructure agents installed using the new Guided Install have this variable enabled by default.
  14. © primeNumber Inc. 27 ③ 設定の移行漏れ • わかりにくいが②と同タイミングに発生していた (薄紫が②のやつ) ◦

    ②を潰して安心していたが、実は“Infrastructure integrations”が倍くらい • infra agentのintervalの設定の移行漏れ ◦ 細かくチューニングするのではなく lowDataMode を有効にした ▪ nri-kubernetes/charts/newrelic-infrastructure/README.md • > The lowDataMode toggle is the simplest way to reduce data send to Newrelic.
  15. 目次 © primeNumber Inc. 28 • 自己紹介とTROCCO®の紹介 • 今日話すことサマリ •

    見るべきポイント、検討すべきポイント • どんな発生ケースがあったか • まとめ
  16. © primeNumber Inc. 29 まとめ なにもしてないのに(心当たりがないのに)データ転送量が増えたときは… • 「どのデータソース」が「いつから」増えているか確認する • その周辺の自分たちのリリース/更新内容を確認する

    ◦ New Relic Agentまわりの設定が変わってないか? ◦ アプリケーション、インフラともにagent versionを上げたタイミングではないか? ◦ アプリケーションに何か大きめのアップデートはないか? ◦ 他に何かデータ送信側に怪しげな兆候はないか? • 当てはまらなかったプロダクトが順調に伸びているか、New Relicの活用が進んでい ます (たぶん) ◦ それでもデータ転送減らしたいのであれば、ひたすらケチってみる