Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
1兆メッセージ規模のKafkaプラットフォームを支えるオブザーバビリティ
Search
Sponsored
·
SiteGround - Reliable hosting with speed, security, and support you can count on.
→
LINEヤフーTech (LY Corporation Tech)
PRO
December 09, 2025
Technology
0
85
1兆メッセージ規模のKafkaプラットフォームを支えるオブザーバビリティ
2025年12月1日に開催された「LINEヤフー Developer Meetup #1 in Tokyo 紀尾井町LT忘年会2025」での発表資料です。
LINEヤフーTech (LY Corporation Tech)
PRO
December 09, 2025
Tweet
Share
More Decks by LINEヤフーTech (LY Corporation Tech)
See All by LINEヤフーTech (LY Corporation Tech)
メタデータ同期に潜んでいた問題 〜 Cache Stampede 時の Cycle Wait を⾒つけた話
lycorptech_jp
PRO
0
95
LINE Messengerの次世代ストレージ選定
lycorptech_jp
PRO
14
5k
生成AI活用によるPRレビュー改善の歩み
lycorptech_jp
PRO
4
1.8k
Agentic Codingの実践とチームで導入するための工夫
lycorptech_jp
PRO
0
240
大規模な組織におけるAI Agent活用の促進と課題
lycorptech_jp
PRO
5
7.3k
AIに視覚を与えモバイルアプリケーション開発をより円滑に行う
lycorptech_jp
PRO
1
620
LINEアプリ開発のための Claude Code活用基盤の構築
lycorptech_jp
PRO
1
1.1k
LINEヤフーにおけるAI駆動開発組織のプロデュース施策
lycorptech_jp
PRO
0
240
1 年間の育休から時短勤務で復帰した私が、 AI を駆使して立ち上がりを早めた話
lycorptech_jp
PRO
0
200
Other Decks in Technology
See All in Technology
【2026年版】生成AIによる情報システムへのインパクト
taka_aki
0
200
AWS CDK の目玉新機能「Mixins」とは / cdk-mixins
gotok365
2
300
Oracle Base Database Service 技術詳細
oracle4engineer
PRO
15
95k
インシデント対応入門
grimoh
7
5.6k
Webアクセシビリティ技術と実装の実際
tomokusaba
0
150
組織のSREを推進するためのPlatform EngineeringとEKS / Platform Engineering and EKS to drive SRE in your organization
chmikata
0
160
Introduction to Sansan for Engineers / エンジニア向け会社紹介
sansan33
PRO
6
71k
Master Dataグループ紹介資料
sansan33
PRO
1
4.4k
【5分でわかる】セーフィー エンジニア向け会社紹介
safie_recruit
0
43k
NW構成図の自動描画は何が難しいのか?/netdevnight3
corestate55
2
510
三菱UFJ銀行におけるエンタープライズAI駆動開発のリアル / Enterprise AI_Driven Development at MUFG Bank: The Real Story
muit
10
20k
Windows ネットワークを再確認する
murachiakira
PRO
0
190
Featured
See All Featured
Bash Introduction
62gerente
615
210k
Measuring & Analyzing Core Web Vitals
bluesmoon
9
770
Unsuck your backbone
ammeep
671
58k
Prompt Engineering for Job Search
mfonobong
0
180
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
10
1.1k
The Power of CSS Pseudo Elements
geoffreycrofte
81
6.2k
Are puppies a ranking factor?
jonoalderson
1
3k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
31
10k
How to Ace a Technical Interview
jacobian
281
24k
Why Your Marketing Sucks and What You Can Do About It - Sophie Logan
marketingsoph
0
90
Why Mistakes Are the Best Teachers: Turning Failure into a Pathway for Growth
auna
0
71
Reflections from 52 weeks, 52 projects
jeffersonlam
356
21k
Transcript
© LY Corporation Haruki Okada 1兆メッセージ規模の Kafkaプラットフォームを 支えるオブザーバビリティ LY Corporation
IMF Part
© LY Corporation 2 自己紹介 • 岡田遥来 (Haruki Okada) •
X/GitHub: @ocadaruma • テックリード @ LINEヤフー IMFチーム • 全社向けマネージドApache Kafkaプラットフォーム の提供 • 興味 • 分散システム/パフォーマンス分析/形式手法,...
© LY Corporation 3 Apache Kafkaとは • オープンソースのメッセージングミドルウェア • LINEヤフーでは、
IMFチームによる大規模マネージド Kafkaクラスターを多くのサービスが多様なユースケースで利用
© LY Corporation 4 Kafkaスケール @ LINEヤフー - ピーク送信数 :
3100万メッセージ/秒 - 日次送信数 : 1兆メッセージ/日 - 日次送受信データ量: 2.6ペタバイト/日
© LY Corporation 5 “At Scale, Rare Events aren't Rare”
• 1千万回に一度の事象が毎秒起こる • 世界でまだ誰も踏んでない問題が顕在化する
© LY Corporation 6 これまで報告してきた問題(一部) • KAFKA-13403: • データ削除時のレースコンディションでKafkaがクラッシュ •
KAFKA-19407: • データ追記時のレースコンディションでレプリケーションが停止、 データ送信不可に • KIP-764: • SYN Cookiesに関するLinux kernelのバグでパフォーマンス悪化
© LY Corporation 7 どうやって原因を突き止める? • => オブザーバビリティで立ち向かう!
© LY Corporation 8 IMF Kafkaのオブザーバビリティスタック (抜粋)
© LY Corporation 9 IMF Kafkaのオブザーバビリティスタック (抜粋) 外形監視 継続的プロファイリング (JVM)
Kernelメトリクス (CPUスケジューリング) JMXベース スレッドダンプ Kernelメトリクス (I/Oレイテンシー) Kafka APIリクエストログ eBPFベース スレッドダンプ S.M.A.R.T.メトリクス RAIDステータスメトリクス
© LY Corporation 10 活用事例 (KAFKA-15046) • データ送信リクエスト遅延 (アラート) •
原因: I/Oスレッド使用率上昇 • 確認: Kafka JMXメトリクス • 原因: ProducerStateスナップショット書き込み遅延 • 確認: Kafkaアプリケーションログ • 原因: スナップショット処理とデータ書き込みのロック競合 • 確認: JVMスレッドダンプ • 原因: fsync(2)システムコール遅延 • 確認: async-profilerプロファイル • 原因: ディスクI/O負荷上昇 • 確認: node-exporter メトリクス • => 対策: ロックのスコープ変更による競合緩和
© LY Corporation 11 Kafka本体へ報告・貢献 • https://github.com/apache/kafka/pull/14242
© LY Corporation 12 まとめ • LINEヤフーの規模では、複雑なエッジケースの問題が顕在化 • 立ち向かうにはオブザーバビリティが重要 •
メトリクス/ログ/プロファイル/… • アプリケーションレイヤーからカーネルレイヤーまで