Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
1兆メッセージ規模のKafkaプラットフォームを支えるオブザーバビリティ
Search
LINEヤフーTech (LY Corporation Tech)
PRO
December 09, 2025
Technology
0
85
1兆メッセージ規模のKafkaプラットフォームを支えるオブザーバビリティ
2025年12月1日に開催された「LINEヤフー Developer Meetup #1 in Tokyo 紀尾井町LT忘年会2025」での発表資料です。
LINEヤフーTech (LY Corporation Tech)
PRO
December 09, 2025
Tweet
Share
More Decks by LINEヤフーTech (LY Corporation Tech)
See All by LINEヤフーTech (LY Corporation Tech)
メタデータ同期に潜んでいた問題 〜 Cache Stampede 時の Cycle Wait を⾒つけた話
lycorptech_jp
PRO
0
92
LINE Messengerの次世代ストレージ選定
lycorptech_jp
PRO
12
4.6k
生成AI活用によるPRレビュー改善の歩み
lycorptech_jp
PRO
4
1.8k
Agentic Codingの実践とチームで導入するための工夫
lycorptech_jp
PRO
0
240
大規模な組織におけるAI Agent活用の促進と課題
lycorptech_jp
PRO
5
7.2k
AIに視覚を与えモバイルアプリケーション開発をより円滑に行う
lycorptech_jp
PRO
1
620
LINEアプリ開発のための Claude Code活用基盤の構築
lycorptech_jp
PRO
1
1.1k
LINEヤフーにおけるAI駆動開発組織のプロデュース施策
lycorptech_jp
PRO
0
240
1 年間の育休から時短勤務で復帰した私が、 AI を駆使して立ち上がりを早めた話
lycorptech_jp
PRO
0
200
Other Decks in Technology
See All in Technology
AI活用を"目的"にしたら、データの本質が見えてきた - Snowflake Intelligence実験記 / chasing-ai-finding-data
pei0804
0
840
JAWS DAYS 2026 CDP道場 事前説明会 / JAWS DAYS 2026 CDP Dojo briefing document
naospon
0
100
Microsoft Fabric のワークスペースと容量の設計原則
ryomaru0825
2
210
AI Coding Agentの地殻変動 ~ ai-coding.info の定点観測 ~
kotauchisunsun
1
490
Oracle Base Database Service 技術詳細
oracle4engineer
PRO
15
95k
Exadata Fleet Update
oracle4engineer
PRO
0
1.3k
組織のSREを推進するためのPlatform EngineeringとEKS / Platform Engineering and EKS to drive SRE in your organization
chmikata
0
160
Devinを導入したら予想外の人たちに好評だった
tomuro
0
620
opsmethod第1回_アラート調査の自動化にむけて
yamatook
0
330
Vertex AI Agent Engine で学ぶ「記憶」の設計
tkikuchi
0
110
Interop Tokyo 2025 ShowNet Team Memberで学んだSRv6を基礎から丁寧に
miyukichi_ospf
0
260
AI が Approve する開発フロー / How AI Reviewers Accelerate Our Development
zaimy
1
250
Featured
See All Featured
How to Ace a Technical Interview
jacobian
281
24k
The agentic SEO stack - context over prompts
schlessera
0
670
DevOps and Value Stream Thinking: Enabling flow, efficiency and business value
helenjbeal
1
130
Digital Ethics as a Driver of Design Innovation
axbom
PRO
1
200
Writing Fast Ruby
sferik
630
62k
エンジニアに許された特別な時間の終わり
watany
106
240k
Jess Joyce - The Pitfalls of Following Frameworks
techseoconnect
PRO
1
89
Bridging the Design Gap: How Collaborative Modelling removes blockers to flow between stakeholders and teams @FastFlow conf
baasie
0
470
End of SEO as We Know It (SMX Advanced Version)
ipullrank
3
4k
Public Speaking Without Barfing On Your Shoes - THAT 2023
reverentgeek
1
330
My Coaching Mixtape
mlcsv
0
63
HDC tutorial
michielstock
1
480
Transcript
© LY Corporation Haruki Okada 1兆メッセージ規模の Kafkaプラットフォームを 支えるオブザーバビリティ LY Corporation
IMF Part
© LY Corporation 2 自己紹介 • 岡田遥来 (Haruki Okada) •
X/GitHub: @ocadaruma • テックリード @ LINEヤフー IMFチーム • 全社向けマネージドApache Kafkaプラットフォーム の提供 • 興味 • 分散システム/パフォーマンス分析/形式手法,...
© LY Corporation 3 Apache Kafkaとは • オープンソースのメッセージングミドルウェア • LINEヤフーでは、
IMFチームによる大規模マネージド Kafkaクラスターを多くのサービスが多様なユースケースで利用
© LY Corporation 4 Kafkaスケール @ LINEヤフー - ピーク送信数 :
3100万メッセージ/秒 - 日次送信数 : 1兆メッセージ/日 - 日次送受信データ量: 2.6ペタバイト/日
© LY Corporation 5 “At Scale, Rare Events aren't Rare”
• 1千万回に一度の事象が毎秒起こる • 世界でまだ誰も踏んでない問題が顕在化する
© LY Corporation 6 これまで報告してきた問題(一部) • KAFKA-13403: • データ削除時のレースコンディションでKafkaがクラッシュ •
KAFKA-19407: • データ追記時のレースコンディションでレプリケーションが停止、 データ送信不可に • KIP-764: • SYN Cookiesに関するLinux kernelのバグでパフォーマンス悪化
© LY Corporation 7 どうやって原因を突き止める? • => オブザーバビリティで立ち向かう!
© LY Corporation 8 IMF Kafkaのオブザーバビリティスタック (抜粋)
© LY Corporation 9 IMF Kafkaのオブザーバビリティスタック (抜粋) 外形監視 継続的プロファイリング (JVM)
Kernelメトリクス (CPUスケジューリング) JMXベース スレッドダンプ Kernelメトリクス (I/Oレイテンシー) Kafka APIリクエストログ eBPFベース スレッドダンプ S.M.A.R.T.メトリクス RAIDステータスメトリクス
© LY Corporation 10 活用事例 (KAFKA-15046) • データ送信リクエスト遅延 (アラート) •
原因: I/Oスレッド使用率上昇 • 確認: Kafka JMXメトリクス • 原因: ProducerStateスナップショット書き込み遅延 • 確認: Kafkaアプリケーションログ • 原因: スナップショット処理とデータ書き込みのロック競合 • 確認: JVMスレッドダンプ • 原因: fsync(2)システムコール遅延 • 確認: async-profilerプロファイル • 原因: ディスクI/O負荷上昇 • 確認: node-exporter メトリクス • => 対策: ロックのスコープ変更による競合緩和
© LY Corporation 11 Kafka本体へ報告・貢献 • https://github.com/apache/kafka/pull/14242
© LY Corporation 12 まとめ • LINEヤフーの規模では、複雑なエッジケースの問題が顕在化 • 立ち向かうにはオブザーバビリティが重要 •
メトリクス/ログ/プロファイル/… • アプリケーションレイヤーからカーネルレイヤーまで