Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
既存のログ監視システムをクラウドっぽく実装してみた
Search
tjmtrhs
February 18, 2026
Technology
0
450
既存のログ監視システムをクラウドっぽく実装してみた
ルータやスイッチが出力するsyslogを監視してアラートを発生させるシステムを運用しています。これをGCP Pub/SubやDataflowを用いて実装し直す取り組みを紹介します。
tjmtrhs
February 18, 2026
Tweet
Share
More Decks by tjmtrhs
See All by tjmtrhs
データモデルYANGの処理系を再発明した話
tjmtrhs
0
1.1k
運用者の試行錯誤を想定したNWモデル上での並列検証システム
tjmtrhs
0
53
コンテナを用いたISPネットワーク検証システムとトラヒックシミュレーションによる作業事前検証の実施
tjmtrhs
0
90
ISP機器設定ファイルをもとにトポロジモデルを抽出し仮想検証環境構築と運用手順確認に利用する手法
tjmtrhs
0
110
皆がすなるカオスエンジアリングといふものを、ネットワークオペレーションでもしてみむとてするなり
tjmtrhs
0
650
ネットワーク機器もエージェントで監視できるのかやってみた mackerel meetup 14 LT
tjmtrhs
0
2.1k
ネットワーク設定の抽象化とコンテナルータを用いた検証環境の立ち上げ支援
tjmtrhs
0
1.3k
もし本番ネットワークをまるごと仮想環境に”コピー”できたらうれしいですか?
tjmtrhs
0
200
モデルを基に本番環境を再現して事前に検証可能にする運用サイクル
tjmtrhs
0
86
Other Decks in Technology
See All in Technology
us-east-1 に障害が起きた時に、 ap-northeast-1 にどんな影響があるか 説明できるようになろう!
miu_crescent
PRO
13
4.2k
EMからVPoEを経てCTOへ:マネジメントキャリアパスにおける葛藤と成長
kakehashi
PRO
9
1.7k
kintone開発のプラットフォームエンジニアの紹介
cybozuinsideout
PRO
0
860
ランサムウエア対策してますか?やられた時の対策は本当にできてますか?AWSでのリスク分析と対応フローの泥臭いお話。
hootaki
0
110
AI時代のSaaSとETL
shoe116
1
110
ナレッジワークのご紹介(第88回情報処理学会 )
kworkdev
PRO
0
180
S3はフラットである –AWS公式SDKにも存在した、 署名付きURLにおけるパストラバーサル脆弱性– / JAWS DAYS 2026
flatt_security
0
1.7k
OCI技術資料 : コンピュート・サービス 概要
ocise
4
54k
DevOpsエージェントで実現する!! AWS Well-Architected(W-A) を実現するシステム設計 / 20260307 Masaki Okuda
shift_evolve
PRO
3
590
情シスのための生成AI実践ガイド2026 / Generative AI Practical Guide for Business Technology 2026
glidenote
0
200
僕、S3 シンプルって名前だけど全然シンプルじゃありません よろしくお願いします
yama3133
1
200
「ストレッチゾーンに挑戦し続ける」ことって難しくないですか? メンバーの持続的成長を支えるEMの環境設計
sansantech
PRO
3
650
Featured
See All Featured
Un-Boring Meetings
codingconduct
0
220
Applied NLP in the Age of Generative AI
inesmontani
PRO
4
2.2k
Deep Space Network (abreviated)
tonyrice
0
89
Raft: Consensus for Rubyists
vanstee
141
7.4k
16th Malabo Montpellier Forum Presentation
akademiya2063
PRO
0
69
The B2B funnel & how to create a winning content strategy
katarinadahlin
PRO
1
300
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
32
2.4k
Discover your Explorer Soul
emna__ayadi
2
1.1k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
508
140k
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
12
1.1k
The Curse of the Amulet
leimatthew05
1
9.8k
Color Theory Basics | Prateek | Gurzu
gurzu
0
240
Transcript
© NTT DOCOMO BUSINESS, Inc. All Rights Reserved. 1 既存のログ監視システムを
クラウドっぽく実装してみた NTT Tech Conference 2026 LT 2026/02/18 @ docomo R&D OPEN LAB ODAIBA & online NTTドコモビジネス 原田和明, 川崎洋平, 田島照久
[email protected]
© NTT DOCOMO BUSINESS, Inc. All Rights Reserved. 2 それなりのNWを運用しています
業界最大級(たぶん)の検証設備の運営とエンジニア育成, speakerdeck, 2023/03/28
© NTT DOCOMO BUSINESS, Inc. All Rights Reserved. 3 基盤システム運用の監視とsyslog
Polling (pull, active) Trap (push, passive) log log log log log log messageの例 Jan 21 13:49:12 d01j.akbu mib2d[80865]: SNMP_TRAP_LINK_DOWN: ifIndex 646, ifAdminStatus up(1), ifOperStatus down(2), ifName xe-1/0/9
© NTT DOCOMO BUSINESS, Inc. All Rights Reserved. 4 これまでのシステムと改善の狙い
ログ保管 パケット ブローカ 異常判定 メンテ 情報DB 1日に100万行 いかないくらい = 平均 10 line/sec 通常は 発生数秒~10秒程度 の遅延
© NTT DOCOMO BUSINESS, Inc. All Rights Reserved. 5 これまでのシステムと改善の狙い
ログ保管 パケット ブローカ 異常判定 メンテ 情報DB 1日に100万行 いかないくらい = 平均 10 line/sec 通常は 発生数秒~10秒程度 の遅延 「平均」なので波がある。 冗長系切り替え時などでは 数千行が一気に出力される こともある 判定スクリプトのspawnに よりLoadAvgの増加を招き 数十分以上の遅延が発生 遅延による 時刻のずれで 不要な通知発 生 swatch で実装されていて わかりやすいが、全体的な ルールが不明瞭になって メンテ効率は微妙
© NTT DOCOMO BUSINESS, Inc. All Rights Reserved. 6 そうだPub/Subしよう:
大量メッセージを捌くノウハウ求めて パケット ブローカ syslog-ng Pub/Sub 入力用 トピック Dataflow メッセージを ストリーミング処理 Function + KVS 異常&メンテ判定 メンテ 情報DB Pub/Sub アラート用トピック Pub/Sub 非アラート用トピック Function 通知処理
© NTT DOCOMO BUSINESS, Inc. All Rights Reserved. 7 なぜDataflow?
◼ 要件 ⚫ pubsubのsubscriberとして動く ⚫ メッセージを読み、外部APIを叩き、 条件分岐で別topicにpublishできる ⚫ 絶え間なく流れるデータを オーバヘッド少なく処理してほしい ◼ 実装の案 ⚫ Function (Cloud Run) でpubsub SDK使って自前実装 ⚫ Dataflow (Apache Beam) を使う → 後者の方がPaaSっぽいし、周囲の入出力の責務は丸投げできて コア部分のロジックに限定できそう ※実際はGCE (IaaS) にdataflowインスタンスが建ちます
© NTT DOCOMO BUSINESS, Inc. All Rights Reserved. 8 参考:Dataflowはjavaのコードを書く
◼ pythonでも書ける らしいが未検証
© NTT DOCOMO BUSINESS, Inc. All Rights Reserved. 9 改善されたのか?
◼ WIPですが、ちゃんと流れてそうな気配 ⚫ 負荷テストはこれから ◼ 頭を悩ますポイントは増えた ⚫ インスタンスサイズのコスパ • 最小でも月1万円くらい ⚫ dataflowの内部処理で ある程度バッファして処理しているが バッファ=遅延なのでその調整 ⚫ コンポーネントが疎になったので 結合テスト(CI)の実施方法が未知 • 想定するメッセージを都度publishして チェックする方法が有力 ⚫ オートスケールは有効に機能するのか (未検証)