Kibanaを用いたアクセスログ調査と解析 / Access Log Analysis Using Kibana

を用いたアクセスログ調査と解析勉強会

あるぴこら • 株式会社はてな • アプリケーションエンジニア • はてなブックマークチーム最近

サービスの稼働状況・アプリケーションの状態をどうやって把握するか

はてなのサーバー監視 • ◦ 自社サービス

• 状態の記録・監視 ◦ ホストの稼働状態 ▪ やミドルウェアのメトリック ◦ サービスの稼働状態 ▪ サービス全体のアクセス状況
レイテンシ • 障害対応などが起点

アクセスログのユースケース • リクエストにフォーカスしたいとき ◦ エンドポイントユーザー応答時間 • 例 ◦
障害の原因となるエンドポイントの特定 ◦ アプリケーションのパフォーマンス分析

アクセスログの形式 • ベース ◦ 時刻 time リクエスト uri 応答時間 reqtime
ステータスコード status ユーザーエージェント ua • その他 ◦ エンドポイントの識別子 dispatch ◦ ログが生成されたホスト名 hostname

アクセスログの配送 • でへ送る • 流量は数億くらい ◦ リクエスト数とは異なるサンプリングもしてる

のマッピング • で定義 ◦ ログの形式は不定 • 基本的にしない

ケーススタディ

障害対応時 • のアラートで異常に気づく • で細かい状況把握と原因調査 ◦ で異常を示したメトリクスが手がかり

急なアクセス増加 • 誰がどこにいつからアクセスしている ◦ 典型的には • で可視化
• は次を指定 ◦ date_histgram いつ ua 誰 ◦ date_histgram いつ dispatch どこ

型サーバーの枯渇 • どこでの時間をたくさん使っている • ◦ dispatch どこ •
◦ reqtime 時間

レスポンスの増加 • タブで status: [500 TO inf] • で値の偏りがないか見る ◦
エンドポイント dispatch uri ◦ クライアント ua client_ip ◦ ホスト hostname • 怪しい要素でフィルタして原因特定まで絞り込む

リリース・デプロイ時 • ダッシュボードを作っておく • 主要なエンドポイントの健全性を確認 ◦ dispatchでフィルタ ◦ statusの ◦
reqtimeの

パフォーマンス振り返り • エンドポイント dispatch ごとに表にする ◦ reqtime ◦ reqtime の時間の利用
◦ size 帯域の利用

課題／今後の展望

「クソクエリ」問題 • 実行に長時間かかる • 大量のリソースを消費 • クラスタ全体の応答時間が悪化 ◦ ログの投入も遅延

先頭のワイルドカード • ua:*GoogleBot* • あらゆるを考慮することになるので遅い • 対策 allow_leading_wildcardをfalse にする

なの集計 • の生成でに比例した計算量 • なの集計を行う意義は少ない • ダッシュボードを作った後で
が高くなることも

分散トレーシング • トレースの中でのボトルネックはどこか • ログにトレースを含めても活用が難しい

モニタリング • エンドポイントごとのモニタリングがしたい ◦ 異常があれば自動でアラートをあげたい • ダッシュボードだけではモニタリングではない

アイデア • のを使う ◦ クエリの実行結果を外部に通知できる機能 ◦ 任意のトリガ・整形方法 • のサービスメトリックを投稿

を使ってみて • サービスの運用に役立っている ◦ 探索的なログ調査 ◦ ダッシュボードによる観測 • のモニタリングと組み合わせる

Kibanaを用いたアクセスログ調査と解析 / Access Log Analysis Us...

Kibanaを用いたアクセスログ調査と解析 / Access Log Analysis Using Kibana

alpicola

More Decks by alpicola

Featured

Transcript

を用いたアクセスログ調査と解析勉強会

あるぴこら • 株式会社はてな • アプリケーションエンジニア • はてなブックマークチーム最近

サービスの稼働状況・アプリケーションの状態をどうやって把握するか

はてなのサーバー監視 • ◦ 自社サービス

• 状態の記録・監視 ◦ ホストの稼働状態 ▪ やミドルウェアのメトリック ◦ サービスの稼働状態 ▪ サービス全体のアクセス状況

アクセスログのユースケース • リクエストにフォーカスしたいとき ◦ エンドポイントユーザー応答時間 • 例 ◦

アクセスログの形式 • ベース ◦ 時刻 time リクエスト uri 応答時間 reqtime

アクセスログの配送 • でへ送る • 流量は数億くらい ◦ リクエスト数とは異なるサンプリングもしてる

のマッピング • で定義 ◦ ログの形式は不定 • 基本的にしない

ケーススタディ

障害対応時 • のアラートで異常に気づく • で細かい状況把握と原因調査 ◦ で異常を示したメトリクスが手がかり

急なアクセス増加 • 誰がどこにいつからアクセスしている ◦ 典型的には • で可視化

型サーバーの枯渇 • どこでの時間をたくさん使っている • ◦ dispatch どこ •

レスポンスの増加 • タブで status: [500 TO inf] • で値の偏りがないか見る ◦

リリース・デプロイ時 • ダッシュボードを作っておく • 主要なエンドポイントの健全性を確認 ◦ dispatchでフィルタ ◦ statusの ◦

パフォーマンス振り返り • エンドポイント dispatch ごとに表にする ◦ reqtime ◦ reqtime の時間の利用