robust logprocessing

安全にスケールするログ解析システム構築の勘所 1 株式会社スケールアウト山崎大輔

はじめに 1. スケーラブルなログ集計を安全に構築するために我々が考慮していることを説明します。 2. 広告集計という特性上、「超高速にかつ高効率に！」というよりはどちらかというと「多少の非効率は目をつぶって安全側に寄せる」という設計方針になっています。 3. 上司から突然「来月から1日10億越えのアクセスを食うことになるから
集計システムはよろしくね♪」という日が来るかもしれないので、来たる日に備えてもらえればと思います。 2

アジェンダ n 自己紹介 n ログ集計の実際 n ログ集計の各パートで考慮していること n まとめ 3

自己紹介山崎大輔 Twitter: @yamaz Blog : 最速配信研究会 http://d.hatena.ne.jp/yamaz/ 現在：株式会社スケールアウト代表
1日数億～を超えるような配信をカジュアルに行うための広告配信システム「ScaleAds」の開発と販売およびコンサルかれこれオンライン広告業界で14年やってます 4

広告集計で行っている典型的な処理 n 分散処理ができるもの n PageView集計など n 分散処理しにくく、依存関係がないもの n 1日分のUU(UniqueUser)集計
n 分散処理できず、データの依存関係があるもの n 積算UU集計など 5

システム構成(分散が効くもの) 6 配信サーバ集計サーバレポートサーバ(RDB) 生ログ中間集計ログ

システム構成(分散が効かないもの) 7 配信サーバ集計クラスタ(Hadoop) レポートサーバ(RDB) 生ログ

処理全体で意識すべきこと集計処理全体でどのサーバにどう処理を負担させるべきかを強く意識する例：集計サーバ側での巨大テーブル同士のJOINは大変解決案： JOIN相当が行われた状態でログをはき出す JOIN演算をフロントサーバに寄せることで、 JOIN演算の計算リソースと時間を分散する (ただしディスクは食う)
8

ログローテート n 定期的なログローテーション(現在は1時間に一度) n ランダムローテーション(全台同時に落として対応するHTTPDがいなくなる状態を避ける) 9

中間集計ログローテーション後、分散処理が効く集計に関しては速やかに同一サーバ(=配信サーバ)で中間集計を行う利点: 配信サーバが配信と中間処理のコストを負うので、全体が間に合うようにサーバを足すだけ勝手にスケールする。 10

ログトランスファー n あんまりよくない方法 1日終わった後に全部のログを集める →集計開始時間が無駄に遅くなる n よりよい方法ローテーション回数を増やし、時間分割して集まってない奴だけを集める 11

ログトランスファーその2 n よりよいかもしれない方法ログをそのままネットワークを介してデータストレージに書き込む(Facebook Scribeなど) 利点：帯域利用の平滑化が達成される (ログの二重書き込みの可能性を排除できなかったため、弊社では不採用)
(注) 広告集計上まずいことログの二重カウント>> (越えられない壁) >>ログのロスト > 集計が間に合わない > その他 12

本集計 n 集計の冪等性を強く意識する冪等性（べきとうせい: idempotence）ある操作を1回行っても複数回行っても結果が同じであることをいう概念 n → 冪等性があって分割処理をしやすい集計はスケール
しやすい n 冪等性のあるなし/分割処理のしやすさによって処理を分ける 13

本集計 n 冪等性あり/分割処理しやすい(例: PageViewカウント) → フロントサーバで中間集計し、本集計でマージ処理 (中間集計で大部分の処理が完了しているので、処理は5 分程度) n
冪等性ちょっとあり/分割処理しにくい( 例: UniqueUserカウント) Hadoopクラスタにデータを載せて集計 n 冪等性なし/分割処理しにくい(例: 積算UUカウント) Hadoopクラスタにデータを載せて集計 14

日々の運用について n キャパシティプランニング n 人的依存の排除 n 集計系に過度な期待をかけない 15

キャパシティプランニング今後の伸びだけでなく、日常的に再集計がおきうることも加味するよくない例 1日の集計が20時間かかる →再集計にかけられる時間が1日4時間しかない →1日の集計遅れを取り返すのに5日かかる →週明けに金曜の集計ミスが起きたら事実上アウト弊社の例)8時間で完了するようにプランニングする 16

人的依存の排除 n 冪等性がある集計なら誰がいつ実行しても問題ないようにする。 n 集計側を過度に複雑なシステムにて復旧にノウハウが必要なようにはしない繊細な条件でしか動かないようなシステムはよくないシステム(やかんはこわれないよ) 17

集計系に過度な負荷をかけない n NOSQLベースだとJOIN演算がきつくなるので、ログ作成及びETL 側で工夫するログ作成側(Webサーバ)でJOIN演算相当を行ってログ1行に極力すべてのデータがあるようにする(これはJoin演算をアクセス側に寄せているのと同じ) n 過度な最適化はあきらめる
最近のハードウェアは速く、単純な仕組みでも十分速い。なので複雑な仕組みを導入しないと速度が上がらないようならアーキテクチャやハードウェアの選定が間違っている可能性も考えましょう 18

まとめ n ログ集計に際して弊社で考慮していることを簡単に説明しました。メンバー募集中です！大量配信・大規模集計やりたい方はぜひ。バイト・インターンも可です([email protected]まで) 19

robust logprocessing

robust logprocessing

Daisuke Yamazaki

More Decks by Daisuke Yamazaki

Other Decks in Technology

Featured

Transcript

安全にスケールするログ解析システム構築の勘所 1 株式会社スケールアウト山崎大輔

アジェンダ n 自己紹介 n ログ集計の実際 n ログ集計の各パートで考慮していること n まとめ 3

自己紹介山崎大輔 Twitter: @yamaz Blog : 最速配信研究会 http://d.hatena.ne.jp/yamaz/ 現在：株式会社スケールアウト代表

広告集計で行っている典型的な処理 n 分散処理ができるもの n PageView集計など n 分散処理しにくく、依存関係がないもの n 1日分のUU(UniqueUser)集計

システム構成(分散が効くもの) 6 配信サーバ集計サーバレポートサーバ(RDB) 生ログ中間集計ログ

システム構成(分散が効かないもの) 7 配信サーバ集計クラスタ(Hadoop) レポートサーバ(RDB) 生ログ

ログローテート n 定期的なログローテーション(現在は1時間に一度) n ランダムローテーション(全台同時に落として対応するHTTPDがいなくなる状態を避ける) 9

ログトランスファー n あんまりよくない方法 1日終わった後に全部のログを集める →集計開始時間が無駄に遅くなる n よりよい方法ローテーション回数を増やし、時間分割して集まってない奴だけを集める 11

本集計 n 集計の冪等性を強く意識する冪等性（べきとうせい: idempotence）ある操作を1回行っても複数回行っても結果が同じであることをいう概念 n → 冪等性があって分割処理をしやすい集計はスケール

本集計 n 冪等性あり/分割処理しやすい(例: PageViewカウント) → フロントサーバで中間集計し、本集計でマージ処理 (中間集計で大部分の処理が完了しているので、処理は5 分程度) n

日々の運用について n キャパシティプランニング n 人的依存の排除 n 集計系に過度な期待をかけない 15

まとめ n ログ集計に際して弊社で考慮していることを簡単に説明しました。メンバー募集中です！大量配信・大規模集計やりたい方はぜひ。バイト・インターンも可です([email protected]まで) 19