robust logprocessing - Speaker Deck

Slide 1

Slide 1 text

安全にスケールするログ解析システム構築の勘所 1 株式会社スケールアウト山崎大輔

Slide 2

Slide 2 text

はじめに 1. スケーラブルなログ集計を安全に構築するために我々が考慮していることを説明します。 2. 広告集計という特性上、「超高速にかつ高効率に！」というよりはどちらかというと「多少の非効率は目をつぶって安全側に寄せる」という設計方針になっています。 3. 上司から突然「来月から1日10億越えのアクセスを食うことになるから集計システムはよろしくね♪」という日が来るかもしれないので、来たる日に備えてもらえればと思います。 2

Slide 3

Slide 3 text

アジェンダ n 自己紹介 n ログ集計の実際 n ログ集計の各パートで考慮していること n まとめ 3

Slide 4

Slide 4 text

自己紹介山崎大輔 Twitter: @yamaz Blog : 最速配信研究会 http://d.hatena.ne.jp/yamaz/ 現在：株式会社スケールアウト代表 1日数億～を超えるような配信をカジュアルに行うための広告配信システム「ScaleAds」の開発と販売およびコンサルかれこれオンライン広告業界で14年やってます 4

Slide 5

Slide 5 text

広告集計で行っている典型的な処理 n 分散処理ができるもの n PageView集計など n 分散処理しにくく、依存関係がないもの n 1日分のUU(UniqueUser)集計 n 分散処理できず、データの依存関係があるもの n 積算UU集計など 5

Slide 6

Slide 6 text

システム構成(分散が効くもの) 6 配信サーバ集計サーバレポートサーバ(RDB) 生ログ中間集計ログ

Slide 7

Slide 7 text

システム構成(分散が効かないもの) 7 配信サーバ集計クラスタ(Hadoop) レポートサーバ(RDB) 生ログ

Slide 8

Slide 8 text

処理全体で意識すべきこと集計処理全体でどのサーバにどう処理を負担させるべきかを強く意識する例：集計サーバ側での巨大テーブル同士のJOINは大変解決案： JOIN相当が行われた状態でログをはき出す JOIN演算をフロントサーバに寄せることで、 JOIN演算の計算リソースと時間を分散する (ただしディスクは食う) 8

Slide 9

Slide 9 text

ログローテート n 定期的なログローテーション(現在は1時間に一度) n ランダムローテーション(全台同時に落として対応するHTTPDがいなくなる状態を避ける) 9

Slide 10

Slide 10 text

中間集計ログローテーション後、分散処理が効く集計に関しては速やかに同一サーバ(=配信サーバ)で中間集計を行う利点: 配信サーバが配信と中間処理のコストを負うので、全体が間に合うようにサーバを足すだけ勝手にスケールする。 10

Slide 11

Slide 11 text

ログトランスファー n あんまりよくない方法 1日終わった後に全部のログを集める →集計開始時間が無駄に遅くなる n よりよい方法ローテーション回数を増やし、時間分割して集まってない奴だけを集める 11

Slide 12

Slide 12 text

ログトランスファーその2 n よりよいかもしれない方法ログをそのままネットワークを介してデータストレージに書き込む(Facebook Scribeなど) 利点：帯域利用の平滑化が達成される (ログの二重書き込みの可能性を排除できなかったため、弊社では不採用) (注) 広告集計上まずいことログの二重カウント>> (越えられない壁) >>ログのロスト > 集計が間に合わない > その他 12

Slide 13

Slide 13 text

本集計 n 集計の冪等性を強く意識する冪等性（べきとうせい: idempotence）ある操作を1回行っても複数回行っても結果が同じであることをいう概念 n → 冪等性があって分割処理をしやすい集計はスケールしやすい n 冪等性のあるなし/分割処理のしやすさによって処理を分ける 13

Slide 14

Slide 14 text

本集計 n 冪等性あり/分割処理しやすい(例: PageViewカウント) → フロントサーバで中間集計し、本集計でマージ処理 (中間集計で大部分の処理が完了しているので、処理は5 分程度) n 冪等性ちょっとあり/分割処理しにくい( 例: UniqueUserカウント) Hadoopクラスタにデータを載せて集計 n 冪等性なし/分割処理しにくい(例: 積算UUカウント) Hadoopクラスタにデータを載せて集計 14

Slide 15

Slide 15 text

日々の運用について n キャパシティプランニング n 人的依存の排除 n 集計系に過度な期待をかけない 15

Slide 16

Slide 16 text

キャパシティプランニング今後の伸びだけでなく、日常的に再集計がおきうることも加味するよくない例 1日の集計が20時間かかる →再集計にかけられる時間が1日4時間しかない →1日の集計遅れを取り返すのに5日かかる →週明けに金曜の集計ミスが起きたら事実上アウト弊社の例)8時間で完了するようにプランニングする 16

Slide 17

Slide 17 text

人的依存の排除 n 冪等性がある集計なら誰がいつ実行しても問題ないようにする。 n 集計側を過度に複雑なシステムにて復旧にノウハウが必要なようにはしない繊細な条件でしか動かないようなシステムはよくないシステム(やかんはこわれないよ) 17

Slide 18

Slide 18 text

集計系に過度な負荷をかけない n NOSQLベースだとJOIN演算がきつくなるので、ログ作成及びETL 側で工夫するログ作成側(Webサーバ)でJOIN演算相当を行ってログ1行に極力すべてのデータがあるようにする(これはJoin演算をアクセス側に寄せているのと同じ) n 過度な最適化はあきらめる最近のハードウェアは速く、単純な仕組みでも十分速い。なので複雑な仕組みを導入しないと速度が上がらないようならアーキテクチャやハードウェアの選定が間違っている可能性も考えましょう 18

Slide 19

Slide 19 text

まとめ n ログ集計に際して弊社で考慮していることを簡単に説明しました。メンバー募集中です！大量配信・大規模集計やりたい方はぜひ。バイト・インターンも可です([email protected]まで) 19