Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
データサイズ2ペタ ソネットメディアネットワークスでのImpala活用とHadoop運用
Search
suganoo
March 14, 2019
Technology
0
920
データサイズ2ペタ ソネットメディアネットワークスでのImpala活用とHadoop運用
データサイズ2ペタ ソネットメディアネットワークスでのImpala活用とHadoop運用
suganoo
March 14, 2019
Tweet
Share
Other Decks in Technology
See All in Technology
AIエージェントを開発しよう!-AgentCore活用の勘所-
yukiogawa
0
200
量子クラウドサービスの裏側 〜Deep Dive into OQTOPUS〜
oqtopus
0
150
ブロックテーマ、WordPress でウェブサイトをつくるということ / 2026.02.07 Gifu WordPress Meetup
torounit
0
210
OCI Database Management サービス詳細
oracle4engineer
PRO
1
7.4k
プロポーザルに込める段取り八分
shoheimitani
1
670
AIが実装する時代、人間は仕様と検証を設計する
gotalab555
1
640
We Built for Predictability; The Workloads Didn’t Care
stahnma
0
150
30万人の同時アクセスに耐えたい!新サービスの盤石なリリースを支える負荷試験 / SRE Kaigi 2026
genda
4
1.4k
SREが向き合う大規模リアーキテクチャ 〜信頼性とアジリティの両立〜
zepprix
0
480
AWS DevOps Agent x ECS on Fargate検証 / AWS DevOps Agent x ECS on Fargate
kinunori
2
250
10Xにおける品質保証活動の全体像と改善 #no_more_wait_for_test
nihonbuson
PRO
2
340
配列に見る bash と zsh の違い
kazzpapa3
3
170
Featured
See All Featured
Information Architects: The Missing Link in Design Systems
soysaucechin
0
780
SEO for Brand Visibility & Recognition
aleyda
0
4.2k
WENDY [Excerpt]
tessaabrams
9
36k
The MySQL Ecosystem @ GitHub 2015
samlambert
251
13k
Become a Pro
speakerdeck
PRO
31
5.8k
A designer walks into a library…
pauljervisheath
210
24k
Docker and Python
trallard
47
3.7k
A Guide to Academic Writing Using Generative AI - A Workshop
ks91
PRO
0
210
Abbi's Birthday
coloredviolet
1
4.8k
DBのスキルで生き残る技術 - AI時代におけるテーブル設計の勘所
soudai
PRO
62
50k
Building a Modern Day E-commerce SEO Strategy
aleyda
45
8.7k
The Invisible Side of Design
smashingmag
302
51k
Transcript
データサイズ2ペタ ソネット・メディア・ネットワークス でのImpala活用とHadoop運用 Hadoop / Spark Conference Japan 2019 So-net
Media Networks 菅沼 嘉一
菅沼 嘉一 Yoshikazu Suganuma So-net Media Networks 分析基盤T Cloudera Hadoopの障害対応したり、python/Goでツール作成したり
Go言語好き!
目次 • Hadoopの用途 • Hadoopの環境 • ビッグデータ管理大変だよね!
Hadoopの用途
Logicadとは... So-net Media Networksが提供する 広告配信プラットフォーム
• 広告配信ログを保管 • データサイズ:約2PB • 総レコード数:約1.1兆 • 1日あたり約8TB増加 • 主にデータ分析用途
Hadoopの環境
サーバースペック(データノード) スペック: Dell PowerEdge R720xd/R730xd/R740xd/R740xd2(予定) メモリ:約370GB/サーバー HDD:約90~160TB/サーバー (10TB x 18,
10TB x 12, 8TB x 12) PowerEdge R740xd
Hadoop構成 CDH 5.15 データノード:20 台 = 約2PB その他ノード:8台 (合計28台/1クラスター) (Zookeeper,
Journal NodeにはIntel Optane SSDストレージ搭載) メタデータはAWS RDSに保管 Active-Standby の2クラスター構成
Data Node Data Node Data Node Data Node Data Node
Data Node ……………… ……. ……………… ……. x 20 Name Node Zookeeper JournalNode Hive Metastore Impala Catalog ……………… ……. x 8 Hadoop クラスター
Active Hadoop クラスター Standby Hadoop クラスター S3 ログの インポート処理 ログ収集
サーバー PQ生成
主なImpalaの使い方 Hiveから1時間毎にParquet生成 Impala + Parquet はレスポンス最速 クエリ数:約13万クエリ/月 PQサイズ:約750TB
ビッグデータ管理 大変だよね.....!?
すぐに容量枯渇する...!? 8TB/day 増加するので容量を注視 保存期間をまめに調整 データ容量が90%近くになると Hive, Impalaのレスポンスが悪くなる傾向 早めにデータノードを追加
DBのパーティション数は約18万 データをパーティショニングすることで性能は上がるが パーティション数がボトルネックになることがある 過去にImpalaが動かなくなったこともある (CDH5.7で約20万あった時) 推奨値は3~4万だとか....無理ゲーじゃない?
月に一回Hadoopの容量チェック 月に一回、詳細にデータサイズ、パーティション数....などの 全体チェックを行いレポートにまとめる
Elasticsearch+kibanaで監視 データ容量の推移をグラフ化 HDFSの各種データサイズをhdfsコマンドで取得し Elasticsearchに貯める Impalaクエリの傾向調査 Cloudera Manager APIからImpalaクエリを取得して Elasticsearchに貯める
バージョンアップは覚悟しておけ....!? (マジで) CDHのバージョンアップはどこかでミスがあると インストールできなくなる(「戻る」は押さない) そのためActive-Standbyの2クラスターを構築 (片方づつバージョンアップ)
Active-Standbyの2クラスター構成 同じHW構成を2つ構築して片方づつ運用 メリット: バージョンアップ作業、機能検証がはかどる デメリット: コストがかかる 移行コストが高い
Active-Standbyの2クラスター構成 バージョンアップ後のデータ移行について クラスター間コピー:hadoop distcpコマンド 同時データインポート distcp 同時インポート
CDHバージョン遍歴 今年はCDH6.1にバージョンアップ予定 年代 クラスターA クラスターB 2015~ CDH5.1 (hadoop-2.3.0) 2016~ CDH5.7
(hadoop-2.6.0) 2018~ CDH5.15(現在) (hadoop-2.6.0) 2019~ CDH6.1(構築中) (hadoop-3.0.0)
Thanks !