Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
データサイズ2ペタ ソネットメディアネットワークスでのImpala活用とHadoop運用
Search
suganoo
March 14, 2019
Technology
0
920
データサイズ2ペタ ソネットメディアネットワークスでのImpala活用とHadoop運用
データサイズ2ペタ ソネットメディアネットワークスでのImpala活用とHadoop運用
suganoo
March 14, 2019
Tweet
Share
Other Decks in Technology
See All in Technology
How Community Opened Global Doors
hiroramos4
PRO
1
130
Claude Code Actionを使ったコード品質改善の取り組み
potix2
PRO
6
2.6k
変化する開発、進化する体系時代に適応するソフトウェアエンジニアの知識と考え方(JaSST'25 Kansai)
mizunori
1
260
タイミーのデータモデリング事例と今後のチャレンジ
ttccddtoki
3
770
本が全く読めなかった過去の自分へ
genshun9
0
680
整頓のジレンマとの戦い〜Tidy First?で振り返る事業とキャリアの歩み〜/Fighting the tidiness dilemma〜Business and Career Milestones Reflected on in Tidy First?〜
bitkey
0
190
2025-06-26_Lightning_Talk_for_Lightning_Talks
_hashimo2
2
110
登壇ネタの見つけ方 / How to find talk topics
pinkumohikan
5
580
「良さそう」と「とても良い」の間には 「良さそうだがホンマか」がたくさんある / 2025.07.01 LLM品質Night
smiyawaki0820
1
430
KubeCon + CloudNativeCon Japan 2025 Recap Opening & Choose Your Own Adventureシリーズまとめ
mmmatsuda
0
230
マーケットプレイス版Oracle WebCenter Content For OCI
oracle4engineer
PRO
3
930
2025-06-26 GitHub CopilotとAI駆動開発:実践と導入のリアル
fl_kawachi
1
220
Featured
See All Featured
Making Projects Easy
brettharned
116
6.3k
The MySQL Ecosystem @ GitHub 2015
samlambert
251
13k
The Art of Programming - Codeland 2020
erikaheidi
54
13k
The Language of Interfaces
destraynor
158
25k
Statistics for Hackers
jakevdp
799
220k
Typedesign – Prime Four
hannesfritz
42
2.7k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
29
2.7k
[RailsConf 2023] Rails as a piece of cake
palkan
55
5.6k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
194
16k
Connecting the Dots Between Site Speed, User Experience & Your Business [WebExpo 2025]
tammyeverts
5
230
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
32
2.4k
GraphQLとの向き合い方2022年版
quramy
49
14k
Transcript
データサイズ2ペタ ソネット・メディア・ネットワークス でのImpala活用とHadoop運用 Hadoop / Spark Conference Japan 2019 So-net
Media Networks 菅沼 嘉一
菅沼 嘉一 Yoshikazu Suganuma So-net Media Networks 分析基盤T Cloudera Hadoopの障害対応したり、python/Goでツール作成したり
Go言語好き!
目次 • Hadoopの用途 • Hadoopの環境 • ビッグデータ管理大変だよね!
Hadoopの用途
Logicadとは... So-net Media Networksが提供する 広告配信プラットフォーム
• 広告配信ログを保管 • データサイズ:約2PB • 総レコード数:約1.1兆 • 1日あたり約8TB増加 • 主にデータ分析用途
Hadoopの環境
サーバースペック(データノード) スペック: Dell PowerEdge R720xd/R730xd/R740xd/R740xd2(予定) メモリ:約370GB/サーバー HDD:約90~160TB/サーバー (10TB x 18,
10TB x 12, 8TB x 12) PowerEdge R740xd
Hadoop構成 CDH 5.15 データノード:20 台 = 約2PB その他ノード:8台 (合計28台/1クラスター) (Zookeeper,
Journal NodeにはIntel Optane SSDストレージ搭載) メタデータはAWS RDSに保管 Active-Standby の2クラスター構成
Data Node Data Node Data Node Data Node Data Node
Data Node ……………… ……. ……………… ……. x 20 Name Node Zookeeper JournalNode Hive Metastore Impala Catalog ……………… ……. x 8 Hadoop クラスター
Active Hadoop クラスター Standby Hadoop クラスター S3 ログの インポート処理 ログ収集
サーバー PQ生成
主なImpalaの使い方 Hiveから1時間毎にParquet生成 Impala + Parquet はレスポンス最速 クエリ数:約13万クエリ/月 PQサイズ:約750TB
ビッグデータ管理 大変だよね.....!?
すぐに容量枯渇する...!? 8TB/day 増加するので容量を注視 保存期間をまめに調整 データ容量が90%近くになると Hive, Impalaのレスポンスが悪くなる傾向 早めにデータノードを追加
DBのパーティション数は約18万 データをパーティショニングすることで性能は上がるが パーティション数がボトルネックになることがある 過去にImpalaが動かなくなったこともある (CDH5.7で約20万あった時) 推奨値は3~4万だとか....無理ゲーじゃない?
月に一回Hadoopの容量チェック 月に一回、詳細にデータサイズ、パーティション数....などの 全体チェックを行いレポートにまとめる
Elasticsearch+kibanaで監視 データ容量の推移をグラフ化 HDFSの各種データサイズをhdfsコマンドで取得し Elasticsearchに貯める Impalaクエリの傾向調査 Cloudera Manager APIからImpalaクエリを取得して Elasticsearchに貯める
バージョンアップは覚悟しておけ....!? (マジで) CDHのバージョンアップはどこかでミスがあると インストールできなくなる(「戻る」は押さない) そのためActive-Standbyの2クラスターを構築 (片方づつバージョンアップ)
Active-Standbyの2クラスター構成 同じHW構成を2つ構築して片方づつ運用 メリット: バージョンアップ作業、機能検証がはかどる デメリット: コストがかかる 移行コストが高い
Active-Standbyの2クラスター構成 バージョンアップ後のデータ移行について クラスター間コピー:hadoop distcpコマンド 同時データインポート distcp 同時インポート
CDHバージョン遍歴 今年はCDH6.1にバージョンアップ予定 年代 クラスターA クラスターB 2015~ CDH5.1 (hadoop-2.3.0) 2016~ CDH5.7
(hadoop-2.6.0) 2018~ CDH5.15(現在) (hadoop-2.6.0) 2019~ CDH6.1(構築中) (hadoop-3.0.0)
Thanks !