Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
10分で詰め込むHadoop
Search
kanga333
April 02, 2018
Technology
160
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
10分で詰め込むHadoop
MicroAd 社内LT会資料
kanga333
April 02, 2018
More Decks by kanga333
See All by kanga333
Athenaを使ったバッチ処理のTIPS
kanga333
0
910
個々のアプリのリポジトリでTerraformを管理している話
kanga333
4
3.8k
docker_and_make
kanga333
1
420
CoreOS Container Linuxで始めるベアメタルKubernetes
kanga333
3
9k
ORCについて調べた
kanga333
0
260
burrow_monitoring
kanga333
0
870
j2hの紹介
kanga333
0
6.3k
Other Decks in Technology
See All in Technology
AIガバナンス実践 - 生成AIコネクタのデータ漏洩リスクと実務対策
knishioka
0
190
イベントストーミングとKiroの仕様駆動開発で実現する要件の認識合わせプロセス
syobochim
7
1.2k
トークン数だけでは測れない — Claude Code 組織展開の効果検証から学んだこと
makikub
0
130
「嘘をつくテスト」の失敗例から学ぶ 良いテストコード #frontend_phpcon_do
asumikam
0
470
Terraformモジュールは、なぜ「魔境」化するのか
hayama17
1
190
SIer20年! 培ったスキルがスタートアップで輝く時
shucho0103
0
370
新規ゲーム開発におけるAI駆動開発のリアル
202409e2
0
2.5k
そのPoC、何を検証したつもりでしたか? AIプロダクトの価値検証で陥った落とし穴
techtekt
PRO
0
150
実装は速くなった、レビューはどうする? ― 自身のレビューをAIで再現させるサーヴァントエンジニアリングのすゝめ / Implementation got faster. So what about reviews? — An invitation to Servant Engineering: Recreating your own code reviews with AI
nrslib
7
3.8k
Claude Codeを組織で使いこなす— サーバサイドAIエージェント運用の実践知
techtekt
PRO
0
200
AI フレンドリーなエラー監視を TypeScript で実現する
shinyaigeek
2
260
新アーキテクチャ「TiDB X」解説とDedicated比較 TiDB Cloud Premiumのゲーム運用活用を検証
staffrecruiter
0
110
Featured
See All Featured
Navigating Team Friction
lara
192
16k
Game over? The fight for quality and originality in the time of robots
wayneb77
1
190
Winning Ecommerce Organic Search in an AI Era - #searchnstuff2025
aleyda
1
2k
The Limits of Empathy - UXLibs8
cassininazir
1
350
Darren the Foodie - Storyboard
khoart
PRO
3
3.4k
Lightning talk: Run Django tests with GitHub Actions
sabderemane
0
190
SEO for Brand Visibility & Recognition
aleyda
0
4.6k
The browser strikes back
jonoalderson
0
1.1k
Into the Great Unknown - MozCon
thekraken
41
2.5k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
231
23k
Bootstrapping a Software Product
garrettdimon
PRO
307
120k
The Organizational Zoo: Understanding Human Behavior Agility Through Metaphoric Constructive Conversations (based on the works of Arthur Shelley, Ph.D)
kimpetersen
PRO
0
350
Transcript
10分で詰め込むHadoop kagawa_shoichi
あらまし Hadoopとはなんぞやという話を10分で詰め込む ざっくり概要と用途について 厳密には違ったりするかもしれんけど、雰囲気伝わるの重視
(広義の)Hadoopとは HDFS, MapReduce等を中心としたビッグデータ処理の ミドルウェア、ライブラリなんかの総称
(狭義の)Hadoopとは 巨大なデータに対するバッチ処理ミドルウェアである HDFS, YARN, MapReduceの事を示す それぞれについては後述
Hadoopのディストリビューション LinuxにおけるRedhat,Ubuntuと同様にHadoopにも ディストリビューションがある 普通はOSSのHadoopを直で使ったりせず なんらかディストリビューションのものを使う 主要なディストリビューションベンダー Cloudera (CDH) Hortonworks (HDP)
MAPR (MARP) Pivotal (Pivotal HD)
主要Hadoopコンポーネント HDFS YARN MapReduce Spark Hive ZooKeeper
HDFS Hadoop Distributed File System 分散ファイルシステム ファイルをブロックという単位で分割して複数サーバに保持 させる
YARN 分散環境のサーバ郡のリソーススケジューラー ジョブが投入された際に、そのジョブをどのサーバ達でどの くらいのCPU/メモリを割り当てて、実行するかを決定する
MapReduce map処理とreduce処理により大規模データを処理する フレームワーク map([ , , ], cook) => [
, , ] reduce([ , , ], eat) =>
Spark ひとまずは、洗練されたMapReduceくらいに思っておけばOK 中間データをオンメモリで持つから高速 MapとReduceのTaskを行うプロセスを区別せず使い回す 色んな便利ライブラリが付いている 機械学習: Spark ML リアルタイム処理: Spark
Streaming SQL: Spark SQL リアルタイム処理 with SQL: Spark Structured Streaming
Hive SQL処理エンジン SQLをMRやSparkなどのジョブに変換してデータを操作 ちなみにHive on SparkとSpark SQLは別物
Zookeeper 対障害性を高めた分散KVS Hadopコンポーネントのメタデータを管理する 分散環境において、どれがマスタなのか?などを管理
その他Hadoopコンポーネント解説 HBase Kudu Kafka Storm/SparkStreaming Impara/Presto
HBase オンメモリ分散列指向DB HDFSではできないデータの更新などができる ただし、メモリに乗り切るくらいのデータしか扱えない とはいえクラスタを組むのでスケールは可能
Kude 分散列指向ストレージ HDFSとHBaseのギャップを埋めるストレージ TB規模のデータをディスクとして持ちながら更新可能 とはいえ HBaseの方が早い HDFSの方が大規模データに対するスループットはある 用途 リアルタイムに更新などが発生する大規模データに対し て分析などのスキャン的な操作もしたい
Kafka 分散キューイングシステム スケール可能なFIFOでPubSubなキュー
Storm / Spark Streaming 分散リアルタイムバッチ処理フレームワーク リアルデータに対して細かくバッチ処理を行う リアルタイム処理フレームワークは乱立していてカオス リアルタイム処理フレームワーク Apache Flink,
Apache Apex, Heron, Kafka streams 各種リアルタイム処理をDSLで書ける Apache Beam リアルタイム処理をGUIで定義 Apache Nifi, Stream Sets リアルタイム処理 with SQL KSQL, Spark Structured Streaming
Impara / Presto 高速な分散SQL処理エンジン SQLをMRやSparkに変換するHiveと比較してSQLを処理する ことに特化して作られており高速 基本的には耐障害性を犠牲にしてスループットを高める設計 データを全部メモリに乗せて処理する バッチよりアドホッククエリ向き 多分Imparaの方が早いし、CDHと親和性高いけど
Prestoの方が汎用性高い
SQL処理エンジン使い分けの一例 ディスクIO多い単純なSQLジョブ > Hive on MR JOINなどの操作を含める複雑なSQLジョブ > Hive on
Spark アドホッククエリ実行環境 > Presto or Impala 機械学習 > Spark SQL と Spark ML
おわりに 各種ミドルウェアの分類MAP(目安) 厳密にはこんなに綺麗に分かれている訳では無い
None