10分で詰め込むHadoop

10分で詰め込むHadoop kagawa_shoichi

あらまし Hadoopとはなんぞやという話を10分で詰め込むざっくり概要と用途について厳密には違ったりするかもしれんけど、雰囲気伝わるの重視

(広義の)Hadoopとは HDFS, MapReduce等を中心としたビッグデータ処理のミドルウェア、ライブラリなんかの総称

(狭義の)Hadoopとは巨大なデータに対するバッチ処理ミドルウェアである HDFS, YARN, MapReduceの事を示すそれぞれについては後述

Hadoopのディストリビューション LinuxにおけるRedhat,Ubuntuと同様にHadoopにもディストリビューションがある普通はOSSのHadoopを直で使ったりせずなんらかディストリビューションのものを使う主要なディストリビューションベンダー Cloudera (CDH) Hortonworks (HDP)
MAPR (MARP) Pivotal (Pivotal HD)

主要Hadoopコンポーネント HDFS YARN MapReduce Spark Hive ZooKeeper

HDFS Hadoop Distributed File System 分散ファイルシステムファイルをブロックという単位で分割して複数サーバに保持させる

YARN 分散環境のサーバ郡のリソーススケジューラージョブが投入された際に、そのジョブをどのサーバ達でどのくらいのCPU/メモリを割り当てて、実行するかを決定する

MapReduce map処理とreduce処理により大規模データを処理するフレームワーク map([ , , ], cook) => [
, , ] reduce([ , , ], eat) =>

Spark ひとまずは、洗練されたMapReduceくらいに思っておけばOK 中間データをオンメモリで持つから高速 MapとReduceのTaskを行うプロセスを区別せず使い回す色んな便利ライブラリが付いている機械学習: Spark ML リアルタイム処理: Spark
Streaming SQL: Spark SQL リアルタイム処理 with SQL: Spark Structured Streaming

Hive SQL処理エンジン SQLをMRやSparkなどのジョブに変換してデータを操作ちなみにHive on SparkとSpark SQLは別物

Zookeeper 対障害性を高めた分散KVS Hadopコンポーネントのメタデータを管理する分散環境において、どれがマスタなのか？などを管理

その他Hadoopコンポーネント解説 HBase Kudu Kafka Storm/SparkStreaming Impara/Presto

HBase オンメモリ分散列指向DB HDFSではできないデータの更新などができるただし、メモリに乗り切るくらいのデータしか扱えないとはいえクラスタを組むのでスケールは可能

Kude 分散列指向ストレージ HDFSとHBaseのギャップを埋めるストレージ TB規模のデータをディスクとして持ちながら更新可能とはいえ HBaseの方が早い HDFSの方が大規模データに対するスループットはある用途リアルタイムに更新などが発生する大規模データに対して分析などのスキャン的な操作もしたい

Kafka 分散キューイングシステムスケール可能なFIFOでPubSubなキュー

Storm / Spark Streaming 分散リアルタイムバッチ処理フレームワークリアルデータに対して細かくバッチ処理を行うリアルタイム処理フレームワークは乱立していてカオスリアルタイム処理フレームワーク Apache Flink,
Apache Apex, Heron, Kafka streams 各種リアルタイム処理をDSLで書ける Apache Beam リアルタイム処理をGUIで定義 Apache Nifi, Stream Sets リアルタイム処理 with SQL KSQL, Spark Structured Streaming

Impara / Presto 高速な分散SQL処理エンジン SQLをMRやSparkに変換するHiveと比較してSQLを処理することに特化して作られており高速基本的には耐障害性を犠牲にしてスループットを高める設計データを全部メモリに乗せて処理するバッチよりアドホッククエリ向き多分Imparaの方が早いし、CDHと親和性高いけど
Prestoの方が汎用性高い

SQL処理エンジン使い分けの一例ディスクIO多い単純なSQLジョブ > Hive on MR JOINなどの操作を含める複雑なSQLジョブ > Hive on
Spark アドホッククエリ実行環境 > Presto or Impala 機械学習 > Spark SQL と Spark ML

おわりに各種ミドルウェアの分類MAP(目安) 厳密にはこんなに綺麗に分かれている訳では無い

10分で詰め込むHadoop

10分で詰め込むHadoop

kanga333

More Decks by kanga333

Other Decks in Technology

Featured

Transcript