大規模データ分析を支えるインフラ系オープンソースソフトウェアの最新事情

Slide 1

Slide 1 text

大規模データ分析を支えるインフラ系オープンソースソフトウェアの最新事情草薙昭彦 (@nagix) MapR Technologies

Slide 2

Slide 2 text

自己紹介 •  草薙昭彦 (@nagix) •  MapR Technologies データエンジニア NS-SHAFT 無料!

Slide 3

Slide 3 text

一般的な分析のデータフロー収集抽出変換加工格納集計加工生成モデル作成可視化レポート

Slide 4

Slide 4 text

一般人収集抽出変換加工格納集計加工生成モデル作成可視化レポート手入力 Excel Excel Excel Excel

Slide 5

Slide 5 text

一般人収集抽出変換加工格納集計加工生成モデル作成可視化レポート手入力 Excel Excel Excel Excel 実は専門家も

Slide 6

Slide 6 text

企業では収集抽出変換加工格納集計加工生成モデル作成可視化レポート各部門のRDB のCSV 出力マスタとの結合名寄せ分析用 RDB SQL R SAS SPSS Excel Oracle DB2 MySQL PostgreSQL …

Slide 7

Slide 7 text

組織の規模が大きくなると •  データボリューム – 大容量ストレージ・効率の良い格納フォーマット •  処理性能 – データ増や複数ユーザの同時アクセスに対応 •  信頼性・可用性 – ハードウェアのHA化・データの複製 •  セキュリティ – 認証・アクセス制御・暗号化・監査

Slide 8

Slide 8 text

大企業では収集抽出変換加工格納集計加工モデル作成可視化レポート ETL ツール RDB コネクタ ETL ツールデータウェアハウス SQL R SAS SPSS セルフサービスBI Teradata IBM Netezza HP VerLca AcLan Matrix InformaLca Data Stage Syncsort Talend QlikView Pentaho

Slide 9

Slide 9 text

ビッグデータって何でしたっけ •  データボリューム – 従来のアーキテクチャでは処理格納できない量 •  データの種類 – 非構造化（=スキーマが確定していない）データ •  データの流入頻度 – 月次・日時バッチ投入から都度の投入へ

Slide 10

Slide 10 text

大規模なデータを扱う時に重要なこと •  スケールアウト（水平スケーラビリティ） •  CPUとストレージの距離（データローカリティ）サーバ・・・スケールアウト可能なアルゴリズム・データ格納方式共有ストレージ (NAS/SAN) サーバレイテンシの問題スループットの問題サーバサーバサーバ内蔵 HDD /SSD 内蔵 HDD /SSD 内蔵 HDD /SSD CPU CPU CPU

Slide 11

Slide 11 text

大規模なデータを扱う時に重要なこと •  Data Gravity（データの重力） Web App Data 分析 App Data 会計 App Data マーケ App Data 販売 App Data 販売 App Data 会計 App マーケ App

Slide 12

Slide 12 text

分析のROI •  最も重要なのはデータを増やしたとしてもそれに見合うリターンが得られるかどうか – データが増えれば得られる価値は上がりそう・・ – 問題はコストをいかに抑えることができるか •  コモディティハードウェアは必須！ •  スケールアウト分散処理ソフトウェアは必須！ •  オープンソースソフトウェアは有力な選択肢

Slide 13

Slide 13 text

参考 •  Google対Yahoo—インターネット戦争でどうしてここまで差がついたのかを振り返る hZp://jp.techcrunch.com/2016/05/23/20160522why-google-beat-yahoo-in-the-war-for-the-internet/ –  “NetAppハードウェアのコストはYahooの規模の拡大と同じ速さで増大し、Yahooの利益の大きな部分に食い込むこととなった” –  “これに対して Googleは、規模を拡大し新サービスを追加するときに起きるはずの問題を、それが起きる前に予期し、効率的に対処できるようGoogle File Systemの開発に全力を挙げた”

Slide 14

Slide 14 text

Hadoop ベース分析基盤（初期）収集抽出変換加工格納集計加工モデル作成可視化レポートログコレクタ RDB コネクタ Map Reduce Hive Pig HDFS Map Reduce Hive Pig Mahout セルフサービスBI

Slide 15

Slide 15 text

Hadoopって? サーバサーバサーバサーバサーバサーバ

Slide 16

Slide 16 text

Hadoopって? サーバ Hadoop Distributed File System (HDFS) データをブロックに分割して分散配置、 3つのレプリカ作成

Slide 17

Slide 17 text

Hadoopって? サーバ Hadoop Distributed File System (HDFS) 分割されたデータをMap、Reduceという単位で並列分散処理 MapReduce

Slide 18

Slide 18 text

Hadoopって? Hadoop Distributed File System (HDFS) MapReduce Hadoop コア

Slide 19

Slide 19 text

Hadoopって? Hadoop Distributed File System (HDFS) MapReduce Hive SQLクエリエンジン HBase NoSQL データベース Pig データ加工フレームワーク Mahout 機械学習 Zoo Keeper 分散レポジトリ・・・ MapReduce/HDFS を使いやすくするための無数のプロジェクト

Slide 20

Slide 20 text

Hadoop ベース分析基盤（現在）収集抽出変換加工格納集計加工モデル作成可視化レポートログコレクタ RDB コネクタ Spark Hive Pig HDFS Spark SQL Dashbo ard NoteBo ok Apache Spark Apache Kylin Apache Drill Apache Impala Presto MLLib Oryx Apache Spark Apache Hive Apache Pig Apache Flume Fluentd Jupyter Apache Zeppelin Spark Notebook H2O

Slide 21

Slide 21 text

Sparkって? •  （主に）MapReduce の置き換え – バッチだけでなくインタラクティブな処理も – メモリを最大限利用し、より効率よく Spark Spark SQL SQLクエリエンジン Spark Streaming ストリーム処理 MLlib 機械学習 GraphX グラフ処理 Spark R R on Spark HDFS またはその他のファイルシステム

Slide 22

Slide 22 text

トレンド：リアルタイム処理 •  ビジネス側からの要件 – より早い変化の検知、決断、情報の提供 – 業務処理と分析処理は統合へ •  データフロー、格納、処理それぞれに新しいアーキテクチャが必要 •  処理の2つのアプローチ – バッチを極限まで細かくしていく（マイクロバッチ） – メッセージを1つ1つ処理していく

Slide 23

Slide 23 text

リアルタイム処理基盤収集抽出変換加工格納集計加工モデル作成可視化ログコレクタ RDB コネクタ Spark Streami ng Kaka メッセージキュー Spark Streami ng Dashbo ard Spark Streaming Apache Storm Apache Flink Apache APEX Apache Niﬁ StreamSets Apache Flume Fluentd ElasLcsearch /Kibana Grafana

Slide 24

Slide 24 text

ラムダアーキテクチャ •  バッチ処理（Data at Rest）とリアルタイムストリーム処理（Streaming Data）は組み合わせることで価値が出る –  近似的な速報値をリアルタイム処理で得る –  正確な集計や深い分析は履歴データを利用しバッチ処理で得る •  データを入口で複製し、用途に応じた最適なフォーマットで格納する –  例: 時間レンジの検索ならHBase、履歴集計なら Parquet

Slide 25

Slide 25 text

ラムダアーキテクチャ hZps://www.mapr.com/developercentral/lambda-architecture

Slide 26

Slide 26 text

ラムダアーキテクチャ収集抽出変換加工格納集計加工モデル作成可視化格納抽出変換加工集計加工モデル作成バッチレイヤースピードレイヤー Kaka HDFS

Slide 27

Slide 27 text

分析のタイプ •  バッチ分析 – 蓄積された大量データから知見を得る •  リアルタイム分析 – 流れてくるデータを対象にとりあえずの解を得る •  インタラクティブ分析 – よくわからないものから鍵を見つけ方針を決める

Slide 28

Slide 28 text

Apache Arrow •  カラム型インメモリ分析のデファクト標準を目指す Apache プロジェクト •  多くのビッグデータ系Apacheプロジェクトで共通のデータ構造を使うといいよね？ •  データ構造、アルゴリズム、クロス言語バインディングを定義 •  最新のCPUの機能を活用した高速な分析

Slide 29

Slide 29 text

これは非効率性だわ・・・ •  各システムは独自の内部メモリ形式を持つ •  70〜80%のCPUはシリアライズ・デシリアライズに使われる •  似たような機能が複数のプロジェクトで実装される Thrin, Avro, Protobuf,…

Slide 30

Slide 30 text

•  すべてのシステムは共通のメモリ形式を持つ •  システム間のやりとりにオーバーヘッドがない •  プロジェクト間で機能を共有できる (例: Parquet-to-Arrow リーダー) ならばこうだ

Slide 31

Slide 31 text

カラム型フォーマット Row-oriented フォーマット (CSV, 従来のRDB, …) Column-oriented フォーマット (Parquet, ORC, …)

Slide 32

Slide 32 text

Feather File Format •  Apache ArrowをベースにしたRとPythonの Data Frameに適したディスク上のファイルフォーマット •  なんで今までこんな便利なものがなかったんだ！

Slide 33

Slide 33 text

PyhtonはUI言語から処理言語へ? hZp://www.slideshare.net/wesm/nextgeneraLon-python-big-data-tools-powered-by-apache-arrow

Slide 34

Slide 34 text

ありがとうございました