Upgrade to Pro — share decks privately, control downloads, hide ads and more …

大規模データ分析を支えるインフラ系オープンソースソフトウェアの最新事情

 大規模データ分析を支えるインフラ系オープンソースソフトウェアの最新事情

みんなのPython勉強会#13での発表資料です。

草薙昭彦

June 08, 2016
Tweet

More Decks by 草薙昭彦

Other Decks in Technology

Transcript

  1. 一般人 収集 抽出 変換 加工 格納 集計 加工 生成 モデル

    作成 可視化 レポート 手入力 Excel Excel Excel Excel
  2. 一般人 収集 抽出 変換 加工 格納 集計 加工 生成 モデル

    作成 可視化 レポート 手入力 Excel Excel Excel Excel 実は専門家も
  3. 企業では 収集 抽出 変換 加工 格納 集計 加工 生成 モデル

    作成 可視化 レポート 各部門 のRDB のCSV 出力 マスタと の結合 名寄せ 分析用 RDB SQL R SAS SPSS Excel Oracle DB2 MySQL PostgreSQL …
  4. 大企業では 収集 抽出 変換 加工 格納 集計 加工 モデル 作成

    可視化 レポート ETL ツール RDB コネクタ ETL ツール データ ウェア ハウス SQL R SAS SPSS セルフ サービ スBI Teradata IBM Netezza HP VerLca AcLan Matrix InformaLca Data Stage Syncsort Talend QlikView Pentaho
  5. 大規模なデータを扱う時に重要なこと •  Data Gravity(データの重力) Web App Data 分析 App Data

    会計 App Data マーケ App Data 販売 App Data 販売 App Data 会計 App マーケ App
  6. Hadoop ベース分析基盤(初期) 収集 抽出 変換 加工 格納 集計 加工 モデル作成

    可視化 レポート ログ コレクタ RDB コネクタ Map Reduce Hive Pig HDFS Map Reduce Hive Pig Mahout セルフ サービ スBI
  7. Hadoopって? Hadoop Distributed File System (HDFS) MapReduce Hive SQLクエリ エンジン

    HBase NoSQL データベース Pig データ加工 フレームワーク Mahout 機械学習 Zoo Keeper 分散レポジトリ ・・・ MapReduce/HDFS を使いやすくする ための無数のプロ ジェクト
  8. Hadoop ベース分析基盤(現在) 収集 抽出 変換 加工 格納 集計 加工 モデル作成

    可視化 レポート ログ コレクタ RDB コネクタ Spark Hive Pig HDFS Spark SQL Dashbo ard NoteBo ok Apache Spark Apache Kylin Apache Drill Apache Impala Presto MLLib Oryx Apache Spark Apache Hive Apache Pig Apache Flume Fluentd Jupyter Apache Zeppelin Spark Notebook H2O
  9. Sparkって? •  (主に)MapReduce の置き換え – バッチだけでなくインタラクティブな処理も – メモリを最大限利用し、より効率よく Spark Spark SQL SQLクエリ

    エンジン Spark Streaming ストリーム処理 MLlib 機械学習 GraphX グラフ処理 Spark R R on Spark HDFS またはその他のファイルシステム
  10. リアルタイム処理基盤 収集 抽出 変換 加工 格納 集計 加工 モデル作成 可視化

    ログ コレクタ RDB コネクタ Spark Streami ng Kaka メッセー ジ キュー Spark Streami ng Dashbo ard Spark Streaming Apache Storm Apache Flink Apache APEX Apache Nifi StreamSets Apache Flume Fluentd ElasLcsearch /Kibana Grafana
  11. ラムダアーキテクチャ •  バッチ処理(Data at Rest)とリアルタイムストリー ム処理(Streaming Data)は組み合わせることで 価値が出る –  近似的な速報値をリアルタイム処理で得る

    –  正確な集計や深い分析は履歴データを利用しバッチ 処理で得る •  データを入口で複製し、用途に応じた最適な フォーマットで格納する –  例: 時間レンジの検索ならHBase、履歴集計なら Parquet
  12. ラムダアーキテクチャ 収集 抽出 変換 加工 格納 集計 加工 モデル作成 可視化

    格納 抽出 変換 加工 集計 加工 モデル作成 バッチレイヤー スピードレイヤー Kaka HDFS