Apache Drill でたしなむセルフサービスデータ探索

Slide 1

Slide 1 text

Slide 2

Slide 2 text

Slide 3

Slide 3 text

Slide 4

Slide 4 text

Slide 5

Slide 5 text

Slide 6

Slide 6 text

Slide 7

Slide 7 text

Slide 8

Slide 8 text

® © 2014 MapR Technologies 8 データまでの距離離ユーザー部⾨門 (アナリスト, 開発者) Data Agility (迅速なデータ活⽤用) データユーザー部⾨門 (アナリスト, 開発者) 開発環境の準備, ⼿手配, サポート MapReduce Hive およびその他の SQL-on-Hadoop 既存のアプローチでは中間組織が必要だった (IT部⾨門) データデータユーザー部⾨門 (アナリスト, 開発者) モデリングおよび変換

Slide 9

Slide 9 text

Slide 10

Slide 10 text

® © 2014 MapR Technologies 10 Apache Drill プロジェクト •  ⼤大規模データセットのインタラクティブ分析のためのフレームワーク •  Google Dremel (BigQuery) のオープンソース実装 •  プロジェクトサイト: http://incubator.apache.org/drill/ •  GitHub: https://github.com/apache/incubator-drill

Slide 11

Slide 11 text

® © 2014 MapR Technologies 11 Apache Drill の特徴 •  Agility –  ⾃自⼰己記述型データ（JSON等）に対して直接クエリを実⾏行行 –  メタデータ管理理を必要最低限に、クエリの前の ETL を極⼒力力不不要に •  Flexibility –  ストレージプラグインにより様々なデータストアに対応 •  CSV, TSV, JSON, Parquet, Hive, HBase, MongoDB, REST, … •  ディレクトリツリー全体や、Hive の複数のメタストアも –  HBaseセルに格納されたJSONデータなど、複雑なデータにも対応 •  Familiarity –  標準SQLのサポート –  Hiveのスキーマ、ファイル形式、UDFをそのまま利利⽤用可能

Slide 12

Slide 12 text

® © 2014 MapR Technologies 12 Drill のインストール: クエリ結果を得るまで2分 $ tar xzf apache-drill-0.6.0.tar.gz! ! $ ./apache-drill-0.6.0/bin/sqlline -u jdbc:drill:zk=local! ! 0: jdbc:drill:zk=local>! SELECT columns[1] AS LOCATION, columns[2] AS _MONTH, max(columns[6]) AS MAX_TEMP! FROM dfs.`/root/drillwork/tokyo_2013.csv`! GROUP BY columns[1], columns[2];! +------------+------------+------------+! | LOCATION | _MONTH | MAX_TEMP |! +------------+------------+------------+! | 練⾺馬 | 01 | 9.9 |! | 練⾺馬 | 02 | 9.8 |! | 練⾺馬 | 03 | 9.5 |! | 練⾺馬 | 04 | 25.5 |! | 練⾺馬 | 05 | 29.4 |! | 練⾺馬 | 06 | 31.9 |! | 練⾺馬 | 07 | 36.1 |! | 練⾺馬 | 08 | 38.6 |! | 練⾺馬 | 09 | 36.5 |! | 練⾺馬 | 10 | 30.7 |! | 練⾺馬 | 11 | 21.8 |! | 練⾺馬 | 12 | 9.7 |! +------------+------------+------------+! 12 rows selected (0.543 seconds)! インストールシェル起動(組み込みモード) クエリ結果

Slide 13

Slide 13 text

Slide 14

Slide 14 text

Slide 15

Slide 15 text

® © 2014 MapR Technologies 15 Apache Drill: ビッグデータ向けのセルフサービス SQL •  ⾃自⼰己記述型データに対する直接のクエリ実⾏行行 •  スキーマや ETL 処理理が不不要 •  HBase および様々な NoSQL ストアに対するクエリ実⾏行行 •  SQL を使い (JSON のような) 複雑なデータ型を直接処理理 •  ANSI SQL のスキルや BI ツールを活⽤用可能 •  Hive のスキーマ、ファイル形式、UDF がそのまま利利⽤用できる AGILITY INSTANT INSIGHTS TO BIG DATA FLEXIBILITY ONE INTERFACE FOR HADOOP & NOSQL FAMILIARITY EXISTING SKILLS & TECHNOLOGIES

Slide 16

Slide 16 text

® © 2014 MapR Technologies 16 U Ver. 0.6 • 低レイテンシSQL • ダイナミックスキーマ • ファイルおよびHBase サポート • Hiveインテグレーション • ANSI SQL • JDBC/ODBC/REST Ver. 1.0〜～ • YARN リソース管理理 • 認証機能 • 階層データ関数 • オプティマイザの強化 • Window関数 • Non-‐‑‒Equi 結合 • 同時実⾏行行性能の強化 • Insert/Update/Delete サポート • ワークロード管理理 • Java以外のドライバ・APIサポート今後のプラン

Slide 17

Slide 17 text