Slide 1

Slide 1 text

® © 2014 MapR Technologies 1 ® © 2014 MapR Technologies Apache Drill でたしなむ セルフサービスデータ探索索 草薙 昭彦 (MapR Technologies) 2014 年年 11 ⽉月 6 ⽇日

Slide 2

Slide 2 text

® © 2014 MapR Technologies 2 ® © 2014 MapR Technologies セルフサービスデータ探索索?

Slide 3

Slide 3 text

® © 2014 MapR Technologies 3 ® © 2014 MapR Technologies セルフサービス データ探索索 業務を担当するユーザーがシステム管理理者の ⼿手を(極⼒力力)介さずに直接データ処理理を⾏行行うこと

Slide 4

Slide 4 text

® © 2014 MapR Technologies 4 ® © 2014 MapR Technologies セルフサービス データ探索索 データのフォーマットや格納形式にとらわれず 興味のある対象のデータをその場で ⾃自由に掘り下げ加⼯工していくこと

Slide 5

Slide 5 text

® © 2014 MapR Technologies 5 古くて新しい問題: データモデリングと変換

Slide 6

Slide 6 text

® © 2014 MapR Technologies 6 Hadoop/NoSQL 以前 データウェアハウス または分析⽤用DB 社内のいろいろなDB BIツール ダッシュ ボード 社内 アプリ

Slide 7

Slide 7 text

® © 2014 MapR Technologies 7 Hadoop/NoSQL 以後 データウェアハウス または分析⽤用DB 社内のいろいろなDB BIツール ダッシュ ボード 社内 アプリ Hadoop NoSQL Web アプリ Hadoop ネイティブアプリ

Slide 8

Slide 8 text

® © 2014 MapR Technologies 8 データまでの距離離 ユーザー部⾨門 (アナリスト, 開発者) Data Agility (迅速なデータ活⽤用) データ ユーザー部⾨門 (アナリスト, 開発者) 開発環境の準備, ⼿手配, サポート MapReduce Hive およびその他の SQL-on-Hadoop 既存のアプローチでは中間 組織が必要だった (IT部⾨門) データ データ ユーザー部⾨門 (アナリスト, 開発者) モデリング および変換

Slide 9

Slide 9 text

® © 2014 MapR Technologies 9 Apache Drill プロジェクト

Slide 10

Slide 10 text

® © 2014 MapR Technologies 10 Apache Drill プロジェクト •  ⼤大規模データセットのインタラクティブ分析のためのフレーム ワーク •  Google Dremel (BigQuery) のオープンソース実装 •  プロジェクトサイト: http://incubator.apache.org/drill/ •  GitHub: https://github.com/apache/incubator-drill

Slide 11

Slide 11 text

® © 2014 MapR Technologies 11 Apache Drill の特徴 •  Agility –  ⾃自⼰己記述型データ(JSON等)に対して直接クエリを実⾏行行 –  メタデータ管理理を必要最低限に、クエリの前の ETL を極⼒力力不不要に •  Flexibility –  ストレージプラグインにより様々なデータストアに対応 •  CSV, TSV, JSON, Parquet, Hive, HBase, MongoDB, REST, … •  ディレクトリツリー全体や、Hive の複数のメタストアも –  HBaseセルに格納されたJSONデータなど、複雑なデータにも対応 •  Familiarity –  標準SQLのサポート –  Hiveのスキーマ、ファイル形式、UDFをそのまま利利⽤用可能

Slide 12

Slide 12 text

® © 2014 MapR Technologies 12 Drill のインストール: クエリ結果を得るまで2分 $ tar xzf apache-drill-0.6.0.tar.gz! ! $ ./apache-drill-0.6.0/bin/sqlline -u jdbc:drill:zk=local! ! 0: jdbc:drill:zk=local>! SELECT columns[1] AS LOCATION, columns[2] AS _MONTH, max(columns[6]) AS MAX_TEMP! FROM dfs.`/root/drillwork/tokyo_2013.csv`! GROUP BY columns[1], columns[2];! +------------+------------+------------+! | LOCATION | _MONTH | MAX_TEMP |! +------------+------------+------------+! | 練⾺馬 | 01 | 9.9 |! | 練⾺馬 | 02 | 9.8 |! | 練⾺馬 | 03 | 9.5 |! | 練⾺馬 | 04 | 25.5 |! | 練⾺馬 | 05 | 29.4 |! | 練⾺馬 | 06 | 31.9 |! | 練⾺馬 | 07 | 36.1 |! | 練⾺馬 | 08 | 38.6 |! | 練⾺馬 | 09 | 36.5 |! | 練⾺馬 | 10 | 30.7 |! | 練⾺馬 | 11 | 21.8 |! | 練⾺馬 | 12 | 9.7 |! +------------+------------+------------+! 12 rows selected (0.543 seconds)! インストール シェル起動(組 み込みモード) クエリ 結果

Slide 13

Slide 13 text

® © 2014 MapR Technologies 13 ® © 2014 MapR Technologies デモ

Slide 14

Slide 14 text

® © 2014 MapR Technologies 14 デモ •  Hive テーブルに対するクエリ •  HDFS 上の CSV ファイル に対するクエリ •  HBase テーブル に対するクエリ •  MongoDB コレクション に対するクエリ •  CSV ファイルと Mongo DB コレクションの Join •  JSON ファイルに対するクエリ

Slide 15

Slide 15 text

® © 2014 MapR Technologies 15 Apache Drill: ビッグデータ向けのセルフサービス SQL •  ⾃自⼰己記述型データに 対する直接のクエリ実 ⾏行行 •  スキーマや ETL 処 理理が不不要 •  HBase および様々な NoSQL ストアに対 するクエリ実⾏行行 •  SQL を使い (JSON のような) 複雑なデ ータ型を直接処理理 •  ANSI SQL のスキルや BI ツールを活⽤用可能 •  Hive のスキーマ、フ ァイル形式、UDF がそのまま利利⽤用できる AGILITY INSTANT INSIGHTS TO BIG DATA FLEXIBILITY ONE INTERFACE FOR HADOOP & NOSQL FAMILIARITY EXISTING SKILLS & TECHNOLOGIES

Slide 16

Slide 16 text

® © 2014 MapR Technologies 16 U Ver. 0.6 • 低レイテンシSQL • ダイナミックスキーマ • ファイルおよびHBase サ ポート • Hiveインテグレーション • ANSI SQL • JDBC/ODBC/REST Ver. 1.0〜~ • YARN リソース管理理 • 認証機能 • 階層データ関数 • オプティマイザの強化 • Window関数 • Non-‐‑‒Equi 結合 • 同時実⾏行行性能の強化 • Insert/Update/Delete サポート • ワークロード管理理 • Java以外のドライバ・APIサポート 今後のプラン

Slide 17

Slide 17 text

® © 2014 MapR Technologies 17 Q & A @mapr_japan maprjapan [email protected] お問い合わせはこちらまで MapR maprtech mapr-technologies