Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Apache Drill でたしなむ セルフサービスデータ探索

Apache Drill でたしなむ セルフサービスデータ探索

数あるSQL-on-Hadoopエンジンの中でも、標準SQL準拠、柔軟で動的なデータ解釈、様々なデータソースや格納形式への対応という特徴を持つApache Drill。デモを中心に、Drillの便利な機能を利用したデータ検索・分析の楽しみ方をご紹介します。2014年11月6日に開催されたCloudera World Tokyo 2014 LTセッションでの講演資料です。

草薙昭彦

November 07, 2014
Tweet

More Decks by 草薙昭彦

Other Decks in Technology

Transcript

  1. ® © 2014 MapR Technologies 1 ® © 2014 MapR

    Technologies Apache Drill でたしなむ セルフサービスデータ探索索 草薙 昭彦 (MapR Technologies) 2014 年年 11 ⽉月 6 ⽇日
  2. ® © 2014 MapR Technologies 2 ® © 2014 MapR

    Technologies セルフサービスデータ探索索?
  3. ® © 2014 MapR Technologies 3 ® © 2014 MapR

    Technologies セルフサービス データ探索索 業務を担当するユーザーがシステム管理理者の ⼿手を(極⼒力力)介さずに直接データ処理理を⾏行行うこと
  4. ® © 2014 MapR Technologies 4 ® © 2014 MapR

    Technologies セルフサービス データ探索索 データのフォーマットや格納形式にとらわれず 興味のある対象のデータをその場で ⾃自由に掘り下げ加⼯工していくこと
  5. ® © 2014 MapR Technologies 6 Hadoop/NoSQL 以前 データウェアハウス または分析⽤用DB

    社内のいろいろなDB BIツール ダッシュ ボード 社内 アプリ
  6. ® © 2014 MapR Technologies 7 Hadoop/NoSQL 以後 データウェアハウス または分析⽤用DB

    社内のいろいろなDB BIツール ダッシュ ボード 社内 アプリ Hadoop NoSQL Web アプリ Hadoop ネイティブアプリ
  7. ® © 2014 MapR Technologies 8 データまでの距離離 ユーザー部⾨門 (アナリスト, 開発者)

    Data Agility (迅速なデータ活⽤用) データ ユーザー部⾨門 (アナリスト, 開発者) 開発環境の準備, ⼿手配, サポート MapReduce Hive およびその他の SQL-on-Hadoop 既存のアプローチでは中間 組織が必要だった (IT部⾨門) データ データ ユーザー部⾨門 (アナリスト, 開発者) モデリング および変換
  8. ® © 2014 MapR Technologies 10 Apache Drill プロジェクト • 

    ⼤大規模データセットのインタラクティブ分析のためのフレーム ワーク •  Google Dremel (BigQuery) のオープンソース実装 •  プロジェクトサイト: http://incubator.apache.org/drill/ •  GitHub: https://github.com/apache/incubator-drill
  9. ® © 2014 MapR Technologies 11 Apache Drill の特徴 • 

    Agility –  ⾃自⼰己記述型データ(JSON等)に対して直接クエリを実⾏行行 –  メタデータ管理理を必要最低限に、クエリの前の ETL を極⼒力力不不要に •  Flexibility –  ストレージプラグインにより様々なデータストアに対応 •  CSV, TSV, JSON, Parquet, Hive, HBase, MongoDB, REST, … •  ディレクトリツリー全体や、Hive の複数のメタストアも –  HBaseセルに格納されたJSONデータなど、複雑なデータにも対応 •  Familiarity –  標準SQLのサポート –  Hiveのスキーマ、ファイル形式、UDFをそのまま利利⽤用可能
  10. ® © 2014 MapR Technologies 12 Drill のインストール: クエリ結果を得るまで2分 $

    tar xzf apache-drill-0.6.0.tar.gz! ! $ ./apache-drill-0.6.0/bin/sqlline -u jdbc:drill:zk=local! ! 0: jdbc:drill:zk=local>! SELECT columns[1] AS LOCATION, columns[2] AS _MONTH, max(columns[6]) AS MAX_TEMP! FROM dfs.`/root/drillwork/tokyo_2013.csv`! GROUP BY columns[1], columns[2];! +------------+------------+------------+! | LOCATION | _MONTH | MAX_TEMP |! +------------+------------+------------+! | 練⾺馬 | 01 | 9.9 |! | 練⾺馬 | 02 | 9.8 |! | 練⾺馬 | 03 | 9.5 |! | 練⾺馬 | 04 | 25.5 |! | 練⾺馬 | 05 | 29.4 |! | 練⾺馬 | 06 | 31.9 |! | 練⾺馬 | 07 | 36.1 |! | 練⾺馬 | 08 | 38.6 |! | 練⾺馬 | 09 | 36.5 |! | 練⾺馬 | 10 | 30.7 |! | 練⾺馬 | 11 | 21.8 |! | 練⾺馬 | 12 | 9.7 |! +------------+------------+------------+! 12 rows selected (0.543 seconds)! インストール シェル起動(組 み込みモード) クエリ 結果
  11. ® © 2014 MapR Technologies 14 デモ •  Hive テーブルに対するクエリ

    •  HDFS 上の CSV ファイル に対するクエリ •  HBase テーブル に対するクエリ •  MongoDB コレクション に対するクエリ •  CSV ファイルと Mongo DB コレクションの Join •  JSON ファイルに対するクエリ
  12. ® © 2014 MapR Technologies 15 Apache Drill: ビッグデータ向けのセルフサービス SQL

    •  ⾃自⼰己記述型データに 対する直接のクエリ実 ⾏行行 •  スキーマや ETL 処 理理が不不要 •  HBase および様々な NoSQL ストアに対 するクエリ実⾏行行 •  SQL を使い (JSON のような) 複雑なデ ータ型を直接処理理 •  ANSI SQL のスキルや BI ツールを活⽤用可能 •  Hive のスキーマ、フ ァイル形式、UDF がそのまま利利⽤用できる AGILITY INSTANT INSIGHTS TO BIG DATA FLEXIBILITY ONE INTERFACE FOR HADOOP & NOSQL FAMILIARITY EXISTING SKILLS & TECHNOLOGIES
  13. ® © 2014 MapR Technologies 16 U Ver. 0.6 • 低レイテンシSQL

    • ダイナミックスキーマ • ファイルおよびHBase サ ポート • Hiveインテグレーション • ANSI SQL • JDBC/ODBC/REST Ver. 1.0〜~ • YARN リソース管理理 • 認証機能 • 階層データ関数 • オプティマイザの強化 • Window関数 • Non-‐‑‒Equi 結合 • 同時実⾏行行性能の強化 • Insert/Update/Delete サポート • ワークロード管理理 • Java以外のドライバ・APIサポート 今後のプラン
  14. ® © 2014 MapR Technologies 17 Q & A @mapr_japan

    maprjapan [email protected] お問い合わせはこちらまで MapR maprtech mapr-technologies