Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ビジネスへの本格活用が始まったHadoopの今 ~MapRが選ばれる理由~

ビジネスへの本格活用が始まったHadoopの今 ~MapRが選ばれる理由~

大手メディア、大手家電等のエンタープライズ企業が採用するMapR Hadoopディストリビューションの特長、事例、ロードマップについてのご紹介。2014年2月26日に開催されたビッグデータEXPO東京 2014での講演資料です。

草薙昭彦

February 26, 2014
Tweet

More Decks by 草薙昭彦

Other Decks in Technology

Transcript

  1. © MapR Technologies ® © MapR Technologies ® マップアール・テクノロジーズ株式会社 システムエンジニア

    草薙 昭彦 2014 年年 2 ⽉月 26 ⽇日 ビジネスへの本格活⽤用が 始まった Hadoop の今 〜~MapR が選ばれる理理由〜~
  2. © MapR Technologies ® Hadoop ディストリビューション INFRASTRUCTURE INNOVATIONS MANAGEMENT INNOVATIONS

    OPEN SOURCE OPEN SOURCE OPEN SOURCE MANAGEMENT INNOVATIONS ディストリビューションC ディストリビューションM ディストリビューションA
  3. © MapR Technologies ® Hadoop ディストリビューション INFRASTRUCTURE INNOVATIONS MANAGEMENT INNOVATIONS

    OPEN SOURCE OPEN SOURCE OPEN SOURCE MANAGEMENT INNOVATIONS ディストリビューションC ディストリビューションA
  4. © MapR Technologies ® 課題1: データの移動 ステージング ファイルサーバ 企業内ユーザー 分析システム

    専⽤用ツール による バッチ投⼊入 専⽤用コネクタ による RDBへの ロード RDBからのダンプ ・ファイル転送 レポーティング ・クエリー ETL・整形・集計 ・キューブ作成 「とにかく時間がかかる」 「専⽤用ツール・コネクタの メンテナンスが⼤大変」 業務システム
  5. © MapR Technologies ® MapR NFS ダイレクトアクセス レポーティング ・クエリー ETL・整形・集計

    ・キューブ作成 NFSによる 直接投⼊入 NFS経由で RDBネイティブ ローダー利利⽤用 より直近のデータを分析対象に 外部システムが変わっても NFS ならば対応が容易易 企業内ユーザー 分析システム 業務システム
  6. © MapR Technologies ® HDFS vs MapR FS HDFS Hadoop

    標準ファイルシステム MapR FS MapR 最適化ファイルシステム NFS のフル機能と⾼高い性能を提供できるのは アーキテクチャが異異なるから ライトワンス 同時 R/W アクセス不不可 (ファイルクローズするまで他から⾒見見えない) ランダム R/W 同時 R/W 可能 (書き込み中のファイルが他から読める)
  7. © MapR Technologies ® Volume, Snapshot, Mirroring 部⾨門B 部⾨門A 部⾨門C

    部⾨門Aボリューム 部⾨門Bボリューム 部⾨門Cボリューム
  8. © MapR Technologies ® Volume, Snapshot, Mirroring 部⾨門B 部⾨門A 部⾨門C

    部⾨門Aボリューム 部⾨門Bボリューム 部⾨門Cボリューム 部⾨門A ミラーボリューム 部⾨門B ミラーボリューム 部⾨門C ミラーボリューム スナップショット スナップショット スナップショット スナップショット スナップショット スナップショット 災害対策⽤用リモートクラスタ
  9. © MapR Technologies ® HDFS vs MapR FS ⼀一貫性のあるスナップショット・ミラーリングを 提供できるのはアーキテクチャが異異なるから

    MapR FS Mirroring HDFS Snapshot MapR FS Snapshot ディレクトリ単位、⼀一貫性の ないイメージ (メタデータのみの⼀一貫性) ボリューム単位の ⼀一貫性のあるイメージ HDFS ベースの分散コピー MapReduce ジョブによる ファイル単位の転送 ⼀一貫性のないイメージ ネイティブプロセスによる ブロック単位の転送 ⼀一貫性のあるイメージ
  10. © MapR Technologies ® 課題3: ⼈人⼿手/コストをかけない運⽤用 クラスタの規模が⼤大きくなってく ると、サーバ台数を数%増やすだけ で年年間数千万円のコスト増に・・・ ハードウェアのコモディティ化が

    進んだ今、もっとも貴重でコスト が⾼高いリソースは⼈人。システムの 運⽤用よりもコアビジネスにエンジ ニアを多く割り当てたい・・・
  11. © MapR Technologies ® サーバ台数削減による TCO 改善 Read/Write スループット ベンチマーク

    DFSIO Read スループット DFSIO Write スループット MB per Second MB per Second ソース: Flux7 Labs Study, 2013年年10⽉月 120台 50台 他ディストリビューション 実際の事例例
  12. © MapR Technologies ® MapR 統合データプラットフォーム §  NoSQLカラムストア   § 

    Apache HBase API §  In-Hadoopデータベース HBase JVM HDFS JVM ext3/ext4 ディスク 他ディストリビューション テーブル/ファイル ディスク MapR M7 多層のレイヤーを統合し、オーバーヘッドを除去 ⾼高い性能と運⽤用管理理の⼤大幅な簡素化を実現
  13. © MapR Technologies ® MapR Distribution for Hadoop MapR Data

    Platform エンタープライズ グレード パフォーマンス マルチテナント データ保護 相互運⽤用性 業務 & 分析 Management MapR Data Platform MAPR-DB MAPR-FS APACHE HADOOP ECOSYSTEM Hue ... Shark Impala Drill Hive/ Stinger/ Tez Sqoop Storm Sentry Spark Solr Cascading Mahout Flume Oozie HBase MapReduce YARN Pig Whirr Zookeeper MapR Data Platform TABLES FILES MapR Data Platform MAPR-DB MAPR-FS Patent Pending •  ⾼高可⽤用性 •  データ保護 •  ディザスタリカバリ •  2〜~5倍の性能 •  標準ファイルアクセス •  標準データベースア クセス •  プラガブルサービス •  幅広い開発者⽀支援 •  エンタープライズ セキュリティ認証 •  ワイヤレベル認証 •  データガバナンス •  予測分析・リアル タイムデータベー ス処理理・⾼高レート のデータ流流⼊入をサ ポートする能⼒力力 •  トランザクション の完全性を提供す る処理理フレームワ ークユニット •  クラスタを論論理理的に 分割して異異なる⽤用途 ・ジョブの種類・ユ ーザーグループ・管 理理者をサポート
  14. © MapR Technologies ® 多くの Hadoop プロジェクトは まだ実験段階 幅広い業務利利⽤用 10

    – 2000 ノード 最初の業務事例例 1 – 10 ノード 開発/テストが中⼼心: 教育/サービス
  15. © MapR Technologies ® リアルタイム広告オークション Advertising Automation Cloud ! Sellers

    Cloud ! Buyers ! Cloud ! 900億 広告オークション ⼀一⽇日あたり
  16. © MapR Technologies ® MapR 最新のリリース 1 2 3 YARN

    をサポートした Apache Hadoop 2.2 を含む最新のデ ィストリビューションを発表 無償で使⽤用できる開発者向け Hadoop Sandbox を発表 HP Vertica プラットフォームを MapR 上で提供 O’Reilly Strata Conference 2014 in Santa Clara (2014/2/11〜13) での発表 既存アプリと MapReduce以外の アプリを共存可能に 開発と運⽤用⼿手法の 習得を加速 SQLでの分析・ 業務処理理の統合
  17. © MapR Technologies ® さっそく MapR を始めましょう MapR Sandbox 無償の開発者向け

    シングルノードVMイメージ Amazon Web Services (EMR) Google Compute Engine 数分でクラウド上でクラスタを⽴立立ち上げ MapR 評価版ダウンロード 30⽇日間無償の評価ライセンス Free Trial