Slide 1

Slide 1 text

® © 2014 MapR Technologies 1 ® © 2014 MapR Technologies マップアールが考える企業システムにおける 分析プラットフォームの進化 草薙 昭彦 MapR Technologies

Slide 2

Slide 2 text

® © 2014 MapR Technologies 2 本⽇日のトピック •  業界のトレンド –  How・Why・Why Now •  2つの利利⽤用例例 –  機械学習と検索索技術 –  リアルタイム分析 •  エンタープライズ・データプラットフォーム

Slide 3

Slide 3 text

® © 2014 MapR Technologies 3 © 2014 MapR Technologies ® 業界のトレンド

Slide 4

Slide 4 text

® © 2014 MapR Technologies 4 Google トレンド: ゆっくりな Explosion

Slide 5

Slide 5 text

® © 2014 MapR Technologies 5 なぜ今なのか? •  ムーアの法則は⻑⾧長い間有効であった •  なぜ Hadoop は今流流⾏行行しているのか? •  なぜ10年年前ではなく? •  なぜ20年年前ではなく?

Slide 6

Slide 6 text

® © 2014 MapR Technologies 6 さらに質問 •  なぜ⼤大きな会社も⼩小さな会社も? –  巨⼤大銀⾏行行も社員1名のスタートアップも •  なぜいろいろな業界で? –  ⾦金金融、Web、製造、セキュリティ・・・ •  なぜいろいろなアプリケーションで? –  広告ターゲティング、不不正検知、機器故障予測・・・ •  それもほぼ同じタイミングで!

Slide 7

Slide 7 text

® © 2014 MapR Technologies 7 ありがちな回答 より⼤大量量のデータが、より急速に⽣生成される データサイズが最⼤大容量量の1台のコンピュータにも収まりきらなくなる データの⽣生成や格納に必要なコストが下がり続けている これは正しい回答ではありません

Slide 8

Slide 8 text

® © 2014 MapR Technologies 8 分析のスケーリングの法則 •  分析のスケーリングの法則は、80:20 ルールに従う –  はじめはわずかな努⼒力力で⼤大きな成果が得られる –  ところが急激にリターンが減っていく •  トータルの価値は、必要なコストがどれだけスケールするかに かかっている –  これまで – 指数関数的なスケーリング –  Big Data – リニアなスケーリング、傾きも緩やか •  コスト性能⽐比は根本的に変わった –  ただし、コモディティハードウェアを使うことができれば

Slide 9

Slide 9 text

® © 2014 MapR Technologies 9 2,000 0 500 1000 1500 1 0 0.25 0.5 0.75 Scale Value そんなの知ってた それは知っておく べきだった そいつは知らなかった! ご冗談を・・そんなのあり得るの?

Slide 10

Slide 10 text

® © 2014 MapR Technologies 10 2,000 0 500 1000 1500 1 0 0.25 0.5 0.75 Scale Value ⽬目が付いてれば誰でも 表計算ソフトを使うインターン 社内分析チーム 業界全体の共同データ研究 国家安全保障局

Slide 11

Slide 11 text

® © 2014 MapR Technologies 11 2,000 0 500 1000 1500 1 0 0.25 0.5 0.75 Scale Value 2,000 0 500 1000 1500 1 0 0.25 0.5 0.75 Scale Value トータルの価値の最適条件は、 ⼗十分な分析をする以前に尖った ピークを持つ曲線になる

Slide 12

Slide 12 text

® © 2014 MapR Technologies 12 2,000 0 500 1000 1500 1 0 0.25 0.5 0.75 Scale Value しかし、コストのスケール の法則によっては傾きと形 が変わっていく

Slide 13

Slide 13 text

® © 2014 MapR Technologies 13 2,000 0 500 1000 1500 1 0 0.25 0.5 0.75 Scale Value 変化が⽬目に⾒見見えてくる

Slide 14

Slide 14 text

® © 2014 MapR Technologies 14 2,000 0 500 1000 1500 1 0 0.25 0.5 0.75 Scale Value これはかなり違う

Slide 15

Slide 15 text

® © 2014 MapR Technologies 15 2,000 0 500 1000 1500 1 0 0.25 0.5 0.75 Scale Value

Slide 16

Slide 16 text

® © 2014 MapR Technologies 16 2,000 0 500 1000 1500 1 0 0.25 0.5 0.75 Scale Value

Slide 17

Slide 17 text

® © 2014 MapR Technologies 17 2,000 0 500 1000 1500 1 0 0.25 0.5 0.75 Scale Value

Slide 18

Slide 18 text

® © 2014 MapR Technologies 18 2,000 0 500 1000 1500 1 0 0.25 0.5 0.75 Scale Value

Slide 19

Slide 19 text

® © 2014 MapR Technologies 19 2,000 0 500 1000 1500 1 0 0.25 0.5 0.75 Scale Value はじめは、リニアなコスト スケーリングは逆効果 ティッピングポイントに達す ると、急激に状況は改善する…

Slide 20

Slide 20 text

® © 2014 MapR Technologies 20 トレンドの変化の必要条件 •  ティッピングポイントに到達するには •  アルゴリズムが⽔水平にスケールすること –  コモディティハードウェアが前提 –  障害は必ず起きるという想定 •  データの扱い⽅方が変化すること –  データの⾮非正規化が基本になる –  データ構造定義がフレキシブルでなくてはならない –  きれいに構造化されたデータは少なくなる •  ⼈人件費もリニアであること

Slide 21

Slide 21 text

® © 2014 MapR Technologies 21 © 2014 MapR Technologies ® 2 つの利利⽤用例例

Slide 22

Slide 22 text

® © 2014 MapR Technologies 22 機械学習とレコメンデーション

Slide 23

Slide 23 text

® © 2014 MapR Technologies 23

Slide 24

Slide 24 text

® © 2014 MapR Technologies 24

Slide 25

Slide 25 text

® © 2014 MapR Technologies 25 機械学習アルゴリズムとその実装 •  もっとシンプルで、コスト効果が⾼高いものを・・・ A 1 A 2 ! " # $ T A 1 A 2 ! " # $= A 1 T A 2 T ! " % % # $ & & A 1 A 2 ! " # $ = A 1 T A 1 A 1 T A 2 AT 2 A 1 AT 2 A 2 ! " % % # $ & & r 1 r 2 ! " % % # $ & & = A 1 T A 1 A 1 T A 2 AT 2 A 1 AT 2 A 2 ! " % % # $ & & h 1 h 2 ! " % % # $ & & r 1 = A 1 T A 1 A 1 T A 2 ! " % # $ & h 1 h 2 ! " % % # $ & & O(κ k d + k3 d) = O(k2 d log n + k3 d) for small k, high quality O(κ d log k) or O(d log κ log k) for larger k, looser quality

Slide 26

Slide 26 text

® © 2014 MapR Technologies 26 履履歴マトリクス: ユーザー対アイテム アリス ボブ チャールズ ✔ ✔ ✔ ✔ ✔ ✔ ✔

Slide 27

Slide 27 text

® © 2014 MapR Technologies 27 共起マトリクス: アイテム対アイテム - 1   2   1   1   1   1   2   1   0   0   0   0   あるアイテムを購⼊入したときに、⼀一緒に 購⼊入されやすいものが求められる この共起データを検索索エンジンのイン デックスとして実装するとどうなるか?

Slide 28

Slide 28 text

® © 2014 MapR Technologies 28 SolR Indexer SolR Indexer Solr イン デックス⽣生成 共起データ計算 (Mahout) アイテム メタデータ インデックス 全期間の 購⼊入履履歴 データ オフライン処理理

Slide 29

Slide 29 text

® © 2014 MapR Technologies 29 SolR Indexer SolR Indexer Solr 検索索 Web サーバ アイテム メタデータ インデックス ユーザーの 直近の 購⼊入履履歴 テキスト検索索のスコアリングと レコメンデーションのスコアリングは 数学的にほとんど同じ オンライン処理理

Slide 30

Slide 30 text

® © 2014 MapR Technologies 30 機械学習と検索索エンジンまとめ •  レコメンデーションは最も幅広く活⽤用されている 機械学習のアプリケーション •  ⾼高い効果を上げるにはシンプルにすることが最も重要 •  機械学習エンジンと検索索エンジンを統合して扱う環境 •  データが増えた場合のスケーラビリティ

Slide 31

Slide 31 text

® © 2014 MapR Technologies 31 リアルタイム分析の課題 機械学習は、ふつうはバッチ処理理 直前の情報が反映されない 変化地点の検知を すぐに⾏行行うことができない 現在のオンラインツールは、 バッチ処理理システムとうまく 連携していない

Slide 32

Slide 32 text

® © 2014 MapR Technologies 32 t 現在 Hadoop はあまりリアルタイムではない 未処理理のデータ 処理理済み 直近の分析 対象期間 Hadoop ジョブは 対象データの処 理理にこれだけ必要

Slide 33

Slide 33 text

® © 2014 MapR Technologies 33 t 現在 Hadoop でここまでは うまく動作する Storm の 使いどころ リアルタイム分析と⻑⾧長期分析をいっしょに Blended view Blended view 分析の統合

Slide 34

Slide 34 text

® © 2014 MapR Technologies 34 ツール •  オンライン集計 –  ユニークセット、カウント、平均値、分散、中央値、トップ40 •  オンラインクラスタリング –  データ記述をコンパクトに –  変化点の検知に •  オンライン Bayesian Bandits –  設計の最適化に –  メタモデリングに

Slide 35

Slide 35 text

® © 2014 MapR Technologies 35 Storm Kafka Twitter Twitter API TweetLogger Kafka Cluster Kafka Cluster Kafka クラスタ Kafka API Web サービス⽤用 NAS Web データ Hadoop Flume HDFS データ

Slide 36

Slide 36 text

® © 2014 MapR Technologies 36 Twitter Twitter API Catcher Storm トピック キュー Web サーバ http Web データ TweetLogger

Slide 37

Slide 37 text

® © 2014 MapR Technologies 37 リアルタイム学習まとめ •  統合プラットフォームを利利⽤用することでシステムをシンプルに •  リアルタイム学習は、直近の変化を反映できる •  バッチ学習は、より深く包括的な分析ができる •  2つの組み合わせで、さらなる競争上の優位性を得られる

Slide 38

Slide 38 text

® © 2014 MapR Technologies 38 © 2014 MapR Technologies ® エンタープライズ・ データプラットフォーム

Slide 39

Slide 39 text

® © 2014 MapR Technologies 39 業務システム 分析システム 社内ユーザー •  データ展開 •  保管 •  データ変換 •  データ検索索 •  ストリーミング, インタラクション 2 相互運⽤用性 1 信頼性と災害対策 4 業務と分析の 両⽅方をサポート 3 ⾼高い性能 ビジネスの成功に向けた鍵 Hadoop はエンタープライズシステムの苦痛を取り 除く

Slide 40

Slide 40 text

® © 2014 MapR Technologies 40 Advertising Automation Cloud ! Sellers Cloud ! Buyers ! Cloud ! 2,000億 広告オークション ⼀一⽇日あたり

Slide 41

Slide 41 text

® © 2014 MapR Technologies 41 2,000万 曲

Slide 42

Slide 42 text

® © 2014 MapR Technologies 42 4,500万 買い物客 ⼀一ヶ⽉月あたり分析対象 フォーチュン100⼩小売⼤大⼿手

Slide 43

Slide 43 text

® © 2014 MapR Technologies 43 世界最⼤大のバイオメトリックデータベース PEOPLE 12億 ⼈人

Slide 44

Slide 44 text

® © 2014 MapR Technologies 44 重複する処理理システム、部⾨門毎の構築の取り組みから… エンタープライズ・データアーキテクチャの変⾰革の 好機

Slide 45

Slide 45 text

® © 2014 MapR Technologies 45 ® … 業務と分析ワークロードの統合へ ⾼高信頼なエンタープライズデータハブ

Slide 46

Slide 46 text

® © 2014 MapR Technologies 46 Hadoop に関する総合情報:Hadoop Times http://www.hadoop-times.com/

Slide 47

Slide 47 text

® © 2014 MapR Technologies 47 Q & A @mapr_japan maprjapan [email protected] お問い合わせはこちらまで MapR maprtech mapr-technologies