Upgrade to Pro — share decks privately, control downloads, hide ads and more …

マップアールが考える企業システムにおける分析プラットフォームの進化

 マップアールが考える企業システムにおける分析プラットフォームの進化

各業界のリーダー企業は積極的なデータ活用と、データを中心としたビジネス戦略によって市場での成功を収めています。「ビッグデータ」は必ずしも課題を解決できる魔法の鍵ではない、というビッグデータブームの反動ともいえる悲観的な意見も出てきている一方、データ活用により競争力を着実につけている企業も多く存在します。本セッションでは、先進のデータ活用事例とともに、それらから得られた知見を元にした MapRの考える次世代データプラットフォームと企業の業務システムのあり方についてお話しします。2014年6月27日に開催されたData Scientist Summit 2014での講演資料です。

草薙昭彦

June 30, 2014
Tweet

More Decks by 草薙昭彦

Other Decks in Technology

Transcript

  1. ® © 2014 MapR Technologies 1 ® © 2014 MapR

    Technologies マップアールが考える企業システムにおける 分析プラットフォームの進化 草薙 昭彦 MapR Technologies
  2. ® © 2014 MapR Technologies 2 本⽇日のトピック •  業界のトレンド – 

    How・Why・Why Now •  2つの利利⽤用例例 –  機械学習と検索索技術 –  リアルタイム分析 •  エンタープライズ・データプラットフォーム
  3. ® © 2014 MapR Technologies 5 なぜ今なのか? •  ムーアの法則は⻑⾧長い間有効であった • 

    なぜ Hadoop は今流流⾏行行しているのか? •  なぜ10年年前ではなく? •  なぜ20年年前ではなく?
  4. ® © 2014 MapR Technologies 6 さらに質問 •  なぜ⼤大きな会社も⼩小さな会社も? – 

    巨⼤大銀⾏行行も社員1名のスタートアップも •  なぜいろいろな業界で? –  ⾦金金融、Web、製造、セキュリティ・・・ •  なぜいろいろなアプリケーションで? –  広告ターゲティング、不不正検知、機器故障予測・・・ •  それもほぼ同じタイミングで!
  5. ® © 2014 MapR Technologies 8 分析のスケーリングの法則 •  分析のスケーリングの法則は、80:20 ルールに従う

    –  はじめはわずかな努⼒力力で⼤大きな成果が得られる –  ところが急激にリターンが減っていく •  トータルの価値は、必要なコストがどれだけスケールするかに かかっている –  これまで – 指数関数的なスケーリング –  Big Data – リニアなスケーリング、傾きも緩やか •  コスト性能⽐比は根本的に変わった –  ただし、コモディティハードウェアを使うことができれば
  6. ® © 2014 MapR Technologies 9 2,000 0 500 1000

    1500 1 0 0.25 0.5 0.75 Scale Value そんなの知ってた それは知っておく べきだった そいつは知らなかった! ご冗談を・・そんなのあり得るの?
  7. ® © 2014 MapR Technologies 10 2,000 0 500 1000

    1500 1 0 0.25 0.5 0.75 Scale Value ⽬目が付いてれば誰でも 表計算ソフトを使うインターン 社内分析チーム 業界全体の共同データ研究 国家安全保障局
  8. ® © 2014 MapR Technologies 11 2,000 0 500 1000

    1500 1 0 0.25 0.5 0.75 Scale Value 2,000 0 500 1000 1500 1 0 0.25 0.5 0.75 Scale Value トータルの価値の最適条件は、 ⼗十分な分析をする以前に尖った ピークを持つ曲線になる
  9. ® © 2014 MapR Technologies 12 2,000 0 500 1000

    1500 1 0 0.25 0.5 0.75 Scale Value しかし、コストのスケール の法則によっては傾きと形 が変わっていく
  10. ® © 2014 MapR Technologies 13 2,000 0 500 1000

    1500 1 0 0.25 0.5 0.75 Scale Value 変化が⽬目に⾒見見えてくる
  11. ® © 2014 MapR Technologies 14 2,000 0 500 1000

    1500 1 0 0.25 0.5 0.75 Scale Value これはかなり違う
  12. ® © 2014 MapR Technologies 15 2,000 0 500 1000

    1500 1 0 0.25 0.5 0.75 Scale Value
  13. ® © 2014 MapR Technologies 16 2,000 0 500 1000

    1500 1 0 0.25 0.5 0.75 Scale Value
  14. ® © 2014 MapR Technologies 17 2,000 0 500 1000

    1500 1 0 0.25 0.5 0.75 Scale Value
  15. ® © 2014 MapR Technologies 18 2,000 0 500 1000

    1500 1 0 0.25 0.5 0.75 Scale Value
  16. ® © 2014 MapR Technologies 19 2,000 0 500 1000

    1500 1 0 0.25 0.5 0.75 Scale Value はじめは、リニアなコスト スケーリングは逆効果 ティッピングポイントに達す ると、急激に状況は改善する…
  17. ® © 2014 MapR Technologies 20 トレンドの変化の必要条件 •  ティッピングポイントに到達するには • 

    アルゴリズムが⽔水平にスケールすること –  コモディティハードウェアが前提 –  障害は必ず起きるという想定 •  データの扱い⽅方が変化すること –  データの⾮非正規化が基本になる –  データ構造定義がフレキシブルでなくてはならない –  きれいに構造化されたデータは少なくなる •  ⼈人件費もリニアであること
  18. ® © 2014 MapR Technologies 25 機械学習アルゴリズムとその実装 •  もっとシンプルで、コスト効果が⾼高いものを・・・ A

    1 A 2 ! " # $ T A 1 A 2 ! " # $= A 1 T A 2 T ! " % % # $ & & A 1 A 2 ! " # $ = A 1 T A 1 A 1 T A 2 AT 2 A 1 AT 2 A 2 ! " % % # $ & & r 1 r 2 ! " % % # $ & & = A 1 T A 1 A 1 T A 2 AT 2 A 1 AT 2 A 2 ! " % % # $ & & h 1 h 2 ! " % % # $ & & r 1 = A 1 T A 1 A 1 T A 2 ! " % # $ & h 1 h 2 ! " % % # $ & & O(κ k d + k3 d) = O(k2 d log n + k3 d) for small k, high quality O(κ d log k) or O(d log κ log k) for larger k, looser quality
  19. ® © 2014 MapR Technologies 27 共起マトリクス: アイテム対アイテム - 1

      2   1   1   1   1   2   1   0   0   0   0   あるアイテムを購⼊入したときに、⼀一緒に 購⼊入されやすいものが求められる この共起データを検索索エンジンのイン デックスとして実装するとどうなるか?
  20. ® © 2014 MapR Technologies 28 SolR Indexer SolR Indexer

    Solr イン デックス⽣生成 共起データ計算 (Mahout) アイテム メタデータ インデックス 全期間の 購⼊入履履歴 データ オフライン処理理
  21. ® © 2014 MapR Technologies 29 SolR Indexer SolR Indexer

    Solr 検索索 Web サーバ アイテム メタデータ インデックス ユーザーの 直近の 購⼊入履履歴 テキスト検索索のスコアリングと レコメンデーションのスコアリングは 数学的にほとんど同じ オンライン処理理
  22. ® © 2014 MapR Technologies 30 機械学習と検索索エンジンまとめ •  レコメンデーションは最も幅広く活⽤用されている 機械学習のアプリケーション

    •  ⾼高い効果を上げるにはシンプルにすることが最も重要 •  機械学習エンジンと検索索エンジンを統合して扱う環境 •  データが増えた場合のスケーラビリティ
  23. ® © 2014 MapR Technologies 31 リアルタイム分析の課題 機械学習は、ふつうはバッチ処理理 直前の情報が反映されない 変化地点の検知を

    すぐに⾏行行うことができない 現在のオンラインツールは、 バッチ処理理システムとうまく 連携していない
  24. ® © 2014 MapR Technologies 32 t 現在 Hadoop はあまりリアルタイムではない

    未処理理のデータ 処理理済み 直近の分析 対象期間 Hadoop ジョブは 対象データの処 理理にこれだけ必要
  25. ® © 2014 MapR Technologies 33 t 現在 Hadoop でここまでは

    うまく動作する Storm の 使いどころ リアルタイム分析と⻑⾧長期分析をいっしょに Blended view Blended view 分析の統合
  26. ® © 2014 MapR Technologies 34 ツール •  オンライン集計 – 

    ユニークセット、カウント、平均値、分散、中央値、トップ40 •  オンラインクラスタリング –  データ記述をコンパクトに –  変化点の検知に •  オンライン Bayesian Bandits –  設計の最適化に –  メタモデリングに
  27. ® © 2014 MapR Technologies 35 Storm Kafka Twitter Twitter

    API TweetLogger Kafka Cluster Kafka Cluster Kafka クラスタ Kafka API Web サービス⽤用 NAS Web データ Hadoop Flume HDFS データ
  28. ® © 2014 MapR Technologies 36 Twitter Twitter API Catcher

    Storm トピック キュー Web サーバ http Web データ TweetLogger
  29. ® © 2014 MapR Technologies 37 リアルタイム学習まとめ •  統合プラットフォームを利利⽤用することでシステムをシンプルに • 

    リアルタイム学習は、直近の変化を反映できる •  バッチ学習は、より深く包括的な分析ができる •  2つの組み合わせで、さらなる競争上の優位性を得られる
  30. ® © 2014 MapR Technologies 38 © 2014 MapR Technologies

    ® エンタープライズ・ データプラットフォーム
  31. ® © 2014 MapR Technologies 39 業務システム 分析システム 社内ユーザー • 

    データ展開 •  保管 •  データ変換 •  データ検索索 •  ストリーミング, インタラクション 2 相互運⽤用性 1 信頼性と災害対策 4 業務と分析の 両⽅方をサポート 3 ⾼高い性能 ビジネスの成功に向けた鍵 Hadoop はエンタープライズシステムの苦痛を取り 除く
  32. ® © 2014 MapR Technologies 40 Advertising Automation Cloud !

    Sellers Cloud ! Buyers ! Cloud ! 2,000億 広告オークション ⼀一⽇日あたり
  33. ® © 2014 MapR Technologies 47 Q & A @mapr_japan

    maprjapan [email protected] お問い合わせはこちらまで MapR maprtech mapr-technologies