Slide 1

Slide 1 text

データサイエンスと データエンジニア 草薙 昭彦 (@nagix) MapR Technologies

Slide 2

Slide 2 text

自己紹介 •  草薙 昭彦 (@nagix) •  MapR Technologies データエンジニア NS-SHAFT 無料!

Slide 3

Slide 3 text

業界の話

Slide 4

Slide 4 text

IT業界のトレンド •  ビッグデータ、クラウド、IoT/M2M •  データ活用の位置付けの変化 – 分析が企業の競争力に – リアルタイムなデータそのものがビジネス価値に

Slide 5

Slide 5 text

なぜ今データサイエンスか •  深い顧客の理解なしではビジネスは難しく なってきている – Web、モバイル、SNS、センサーなど、顧客に関す るあらゆるデータ •  人材の不足 – 個人の勘と経験ではなく、学術として整備 – 米国の大学ではコースが充実

Slide 6

Slide 6 text

Google トレンド

Slide 7

Slide 7 text

で、なぜ今? •  なぜ大きな会社も小さな会社も? – 巨大銀行からスタートアップまで •  なぜいろいろな業界で? – 金融、Web、製造、セキュリティ、・・・ •  なぜいろいろなアプリケーションで? – 広告ターゲティング、不正検知、故障予測、・・・ •  なぜ同じタイミングで?

Slide 8

Slide 8 text

ありがちな回答 より大量のデータが、より急速に生成される データサイズが最大容量の1台のコンピュータにも収まりきらなくなる データの生成や格納に必要なコストが下がり続けている これは正しい回答ではありません

Slide 9

Slide 9 text

分析のスケーリングの法則 •  80:20 ルール – はじめはわずかな努力で大きな成果が得られる – ところが急激にリターンが減っていく •  一方、分析に必要なコストは – これまで: 規模を増やすとコストは指数関数的に 増加 – Big Data: コストの増加は直線的 •  分析のROIの構造が根本的に変わった!

Slide 10

Slide 10 text

2,000 0 500 1000 1500 1 0 0.25 0.5 0.75 Scale Value データの規模、システムの規模、チームの規模 分析で得られる価値

Slide 11

Slide 11 text

2,000 0 500 1000 1500 1 0 0.25 0.5 0.75 Scale Value データの規模、システムの規模、チームの規模 これまで: 分析にかかるコスト

Slide 12

Slide 12 text

2,000 0 500 1000 1500 1 0 0.25 0.5 0.75 Scale Value データの規模、システムの規模、チームの規模 これまで: 分析で得られるリターン

Slide 13

Slide 13 text

2,000 0 500 1000 1500 1 0 0.25 0.5 0.75 Scale Value Big Data: 分析にかかるコスト

Slide 14

Slide 14 text

2,000 0 500 1000 1500 1 0 0.25 0.5 0.75 Scale Value Big Data: 分析で得られるリターン

Slide 15

Slide 15 text

データサイエンティストって どういう職業? •  ゴール – データに価値を見いだし – データに関するストーリーを伝えること •  そのために – 必要なデータを引き出し – 統計や機械学習の知識を駆使してモデルを作り – 結果を生成 – 顧客や経営層とのコミュニケーションを行う

Slide 16

Slide 16 text

データエンジニアってどういう職業? •  ゴール – データを適切な場所に適切な形式で格納し – 利用者がアクセスできるように整備する •  そのために – データ処理のニーズを明確化し – ニーズを満たすストレージ基盤を設計構築し – データフローやアクセスアプリケーションを整備 •  Big Data の 3V を扱えるシステムを構築する

Slide 17

Slide 17 text

技術の話

Slide 18

Slide 18 text

データサイエンティストに 求められるスキル •  統計学、機械学習 – R, SPSS, SAS, Knime, Weka, RapidMiner, SciPy, … •  データの整形・フィルタリング・正規化・加工 – Python, Java, Hadoop, Hive, SQL, Spark, Excel, … •  可視化、プレゼンテーション •  貼っておきます –  データサイエンティストというかデータ分析職に就くための最低限のスキル要件とは hYp://tjo.hatenablog.com/entry/2015/03/13/190000 –  データサイエンティスト養成読本 hYp://www.amazon.co.jp/dp/4774158968

Slide 19

Slide 19 text

データエンジニアに求められるスキル •  Python, Java, Hadoop, Hive, SQL, Spark, … •  OS, ネットワーク, ストレージ, クラウド, … Image via Data Science 101

Slide 20

Slide 20 text

大規模なデータを扱う時に重要なこと •  スケールアウト(水平スケーラビリティ) •  CPUとストレージの距離 サーバ ・・・ スケールアウト可能なアルゴリズム・データ格納方式 共有ストレージ (NAS/SAN) サーバ レイテンシ の問題 スループット の問題 サーバ サーバ サーバ 内蔵 HDD /SSD 内蔵 HDD /SSD 内蔵 HDD /SSD CPU CPU CPU

Slide 21

Slide 21 text

大規模なデータを扱う時に重要なこと •  Data Gravity(データの重力) Web App Data 分析 App Data 会計 App Data マーケ App Data 販売 App Data 販売 App Data 会計 App マーケ App

Slide 22

Slide 22 text

Hadoopって? サーバ サーバ サーバ サーバ サーバ サーバ

Slide 23

Slide 23 text

Hadoopって? サーバ Hadoop Distributed File System (HDFS) データをブロックに 分割して分散配置、 3つのレプリカ作成

Slide 24

Slide 24 text

Hadoopって? サーバ Hadoop Distributed File System (HDFS) 分割されたデータ をMap、Reduceと いう単位で並列分 散処理 MapReduce

Slide 25

Slide 25 text

Hadoopって? Hadoop Distributed File System (HDFS) MapReduce Hadoop コア

Slide 26

Slide 26 text

Hadoopって? Hadoop Distributed File System (HDFS) MapReduce Hive SQLクエリ エンジン HBase NoSQL データベース Pig データ加工 フレームワーク Mahout 機械学習 Zoo Keeper 分散レポジトリ ・・・ MapReduce/HDFS を使いやすくする ための無数のプロ ジェクト

Slide 27

Slide 27 text

Sparkって? •  (主に)MapReduce の置き換え – バッチだけでなくインタラクティブな処理も – メモリを最大限利用し、より効率よく Spark Spark SQL SQLクエリ エンジン Spark Streaming ストリーム処理 MLlib 機械学習 GraphX グラフ処理 Spark R R on Spark HDFS またはその他のファイルシステム

Slide 28

Slide 28 text

分析と機械学習 •  従来からの分析 – 集計、レポート、見える化、ルールベース処理 •  機械学習による応用 – 予測、カテゴリ分類、レコメンド、異常検知 •  データ分析のステップ 1.  ビジネスとデータの理解 2.  データの準備 3.  モデルの作成 4.  モデルの評価 5.  モデルの展開

Slide 29

Slide 29 text

Python と Hadoop/Spark •  MapReduce を Python で – mrjob, Pydoop •  Pig – Jython, cpython でユーザー定義関数を書く •  Hadoop を管理する – snakebite •  Spark を Python で – PySpark Hadoop with Python hYp://www.slideshare.net/DonaldMiner/hadoop-with-python

Slide 30

Slide 30 text

ビジネスの話

Slide 31

Slide 31 text

よくある悩み •  どこにデータがあるか分からない •  効果がわからないものに予算がつかない •  分析のスキルが足りない •  分析はできてもビジネスに結びつかない

Slide 32

Slide 32 text

ビジネスに分析を生かしている企業 hYp://itpro.nikkeibp.co.jp/atcl/column/ 14/122600137/122600002/ 「我々の仕事は、対話(アナログ)と データ分析(デジタル)の比率がそれ ぞれ50%ずつ。これが理想」 花王・石黒勲氏 hYp://special.nikkeibp.co.jp/ts/aricle/ae0d/ 180043/ 「スキルが高いデータサイエンティストよ り問題解決ができる人材」「高度な分析 技術はまず要らない」 リコー・佐藤敏明氏

Slide 33

Slide 33 text

分析をビジネスに活用するために 重要なこと •  分析の8割は基本的なスキルでカバーできる •  分析には業務知識が必須 •  「データを中心に考える」文化の醸成 •  ステップを踏んで少しずつ成果を出す •  コミュニケーション

Slide 34

Slide 34 text

ありがとうございました