Upgrade to Pro — share decks privately, control downloads, hide ads and more …

データサイエンスとデータエンジニア

 データサイエンスとデータエンジニア

業務のためのPython勉強会第1回での発表資料です。

草薙昭彦

May 28, 2015
Tweet

More Decks by 草薙昭彦

Other Decks in Technology

Transcript

  1. 2,000 0 500 1000 1500 1 0 0.25 0.5 0.75

    Scale Value データの規模、システムの規模、チームの規模 分析で得られる価値
  2. 2,000 0 500 1000 1500 1 0 0.25 0.5 0.75

    Scale Value データの規模、システムの規模、チームの規模 これまで: 分析にかかるコスト
  3. 2,000 0 500 1000 1500 1 0 0.25 0.5 0.75

    Scale Value データの規模、システムの規模、チームの規模 これまで: 分析で得られるリターン
  4. 2,000 0 500 1000 1500 1 0 0.25 0.5 0.75

    Scale Value Big Data: 分析にかかるコスト
  5. 2,000 0 500 1000 1500 1 0 0.25 0.5 0.75

    Scale Value Big Data: 分析で得られるリターン
  6. データサイエンティストに 求められるスキル •  統計学、機械学習 – R, SPSS, SAS, Knime, Weka, RapidMiner,

    SciPy, … •  データの整形・フィルタリング・正規化・加工 – Python, Java, Hadoop, Hive, SQL, Spark, Excel, … •  可視化、プレゼンテーション •  貼っておきます –  データサイエンティストというかデータ分析職に就くための最低限のスキル要件とは hYp://tjo.hatenablog.com/entry/2015/03/13/190000 –  データサイエンティスト養成読本 hYp://www.amazon.co.jp/dp/4774158968
  7. データエンジニアに求められるスキル •  Python, Java, Hadoop, Hive, SQL, Spark, … • 

    OS, ネットワーク, ストレージ, クラウド, … Image via Data Science 101
  8. 大規模なデータを扱う時に重要なこと •  Data Gravity(データの重力) Web App Data 分析 App Data

    会計 App Data マーケ App Data 販売 App Data 販売 App Data 会計 App マーケ App
  9. Hadoopって? Hadoop Distributed File System (HDFS) MapReduce Hive SQLクエリ エンジン

    HBase NoSQL データベース Pig データ加工 フレームワーク Mahout 機械学習 Zoo Keeper 分散レポジトリ ・・・ MapReduce/HDFS を使いやすくする ための無数のプロ ジェクト
  10. Sparkって? •  (主に)MapReduce の置き換え – バッチだけでなくインタラクティブな処理も – メモリを最大限利用し、より効率よく Spark Spark SQL SQLクエリ

    エンジン Spark Streaming ストリーム処理 MLlib 機械学習 GraphX グラフ処理 Spark R R on Spark HDFS またはその他のファイルシステム
  11. Python と Hadoop/Spark •  MapReduce を Python で – mrjob, Pydoop

    •  Pig – Jython, cpython でユーザー定義関数を書く •  Hadoop を管理する – snakebite •  Spark を Python で – PySpark Hadoop with Python hYp://www.slideshare.net/DonaldMiner/hadoop-with-python