PredictionIOのPython対応計画

Apache BizReach, Inc. Shinsuke Sugaya PredictionIO勉強会第2回 Python対応計画

自己紹介名前：菅谷信介会社：株式会社ビズリーチ AI室興味があること：・機械学習やDeep Learning等で解決方法を考える・オープンソースのプロダクトを作る

Topics ・PredictionIOのPython対応を考える

PredictionIOの Python対応状況

Pythonを使えません…

がしかし… ・Pythonの機械学習系ライブラリは多い　→scikit-learn, TensorFlow, Chainer,... ・Jupyterとかで分析したい　→matplotlibで普通にグラフを書きたいこの手のニーズは普通にあるのでは？

どう実現するか？ PredictionIOは主に以下の機能がある・イベントサーバ　→RESTでデータを登録するので、Python対応不要・学習処理　→Spark上で動くので、Python対応必要・予測サーバ　→Spark MLであれば、対応不要　→scikit-learnなどのモデルを作った場合は要対応

対応する箇所・学習処理　→PySparkを使えるようにする・予測サーバ　→Python独自のモデルへの対応　→（学習処理対応後に考える…）

PySpark

PySparkとは・Sparkを実行するためのPython API ・pysparkを実行するとインタラクティブモードで起動 $ ./bin/pyspark Welcome to ____ __
/ __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /__ / .__/\_,_/_/ /_/\_\ version 2.1.1 /_/ Using Python version 3.5.2 (default, Oct 31 2016 16:46:00) SparkSession available as 'spark'. >>>

PySparkとは・Jupyter上でも実行できる！

PySparkの仕組み (ざっくりと…) pyspark spark-submit spark-class $ ./bin/pyspark ____ __ /
__/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /__ / .__/\_,_/_/ /_/\_\ version 2.1.1 /_/ >>> PYTHONSTARTUPを指定してpythonを実行 Pythonを実行するコマンド引数を返却 Py4Jのサーバを起動 Sparkとの連携は Py4Jで行う

PIOとPySpark

前提・データはイベントサーバ上にある　→RDDやDataFrameはPEventStoreから取る・実行しているテンプレートの情報が必要　→pioコマンド経由で実行する

PIOでの仕組み pio pyspark pio-class $ ./bin/pyspark ____ __ / __/__
___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /__ / .__/\_,_/_/ /_/\_\ version 2.1.1 /_/ >>> pysparkを実行するコマンド引数を返却 pyspark spark-submit spark-class

開発・以下のブランチで開発を始めました https://github.com/jpioug/incubator-predictionio/tree/pyspark ・将来的にはApacheに入れる予定

課題作業を始めると様々な壁に遭遇… ・Python上ではSpark上のPy4Jの参照　→pysparkは参照をラップして使いやすくしてる・Python-Py4J-Java-Scalaでのアクセスが必要　→Pythonからアクセスしにくい・PIOは主にRDDを使っている　→DataFrameでない不便

これらの壁を乗り越えて pio pysparkを実行 $ export PYSPARK_PYTHON=$PYENV_ROOT/shims/python $ export PYSPARK_DRIVER_PYTHON=$PYENV_ROOT/shims/jupyter $
export PYSPARK_DRIVER_PYTHON_OPTS="notebook" $ ./bin/pio pyspark せっかくなので、Jupyterで実行する

動作確認 pysparkが読み込まれていればSparkContextがいる

便利関数作成 Scalaへアクセスする便利関数が必要

便利関数作成 PIOへアクセスする便利関数が必要

PIOの初期化 pio trainの処理と同じように実行して初期化

DataFrameの取得 Spark側でDataFrameを作成して Python側ではpysparkのDataFrameでラップする

DataFrameでの表示 show()で内容を表示する

SQLでの表示 Viewを作成して、Spark SQLで取得

今後・コードを整理して、Apacheに入れたい・予測サーバでの対応を考える・続きはPIO勉強会#3で…

Apache Thank You

PredictionIOのPython対応計画

PredictionIOのPython対応計画

Shinsuke Sugaya

More Decks by Shinsuke Sugaya

Other Decks in Technology

Featured

Transcript

Apache BizReach, Inc. Shinsuke Sugaya PredictionIO勉強会第2回 Python対応計画

自己紹介名前：菅谷信介会社：株式会社ビズリーチ AI室興味があること：・機械学習やDeep Learning等で解決方法を考える・オープンソースのプロダクトを作る

Topics ・PredictionIOのPython対応を考える

PredictionIOの Python対応状況

Pythonを使えません…

がしかし… ・Pythonの機械学習系ライブラリは多い　→scikit-learn, TensorFlow, Chainer,... ・Jupyterとかで分析したい　→matplotlibで普通にグラフを書きたいこの手のニーズは普通にあるのでは？

対応する箇所・学習処理　→PySparkを使えるようにする・予測サーバ　→Python独自のモデルへの対応　→（学習処理対応後に考える…）

PySpark

PySparkとは・Sparkを実行するためのPython API ・pysparkを実行するとインタラクティブモードで起動 $ ./bin/pyspark Welcome to __

PySparkとは・Jupyter上でも実行できる！

PySparkの仕組み (ざっくりと…) pyspark spark-submit spark-class $ ./bin/pyspark __ /

PIOとPySpark

前提・データはイベントサーバ上にある　→RDDやDataFrameはPEventStoreから取る・実行しているテンプレートの情報が必要　→pioコマンド経由で実行する

PIOでの仕組み pio pyspark pio-class $ ./bin/pyspark __ / /

開発・以下のブランチで開発を始めました https://github.com/jpioug/incubator-predictionio/tree/pyspark ・将来的にはApacheに入れる予定

これらの壁を乗り越えて pio pysparkを実行 $ export PYSPARK_PYTHON=$PYENV_ROOT/shims/python $ export PYSPARK_DRIVER_PYTHON=$PYENV_ROOT/shims/jupyter $

動作確認 pysparkが読み込まれていればSparkContextがいる

便利関数作成 Scalaへアクセスする便利関数が必要

便利関数作成 PIOへアクセスする便利関数が必要

PIOの初期化 pio trainの処理と同じように実行して初期化

DataFrameの取得 Spark側でDataFrameを作成して Python側ではpysparkのDataFrameでラップする

DataFrameでの表示 show()で内容を表示する

SQLでの表示 Viewを作成して、Spark SQLで取得

今後・コードを整理して、Apacheに入れたい・予測サーバでの対応を考える・続きはPIO勉強会#3で…

Apache Thank You